猫眼电影
猫眼电影记者 乔迪 报道Q8X2R7L1T4J5M9B6W3
UniME-V2团队 投稿量子位 | 公众号 QbitAI
统一多模态嵌入模型是众多任务的技术基石。
当前主流方法通常采用批内负例挖掘策略,通过计算查询-候选对的相似度进行训练。
但这类方法存在明显局限:难以捕捉候选样本间细微的语义差异,负例样本多样性不足,且模型在区分错误负例与困难负例时的判别能力有限。
针对这些问题,团队提出全新解决方案——基于多模态大模型语义理解能力的统一多模态嵌入模型UniME-V2。
该方法首先通过全局检索构建潜在困难负例集,随后创新性地引入“MLLM-as-a-Judge”机制:利用MLLM对查询-候选对进行语义对齐评估,生成软语义匹配分数。
这一设计带来三重突破:
以匹配分数为依据实现精准困难负例挖掘,有效规避错误负例干扰确保筛选出的困难负例兼具多样性与高质量特性通过软标签机制打破传统一对一的刚性映射约束
通过将模型相似度矩阵与软语义匹配分数矩阵对齐,使模型真正学会辨析候选样本间的语义差异,显著提升判别能力。
为进一步提升性能,团队基于挖掘的困难负例训练出重排序模型UniME-V2-Reranker,采用配对与列表联合优化策略。
图1 UniME-V2与以往方法的本质不同,在于巧妙利用了多模态大模型(MLLM)的深层语义理解能力。它不仅能用此能力精准挖掘“困难负例”,更能生成一个软语义匹配分数,如同一位资深导师,指导模型学会辨别候选样本间微妙的语义差异。
方法MLLM-as-a-Judge 困难负样本挖掘
过去的研究主要依赖于批内硬负样本挖掘,其中计算查询-候选嵌入相似性以采样负样本。
然而,这种方法通常受到负样本多样性有限和嵌入判别能力不足的困扰,难以有效区分错误和困难的负样本。
为了克服这些挑战,如图2所示,首先利用全局检索构建一个潜在的困难负样本集。
之后,利用MLLM的强大理解能力来评估每个查询-候选对的语义对齐性,并生成软语义匹配分数。
这个分数指导了硬负样本挖掘,使得能够识别出多样化和高质量的困难负样本,同时减少错误负样本的影响。
图2:基于MLLM-as-a-Judge的困难负样本挖掘流程。我们首先利用现有的多模态嵌入模型进行全局检索,构建一个潜在的困难负样本集。然后,利用MLLM强大的理解能力根据语义对齐性对查询-候选对进行评分,从而精确识别困难负样本。
潜在困难负样本集合为了从全局样本中提取更高质量的困难负样本,首先使用VLM2Vec为查询和候选生成嵌入。
接着,为每个查询检索出50个最相关的候选。
为了应对错误负样本并增加多样性,我们基于查询-候选相似度分数设定一个相似度阈值,并选择前50名的候选作为潜在的困难负样本集:
其中 是由VLM2Vec模型计算得出的查询 与候选 的相似度分数。
语义匹配分数在构建潜在的困难负样本集后,我们使用MLLM作为评判,为中的每个查询-候选对计算语义匹配分数,具体指令如下:
随后,根据()和()标记的logits计算语义匹配分数,其中。这里,表示查询的数量。利用MLLMs的高级理解能力,语义匹配分数有效地捕捉了查询和候选之间的语义对齐程度。
困难负样本采样为了提高困难负样本的质量,利用语义匹配分数对候选进行精炼。
候选样本的分数超过阈值(其中表示正样本,是控制阈值间隔的超参数)则会当作错误负样本并排除。为保持多样性,采用五步间隔的循环采样策略。
如果精炼后的集合包含的候选少于十个,将重复选择以确保至少有十个。
在极少数情况下(<1%),如果没有候选符合条件,将从最初的五十个候选中随机选择10个,并给每个分配1.0的语义匹配分数。
最后,对于每个查询,我们获得困难负样本集及其相应的语义匹配分数。
图3:基于MLLM判断的训练框架结构。UniME-V2使用软语义匹配分数作为监督信号,以增强候选者间的语义区分学习。UniME-V2-Reranker采用pairwise和listwise联合训练以提升重排序性能。
基于MLLM判断的训练框架
UniME-V2为此提出了一个基于MLLM判断的分布对齐框架,如图3所示,利用软语义匹配分数作为监督信号来提高表征性能。
具体来说,给定一个查询及其候选集,将它们输入到MLLM中,并提取最后一个标记作为查询和候选集的嵌入,其中是目标候选的嵌入,是每个查询的困难负样本数。然后计算查询嵌入与候选嵌入之间的关系得分矩阵如下:
基于语义匹配分数,计算由MLLM判断得出的语义匹配分数矩阵如下:
为了增强学习的稳健性并确保矩阵对称性,采用了JS-Divergence,这是KL-Divergence的一种对称替代。最终的损失函数定义为:
除此之外,受前人工作启发,UniME-V2联合pairwise和listwise训练了一个重排序模型UniME-V2-Reranker(如图3所示)来提高基于初始嵌入的检索精度。
在成对训练中,为每个查询构造两对,一对与正候选结合,另一对与最困难的负候选结合。然后指导UniME-V2-Reranker对正候选输出,对负候选输出。成对损失使用交叉熵损失函数计算如下:
其中表示UniME-V2-Reranker的自回归输出过程。对于列表训练,基于语义匹配分数,从困难负候选中选择前个候选,随机插入目标候选并获取其索引。
然后提示UniME-V2-Reranker输出真实位置,公式为:
最终的损失函数定义为。
表1:MMEB基准测试结果。IND表示在分布内,OOD表示在分布外。分数为补充材料中的平均精度结果。
实验多模态检索
表1展示了在相同训练数据和配置下UniME-V2与现有基线模型在MMEB基准上的性能对比。
UniME-V2在各种基础模型上均有显著的性能提升。
具体来说,UniME-V2在Qwen2-VL-2B和7B模型上分别比VLM2Vec高出3.5%和2.2%。
当基于LLaVA-OneVision作为基础时,UniME-V2比包括QQMM、LLaVE和UniME在内的之前的最先进模型提高了0.5%-0.9%。此外,UniME-V2在分布外数据集上的得分为66.7,凸显其鲁棒性和卓越的迁移能力。
表2:在短描述(Flickr30K, MS-COCO)、长描述(ShareGPT4V, Urban1K)和组合(SugarCrepe)数据集上的零样本文本-图像检索结果。
跨模态检索
如表2所示,在零样本跨模态检索任务上评估UniME-V2。对于短描述数据集,包括Flickr30K和MS-COCO,UniME-V2在图像到文本检索中比UniME表现出了2.2%-9.7%的性能提升。
在文本到图像检索中,其性能与UniME相当,这主要归因于两个因素:
(1)MMEB训练集中文本到图像数据的比例有限;
(2)短描述中的语义信息不足。
对于长描述跨模态检索任务,UniME-V2在ShareGPT4V和Urban1K上取得了显著改进,这得益于其增强的区分能力和详细描述提供的丰富语义内容。
值得注意的是,与EVA-CLIP-8B相比,UniME-V2展示了更为稳健的检索性能,这主要因为其通用多模态嵌入能显著减少模态间的差距(如图4所示)。
图4:EVA-CLIP-8B与UniME-V2(LLaVA-OneVision-7B)之间的表示分布对比。
组合跨模态检索
基于SugarCrepe评估UniME-V2模型区分困难负样本的能力。
如表2所示,UniME-V2在所有评估指标上均表现出卓越性能。
与UniME相比在使用Qwen2-VL-2B时性能提升了5.3%,6.0%,4.5%。当模型从2B扩展到7B后也实现了9.0%,9.2%,9.2%的性能提升。
此外,与EVA-CLIP-8B相比,UniME-V2还显示出2.7%,3.4%,和3.8%的改进,凸显其在区分困难负样本上的强大能力。
表3:使用UniME-V2 (Qwen2-VL-7B) 和 UniME-V2 (Qwen2-VL-2B) 比较LamRA与UniME-V2-Reranker的重排序性能。
重排序对比
在表3中基于top5检索结果对比了LamRA与UniME-V2-Reranker的性能。为确保公平,使用与LamRA相同的训练参数和基础模型(Qwen2.5-VL-7B)。
当使用LamRA和UniME-V2-Reranker对UniME-V2 (Qwen2-VL-2B) 检索结果进行重排后在四个下游任务上均提升了性能。
UniME-V2-Reranker在只使用一半数据的情况下始终获得更优结果。类似地,使用UniME-V2 (Qwen2-VL-7B) 进行检索时,UniME-V2-Reranker的表现也超过了LamRA,在四个任务中分别获得了0.5%,0.4%,0.3%,和7.4%的性能提升。
值得注意的是,UniME-V2-Reranker在组合理解检索任务中展示了对LamRA的显著优势,这归功于其利用MLLM的理解能力提取多样化和高质量的困难样本,有效增强了模型的区分能力。
论文:
https://arxiv.org/abs/2510.13515
GitHub:
https://github.com/GaryGuTC/UniME-v2
??时事1:久别的草原星辰影院
??11月16日,蓝天立:感谢“小东北虎”“小雾凇”“小冻梨”们和广西的双向奔赴,
与此同时,空中传来长鸣声,狂风大作,数头凶禽飞来,每一头都有五六米长,羽翼展开足有十一二米,俯冲下来,当场就将六七人撕裂,鲜血满地。
,精彩国产黄色视频。??11月16日,出口新机遇!“通道+平台”政策叠加实现“经贸+产业”联动发展,
其次,要认清城镇化的促进带动作用。城镇化是人类生产和生活方式由乡村向城市转化的历史过程,是人类社会走向现代文明的重要标志,也是一个国家和地区经济实力和现代化水平的重要象征。一是城镇化是推动经济持续稳定增长的强大动力。经济发展与城镇化密切相关,据专家分析,由于城市居民的消费水平高于农民倍以上,城镇人口每提高一个百分点,社会消费品零售总额将上升个百分点,要拉动增长个百分点;城镇人口比重每增加个百分点,住房消费就拉动增长个百分点,二者综合相加,城镇人口每提高个百分点,可直接拉动增长个百分点。从世界经济发展情况看,城镇化率越高,经济越发达。世界银行的资料分析表明,人均为美元的低收入国家,城镇化率为;人均为美元的中下等收入国家,城镇化率为,人均为美元的中等收入国家,城镇化率为;人均为美元的中上等收入国家,城镇化率为;人均为美元的高收入国家,城镇化率为。我国经济发展的情况也是如此,东部沿海经济发展快的省市,城镇化率普遍较高,中西部地区经济发展相对缓慢,城镇化率普遍偏低。二是城镇化是工业化的重要载体。工业化需要集聚状态,只有工业生产的各种要素高度集中,才会形成集聚效应,而城镇化的过程就是人口集聚和工业集聚的过程,能形成较大的商品流、物质流、信息流,对周边区域资本、技术、人才、劳力等各种要素产生越来越大的吸引力。也就是说,城镇化可以为工业化提供高素质的劳动力和集中、高效、便捷的公共服务,能够创造需求、刺激消费、降低成本、提高效率,加快二、三产业的聚集,推动工业化向深度和广度发展。如果城镇化滞后于工业化,则会对工业化发展产生制约和阻碍。“”时间,是我国城镇化、工业化加速发展的重要时期,面临着加快城镇化进程和走新型工业化道路的双重任务,而目前我国普遍存在城镇化水平低、城镇化滞后于工业化的问题,势必会严重制约工业化进程。我市城镇化水平还比较低,这就制约了工业化发展。如果不尽快提高城镇化水平,就会严重影响我市工业化发展进程,拖工业化发展的后腿。这就要求我们必须认清和顺应经济社会发展的基本趋势和规律,进一步增强加快城镇化进程的紧迫感和责任感,切实加快城镇化发展步伐。三是城镇化是农业产业化的促进力量。城镇化的实质就是最大限度地减少农民。城镇化程度的提高,可以从根本上改变农村人口固守农业找饭吃的传统格局,可以加速农业经济结构和产业结构调整,为农业规模经营和集约经营创造条件。通过发展城镇巨大的聚集功能和辐射作用,积极培育农业产业规模经营的组织优势、机制优势和创新优势,利用资源优势和区位优势,组建各种农产品生产加工基地,最大可能地利用城镇现有科技水平和手段,生产加工出高质量、有特色、低成本的精细农产品来,实现一条龙生产经营规模,真正把农户与企业、生产与流通、种植业和养殖业以及农产品加工业有机结合起来,使农业产业规模化经营依托城镇化建设得以实现和发展。四是城镇化是建设社会主义新农村的助推器。建设社会主义新农村,最根本的还是要解决“三农”问题,其根本出路在于加快推进城镇化建设,以工业的理念发展农业,促进农业产业化和农民增收;以城市的理念改造农村,促进农村改变面貌;以国民的理念转化农民,提高农民的素质,把大量农村人口变为城镇居民,不断提高农业劳动生产率。工业化国家的实践证明,只有农村人口数量下降到总人口的以下时,农业土地集约式生产、农业规模化生产和工业化生产才能达到一定水平,农业科技含量、服务水平和农业效益才能大幅提高,农民文化水平和整体素质才会有明显进步,农业现代化才能够实现。
,王牌竞速美女被操,色欲日本又色又爽又黄的A片,欧美美女性爱一区。??时事2:一道本在线
??11月16日,全国台联第三十届台胞青年冬令营海外营开营,
毕业班 篇7
,林小喜趣味阁,www性欧美,欧美日韩图片小说。??11月16日,黄磊:做善良的人,是一种“渡我”,
自这一日后,石昊开始了艰苦的修行,偶尔会得到柳树的提点,认真熬炼肉身,强壮筋骨。
,爽爽兔,黄片com,国产91精品秘 AI换脸。??时事3:高清乱码 毛片
??11月16日,数读中国 | 中国制造向“高”攀登 彰显高质量发展坚实底气,
小不点眼眸冷冽,大喝道:“给我开!”
,🌷可以买足球的app排行榜前十名,免费日韩视频,收藏请牢记永不失联。??11月16日,海南东方市附近海域沉船失联9人安全获救,
同学们,XX年将是我们共和国历史上极其不平凡又极其伟大、光荣的一年。迎世博,我们满怀激情;同学们,带着你们一次次心灵的震撼,带着你们自己的人生规划,带着你们对美好理想的追求,勇敢地去搏击中考、迈出你们人生新的步伐吧。今天你们是“小荷才露尖尖角”,明天你们展现出的将是“映日荷花别样红。”祝你们成功!
,三级视频在线播放观看视频,欧美人性交大先视频,欧美一二三区操逼视频。??时事4:影音先锋888xy资源站
??11月16日,日本茨城县附近海域发生4.0级地震 福岛县有震感,
“作弊啊,就凭他,怎么可能会开创一项记录?!”一群人大叫。
,欧美熟妇XXXXX色熟妇Y,国产美女裸体无遮挡,国产一级精品A片免费。??11月16日,2500只大熊猫雕塑抵港 古天乐佘诗曼到场迎接,
接着,他换了另一只手,同样举起,通体都有一层光辉,那是肉身自动化生而成的,代表了一种极境!
,男人天堂亚综合网,高清孕妇性孕交,9.1看片 大。责编:席倩
审核:李琼云
责编:卡罗莱纳












