九号球服小说,海量高清资源免费畅享,热门影视综艺一网打尽

首页 >新闻 >社会新闻

多模态检索新突破，用软标签打破传统刚性映射约束，全面超越CLIP

2025-11-18 08:23:30

来源：

猫眼电影

作者：

高泽华

手机查看

　　猫眼电影记者李正宇报道Q8X2R7L1T4J5M9B6W3

UniME-V2团队投稿量子位 | 公众号 QbitAI

统一多模态嵌入模型是众多任务的技术基石。

当前主流方法通常采用批内负例挖掘策略，通过计算查询-候选对的相似度进行训练。

但这类方法存在明显局限：难以捕捉候选样本间细微的语义差异，负例样本多样性不足，且模型在区分错误负例与困难负例时的判别能力有限。

针对这些问题，团队提出全新解决方案——基于多模态大模型语义理解能力的统一多模态嵌入模型UniME-V2。

该方法首先通过全局检索构建潜在困难负例集，随后创新性地引入“MLLM-as-a-Judge”机制：利用MLLM对查询-候选对进行语义对齐评估，生成软语义匹配分数。

这一设计带来三重突破：

以匹配分数为依据实现精准困难负例挖掘，有效规避错误负例干扰确保筛选出的困难负例兼具多样性与高质量特性通过软标签机制打破传统一对一的刚性映射约束

通过将模型相似度矩阵与软语义匹配分数矩阵对齐，使模型真正学会辨析候选样本间的语义差异，显著提升判别能力。

为进一步提升性能，团队基于挖掘的困难负例训练出重排序模型UniME-V2-Reranker，采用配对与列表联合优化策略。

图1 UniME-V2与以往方法的本质不同，在于巧妙利用了多模态大模型（MLLM）的深层语义理解能力。它不仅能用此能力精准挖掘“困难负例”，更能生成一个软语义匹配分数，如同一位资深导师，指导模型学会辨别候选样本间微妙的语义差异。

方法MLLM-as-a-Judge 困难负样本挖掘

过去的研究主要依赖于批内硬负样本挖掘，其中计算查询-候选嵌入相似性以采样负样本。

然而，这种方法通常受到负样本多样性有限和嵌入判别能力不足的困扰，难以有效区分错误和困难的负样本。

为了克服这些挑战，如图2所示，首先利用全局检索构建一个潜在的困难负样本集。

之后，利用MLLM的强大理解能力来评估每个查询-候选对的语义对齐性，并生成软语义匹配分数。

这个分数指导了硬负样本挖掘，使得能够识别出多样化和高质量的困难负样本，同时减少错误负样本的影响。

图2：基于MLLM-as-a-Judge的困难负样本挖掘流程。我们首先利用现有的多模态嵌入模型进行全局检索，构建一个潜在的困难负样本集。然后，利用MLLM强大的理解能力根据语义对齐性对查询-候选对进行评分，从而精确识别困难负样本。

潜在困难负样本集合为了从全局样本中提取更高质量的困难负样本，首先使用VLM2Vec为查询和候选生成嵌入。

接着，为每个查询检索出50个最相关的候选。

为了应对错误负样本并增加多样性，我们基于查询-候选相似度分数设定一个相似度阈值，并选择前50名的候选作为潜在的困难负样本集：

其中是由VLM2Vec模型计算得出的查询与候选的相似度分数。

语义匹配分数在构建潜在的困难负样本集后，我们使用MLLM作为评判，为中的每个查询-候选对计算语义匹配分数，具体指令如下：

随后，根据（）和（）标记的logits计算语义匹配分数，其中。这里，表示查询的数量。利用MLLMs的高级理解能力，语义匹配分数有效地捕捉了查询和候选之间的语义对齐程度。

困难负样本采样为了提高困难负样本的质量，利用语义匹配分数对候选进行精炼。

候选样本的分数超过阈值（其中表示正样本，是控制阈值间隔的超参数）则会当作错误负样本并排除。为保持多样性，采用五步间隔的循环采样策略。

如果精炼后的集合包含的候选少于十个，将重复选择以确保至少有十个。

在极少数情况下（<1%），如果没有候选符合条件，将从最初的五十个候选中随机选择10个，并给每个分配1.0的语义匹配分数。

最后，对于每个查询，我们获得困难负样本集及其相应的语义匹配分数。

图3：基于MLLM判断的训练框架结构。UniME-V2使用软语义匹配分数作为监督信号，以增强候选者间的语义区分学习。UniME-V2-Reranker采用pairwise和listwise联合训练以提升重排序性能。

基于MLLM判断的训练框架

UniME-V2为此提出了一个基于MLLM判断的分布对齐框架，如图3所示，利用软语义匹配分数作为监督信号来提高表征性能。

具体来说，给定一个查询及其候选集，将它们输入到MLLM中，并提取最后一个标记作为查询和候选集的嵌入，其中是目标候选的嵌入，是每个查询的困难负样本数。然后计算查询嵌入与候选嵌入之间的关系得分矩阵如下：

基于语义匹配分数，计算由MLLM判断得出的语义匹配分数矩阵如下：

为了增强学习的稳健性并确保矩阵对称性，采用了JS-Divergence，这是KL-Divergence的一种对称替代。最终的损失函数定义为：

除此之外，受前人工作启发，UniME-V2联合pairwise和listwise训练了一个重排序模型UniME-V2-Reranker（如图3所示）来提高基于初始嵌入的检索精度。

在成对训练中，为每个查询构造两对，一对与正候选结合，另一对与最困难的负候选结合。然后指导UniME-V2-Reranker对正候选输出，对负候选输出。成对损失使用交叉熵损失函数计算如下：

其中表示UniME-V2-Reranker的自回归输出过程。对于列表训练，基于语义匹配分数，从困难负候选中选择前个候选，随机插入目标候选并获取其索引。

然后提示UniME-V2-Reranker输出真实位置，公式为：

最终的损失函数定义为。

表1：MMEB基准测试结果。IND表示在分布内，OOD表示在分布外。分数为补充材料中的平均精度结果。

实验多模态检索

表1展示了在相同训练数据和配置下UniME-V2与现有基线模型在MMEB基准上的性能对比。

UniME-V2在各种基础模型上均有显著的性能提升。

具体来说，UniME-V2在Qwen2-VL-2B和7B模型上分别比VLM2Vec高出3.5%和2.2%。

当基于LLaVA-OneVision作为基础时，UniME-V2比包括QQMM、LLaVE和UniME在内的之前的最先进模型提高了0.5%-0.9%。此外，UniME-V2在分布外数据集上的得分为66.7，凸显其鲁棒性和卓越的迁移能力。

表2：在短描述（Flickr30K, MS-COCO）、长描述（ShareGPT4V, Urban1K）和组合（SugarCrepe）数据集上的零样本文本-图像检索结果。

跨模态检索

如表2所示，在零样本跨模态检索任务上评估UniME-V2。对于短描述数据集，包括Flickr30K和MS-COCO，UniME-V2在图像到文本检索中比UniME表现出了2.2%-9.7%的性能提升。

在文本到图像检索中，其性能与UniME相当，这主要归因于两个因素：

（1）MMEB训练集中文本到图像数据的比例有限；

（2）短描述中的语义信息不足。

对于长描述跨模态检索任务，UniME-V2在ShareGPT4V和Urban1K上取得了显著改进，这得益于其增强的区分能力和详细描述提供的丰富语义内容。

值得注意的是，与EVA-CLIP-8B相比，UniME-V2展示了更为稳健的检索性能，这主要因为其通用多模态嵌入能显著减少模态间的差距（如图4所示）。

图4：EVA-CLIP-8B与UniME-V2（LLaVA-OneVision-7B）之间的表示分布对比。

组合跨模态检索

基于SugarCrepe评估UniME-V2模型区分困难负样本的能力。

如表2所示，UniME-V2在所有评估指标上均表现出卓越性能。

与UniME相比在使用Qwen2-VL-2B时性能提升了5.3%，6.0%，4.5%。当模型从2B扩展到7B后也实现了9.0%，9.2%，9.2%的性能提升。

此外，与EVA-CLIP-8B相比，UniME-V2还显示出2.7%，3.4%，和3.8%的改进，凸显其在区分困难负样本上的强大能力。

表3：使用UniME-V2 (Qwen2-VL-7B) 和 UniME-V2 (Qwen2-VL-2B) 比较LamRA与UniME-V2-Reranker的重排序性能。

重排序对比

在表3中基于top5检索结果对比了LamRA与UniME-V2-Reranker的性能。为确保公平，使用与LamRA相同的训练参数和基础模型（Qwen2.5-VL-7B）。

当使用LamRA和UniME-V2-Reranker对UniME-V2 (Qwen2-VL-2B) 检索结果进行重排后在四个下游任务上均提升了性能。

UniME-V2-Reranker在只使用一半数据的情况下始终获得更优结果。类似地，使用UniME-V2 (Qwen2-VL-7B) 进行检索时，UniME-V2-Reranker的表现也超过了LamRA，在四个任务中分别获得了0.5%，0.4%，0.3%，和7.4%的性能提升。

值得注意的是，UniME-V2-Reranker在组合理解检索任务中展示了对LamRA的显著优势，这归功于其利用MLLM的理解能力提取多样化和高质量的困难样本，有效增强了模型的区分能力。

论文：

https://arxiv.org/abs/2510.13515

GitHub：

https://github.com/GaryGuTC/UniME-v2

??时事1：a片专区视频

??11月18日,史前乡村用具焕新尚，甘肃秦安手艺人借“器”塑新生,

　　“我们的石村，来头似乎很大、很惊人，只是连我们自己都快遗忘了，只有祖上传下的只字片语。”石云峰低语。

,国产一级A片特黄又大又粗WWW。

??11月18日,济南机场海关查获“三无”减肥药1105粒,

　　他们的身上，有黑色雷电闪烁，隔着很远就能听到轰鸣声，震的山地都在剧烈抖动。

,我的总裁老妈3D漫画下拉式,免费五A级毛片,黄色视频免费看羞羞网站。

??时事2：国产一级片在线视频

??11月18日,国寿寿险全面启动2024年“3·15”金融消费者权益保护教育宣传活动,

　　他差点破口大骂，好心将断剑寻回，没有得到奖励，却被拎起来揍了一顿，这叫什么事？

?第一百七十三章风波,abc确定年龄已满十八免费,国产中的精品黄色,又粗又大又爽。

??11月18日,日本大选：自民党不能单独过半数已成定局,

　　此后的数天里，毛球寻来各种奇怪的果子，而且难得大方地咬破自己的肉皮，挤出三滴金色的血液，让小不点服食了下去，他这才好转。

,中文在线观看字幕,免费被❌到爽羞羞网页,久久人人操人人。

??时事3：尤物性感美女自慰喷水网站

??11月18日,湖北广东警方成功找回王浩文系列拐卖案4名被拐儿童,

　　“他们怎么会这般疯狂猎杀猛兽，就是人口激增也不应这样啊，他们的村子多半发生了什么事。”族长石云峰做出推断。

,totakyalax,www.一级网站黄色日本,胡桃拔萝卜。

??11月18日,在发展中保障和改善民生,

　　在农村，要体现先进文化的前进方向，必须把精神文明建设摆到村级工作的议事日程上来。如今，农村虽然比原来富了，但生活质量、文明程度还没有跟上来，城乡差距还比较大。这就要求农村干部，要按照现代化新农村的要求，在规划建设、村庄管理、居住和生活方式等方面，引导农民群众逐步向城市化生活过渡，加快农村城市化进程。要反对封建迷信，弘扬社会公德、家庭美德，积极开展群众性的文化娱乐和文明村户创建等活动，用科学健康、文明向上的思想占领农村思想文化阵地。

,亚洲一区激情在线观看视频,伊人九九九,黄色片子网站。

??时事4：蜜殿视频成人网高潮疯狂颤抖在线观看

??11月18日,四川甘孜州全力保障滞留车辆顺利过境,

,大黑屌操逼视频,又大又色又粗又长的视频,黄色视频在线观看链接。

??11月18日,花旗与上海银行携手为境外来华人士提供便捷支付方案,

　　“是我，祖爷爷，我看你来了。”小不点抓住他的手，语声哽咽，另外几个老人都走了，他都没有来得及送上一场。

,亚洲视频一区在线观看,国产免费无码一区二区视频,9.1桃花。

【贵州“最美农村路”：缩短城乡距离带动旅游产业发展】

【天津茱莉亚学院2023-24乐季收官 218场音乐会上演】

责编：沈亚婷

审核：刘俊海

责编：吴燕玲

新万博体育

多模态检索新突破，用软标签打破传统刚性映射约束，全面超越CLIP