猫眼电影
猫眼电影记者 马丁·鲍曼 报道Q8X2R7L1T4J5M9B6W3
机器之心报道
编辑:杜伟
苹果最近真是「高产」!
这几天,苹果在多模态 web 搜索中发现了赋能多模态大语言模型(MLLM)的新解法
在现实世界的应用中,MLLM 需要访问外部知识源,并对动态变化的现实世界信息进行实时响应,从而解决信息检索和知识密集型的用户查询。当前的一些方法,比如检索增强生成(RAG)、search agent 以及配备搜索功能的多模态大模型,往往存在流程僵化、搜索调用过多以及搜索查询构造不当等问题,导致效率低下以及结果不理想。
为了克服以往研究中暴露出的局限,苹果提出了 DeepMMSearch-R1 模型。该模型能够按需执行多轮网络搜索,并可针对文本与图像搜索工具动态生成查询,如图 1(右)所示。具体而言,DeepMMSearch-R1 能够通过自我反思与自我纠正,在多轮交互中自适应地生成和优化文本搜索查询,并利用检索到的内容作为反馈以及结合原始问题进行改进。
为了提升图像搜索的效果,苹果引入一个中间图像裁剪工具(Grounding DINO)来应对背景噪声和干扰性视觉实体带来的挑战。过程中,DeepMMSearch-R1 首先生成与问题最相关视觉实体的指代表达,然后利用该表达由裁剪工具动态识别并裁剪出图像中对应的区域。生成的裁剪图像随后被用于图像搜索,以检索与上下文更相关的结果。这种有针对性的搜索方式显著提升了检索质量,并大幅提高了整体性能。
苹果采用两阶段训练流程:首先进行有监督微调(SFT),然后通过 GRPO 算法进行在线强化学习(RL)。其目标是让模型学会何时发起搜索、使用哪种工具、搜索什么内容,以及如何基于检索到的内容进行推理,以决定下一步行动:是直接给出最终答案,还是进一步优化查询并发起新一轮搜索。
本文主要包括以下三个方面的贡献:
一是提出新的数据集 DeepMMSearchVQA。该数据集包含多样化多跳视觉问答样本,并以多轮对话的形式呈现。它在不同知识类别之间保持平衡分布,涵盖了既需要搜索又无需搜索的问题类型。
二是构建真实世界的多模态搜索流程,并整合了三种工具:(1)文本搜索工具,使模型能够发出有针对性的查询,从而检索相关网页并获取最新的事实性知识;(2)基于 Grounding DINO 的图像定位工具,可根据模型生成的与问题视觉实体相关的指代表达,识别并裁剪输入图像中的相关区域;(3)图像搜索工具,可基于输入图像(无论是裁剪图还是完整图)检索网页内容,包括标题与描述,帮助模型通过网络信息识别不熟悉的视觉实体。
三是通过两阶段训练过程实现了 SOTA 性能,超越以往的开源基线模型(见图 1)。该训练过程包括使用 SFT 进行冷启动初始化,随后采用 GRPO 算法进行在线强化学习。
论文标题:DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web SearcharXiv 地址:https://arxiv.org/pdf/2510.12801
针对苹果的最新研究,有人认为「这可能是苹果迈向 AI 原生 LLM 和多模态搜索引擎的第一步」。
数据集 DeepMMSearchVQA
苹果在数据集构建过程中遵循两个核心原则:(1)数据集应具备多样性,并覆盖完整的知识分类体系;(2)问题应同时包含无需搜索与需要搜索的类型,并以多轮对话的形式呈现,以促进模型的推理、自我反思与自我纠正。图 2(上)展示了用于数据集构建的自动化流程概览。
苹果从 InfoSeek 训练集随机选取了 20 万个样本,并生成带有工具标签、推理步骤及网页检索信息的多轮对话数据。为确保质量,苹果仅保留其中 Gemini-2.5-Pro 的预测结果与 InfoSeek 提供的真实答案一致的对话,从而得到约 4.7 万条精炼对话样本
随后使用 Gemini-2.5-Pro 据知识分类体系对问题进行分类,并从这些类别中采样 1 万个视觉问答(VQA)样本,以在不同知识类型之间实现大致平衡的分布。同时进一步确保数据集中搜索类与非搜索类问题的数量大致相等。
图 2(下)展示了知识分类体系、需要图像搜索、文本搜索或两者兼用的问题比例,以及不同轮次对话样本的分布情况。最终得到的 1 万个 VQA 样本构成了有监督微调阶段的训练语料
DeepMMSearch-R1 两阶段训练流程
有监督微调阶段
苹果采用 Qwen2.5-VL-7B-Instruct 作为基础模型,并仅对其语言模型(LLM)模块进行有监督微调,同时保持视觉编码器和视觉投影层冻结不变。此方法能够保留强大的预训练图像表征能力,并确保模型的适应过程专注于提升语言模型在网页检索信息上的推理能力,以及遵循结构化工具使用流程的能力。
训练目标方面,苹果采用标准的因果语言建模(Causal LM)目标函数。给定一个多模态输入 (x, I),其中包括文本问题和对应图像、以及包含完整推理过程、工具调用和最终答案的多轮对话 y*,训练中的模型在给定所有前文 token 的条件下预测目标序列中的每一个 token。
强化学习阶段
RL 阶段基于组相对策略优化(Group-Relative Policy Optimization,GRPO),该方法最初在 DeepSeekMath 中被提出。GRPO 在近端策略优化( Proximal Policy Optimization,PPO)的基础上进行了扩展,通过对同一提示词下生成的候选回复进行比较,从而提升训练的稳定性。
不同于独立评估每个 rollout(展开过程或推理轨迹)的方式,GRPO 计算的是相对于同一组采样 rollout 的平均奖励的优势值。
该阶段的训练目标通过带截断的重要性加权代理进行优化,这虽与 PPO 类似,但引入了组相对优势的概念。其数学形式可表示为:
Rollouts:它们由经过 SFT 后的模型检查点生成。SFT 模型使用已学习的工具调用标签体系,以与图像定位工具、图像搜索工具和文本搜索工具进行交互, 并将这些工具返回的反馈融入后续对话轮次中。该过程会持续进行,直到模型生成最终回答或达到最大轮次数为止。
因此,每个 rollout 都代表一条完整的推理轨迹,并附带在 SFT 阶段学习到的标签体系。在训练过程中,苹果对每条轨迹的工具调用次数和最大 token 长度进行了约束,要求模型在准确性与效率之间取得平衡。
奖励机制:GRPO 优化过程采用一个结合了事实准确性与结构合规性的复合奖励函数。苹果使用 gpt-5-chat-latest 作为奖励模型,用于判断模型预测结果在语义上是否与真实答案一致。正确性得分记为 s,取值为二元变量(s ∈ {0, 1}),表示模型最终答案是否被判定为正确。同时,格式得分 s_fmt 用于衡量输出是否遵循规定的结构化输出格式,以确保标签使用正确、工具调用结构有效。最终奖励的计算公式为:
实验结果
苹果表示,配备网络搜索功能的多模态大语言模型在性能上显著优于 RAG 工作流和基于提示的搜索代理基线模型。如表 1 所示,DeepMMSearch-R1-7B(RL)相较于 RAG 工作流和基于提示的 search agent 分别取得了显著的 + 21.13% 和 + 8.89% 的性能提升,同时在整体表现上与 OpenAI o3 相当。
裁剪图像搜索以及蒸馏得到的自我反思与自我纠正能力可以显著提升模型性能。苹果在图 3(左)中展示了启用多次文本搜索与裁剪图像搜索能力所带来的效果。SFT 基线模型指的是仅使用整图搜索并进行单次文本搜索调用的设置。可以看到,随着自我反思与自我纠正机制的引入与蒸馏,模型整体性能得到了提升。
在搜索平衡的 SFT 数据中(即从所有知识分类中均匀采样样本的情况),模型表现更优。苹果首先在 SFT 数据中通过不同的「需要搜索」与「无需搜索」样本比例进行消融实验,以研究其对性能的影响。从图 3(右)可以观察到,当需要搜索的问题比例较高时,微调后的模型会表现出过度搜索的行为,并在 OK-VQA 和 A-OKVQA 等需要较少搜索调用的数据集上表现较差。
SFT 阶段使模型具备使用工具的能力,而 RL 阶段则通过减少不必要的调用来优化工具选择行为。苹果在图 4 中总结了模型在 SFT 和 RL 阶段后的工具使用情况,分别针对两个数据集进行了分析。DynVQA 是一个较新的数据集,其中包含新万博体育:需要外部信息的问题;而 OKVQA 则相对需要较少的搜索调用。
模型的工具使用行为与各数据集的特性保持了一致:在 DynVQA 中,模型在 87.7% 的样本上调用了工具;而在 OKVQA 中这一比例为 43.5%。
另外,SFT 模型有时会在不必要的情况下执行裁剪图像搜索,而 RL 模型能够纠正此类错误,如图 5 所示。这一现象进一步印证了 RL 在优化工具使用行为、提升使用效率方面的重要作用。
最后,采用 LoRA 模块进行的 SFT 以及带有 KL 惩罚项的在线 GRPO 训练能够保持模型的通用视觉问答(VQA)能力,如表 2 所示。苹果观察到模型在多个数据集上的性能保持稳定,这表明本文提出的模型在学习与网络搜索工具交互的同时,依然有效地保留了其通用的视觉理解与推理能力。
新万博体育:实验细节,参阅原论文。
??时事1:色妞妞97色淫久久97色小说
??10月15日,建构中国农林经济管理学科自主知识体系联盟大会暨中国人民大学农业与农村发展学院70周年论坛召开,
就是以瞳术著称的三眼族两兄弟亦心惊肉跳,不敢与其对视,因为那头金色生灵的瞳孔如金色的漩涡般,吞噬人的灵魂。
?第一百四十六章,爆操美女模特免费看。??10月15日,广东结束防风Ⅳ级应急响应,
在新的机遇和挑战面前,银行分行将在各级党委、政府的领导下,秉承源远流长的文化,以务实的态度,诚信的理念,开放包容的胸怀,廉洁高效,精心打造“银行”品牌,承担起历史所赋予的使命,立足,服务,以优异的业绩回报社会各界和广大市民的厚爱,为社会经济发展做出积极的贡献!
,www.免费欧美性生活视频,网址你懂的国,玖玖爱国产精品。??时事2:欧洲一级精品免费视频
??10月15日,刚果(金)安全形势复杂严峻 中使馆发布安全提醒,
同上一堂国家安全教育课个人 篇10
,超薄丝袜足j一区二区在线观看,久久999精品,博雅一v3榜一大哥9i免费版在哪下。??10月15日,数字经济中外合作(西安)对接活动在陕举办,
“好吧,既然是孩子的事,我们就旁观好了,不去参合。”云天宫的老人点头道,不再多说什么。
,91在线精品无码秘 入口苹果,在线观看国产免费AV网站免费,火辣福利视频导航。??时事3:赵露思裸体
??10月15日,美防长奥斯汀继续在家休养 将线上参加对乌援助会议,
漫山遍野都是凶兽,大荒外一片末日般的场景,在强大的遗种的带领下,兽潮血洗四方,冲向大地尽头。
,黄色视频在线观看不卡亚洲,真人色情偷拍,人人做人人干,亚洲色图。??10月15日,248个!新一批全国民族团结进步示范区示范单位公布,
毕业班质量对一所学校而言相当重要,其重要性体现在四个方面:毕业质量是检验教师教学成果的重要指标;毕业质量是反映学生阶段性学习的重要里程碑;毕业质量是学校办学质量的重要指标;毕业质量是体现学校管理水平的重要窗口。
,800aⅴ免费观看全部网站,欧美性爱免费a,黑人狂躁女学生。??时事4:51ccgg8吃瓜网
??10月15日,浙江省首个国际高端消费品保税仓在温州开仓,
各位居民,各位同志,今天来到这里,我的心情即欢欣鼓舞又异常沉重。回想5月12日在短短数分钟内,四川汶川地震就夺去了数万人的宝贵生命,造成了巨大的损失。这不仅是国家的灾难,也是全中国人民的灾难。这场灾难牵动着每一个中国人的心,更牵动着我们建设社区区民的心。中国是一个饱受自然灾害的国家。我们的居民们对灾害带给四川同胞们的痛苦感同身受,深知患难真情之可贵。灾害发生后,建设社区的居民们进行了迄今为止最大规模的募捐行动。我深知我们的居民大多并不富裕,有的居民掏出的是家中仅有的积蓄,有的更是借钱表达自己的心意。居民同志们,你们所提供的援助是无私的,你们的行动寄托了你们的深情厚谊,显示出了你们的真心诚意。我们的募捐,对灾区来说,可能是杯水车薪,但是,请记住这样一句话“再大的困难除以十三亿就是就是一个很小的问题!一个很小的爱心乘以十三亿就是爱的海洋,”。
,一进一出又大又,高黄h高潮在线观看,激情文学首页。??10月15日,读懂低空经济发展的前景和挑战 专家建议:从四个维度创新推进低空经济发展,
记得,一家饭馆半夜时分着火了,当人们惊醒的时侯,馆内已燃烧着熊熊大火,浓浓的黑烟源源不断地向窗外冒,火就像一个张牙舞爪的“恶魔”,东跑西跑寻找吃的,吞没了饭馆里的饭菜,吞没了饭馆里的桌椅,一会儿,“火魔”就吞没了饭馆里的一切。馆外的人议论纷纷,个个抓耳挠腮,在慌乱中,有一个人急中生智,及时拨打119。
,美女全身无遮,国产熟女乱了伦视频,欧美日韩一区二区视频图片。责编:吴佩珊
审核:徐瑾
责编:吕妍