91久久精品国产一区二区三区,让你的每一次使用,都成为一次愉快的探索之旅_新万博体育
91久久精品国产一区二区三区 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置:首页电脑软件白色巨塔 → 91久久精品国产一区二区三区 v4.928.5377 PC版

91久久精品国产一区二区三区

91久久精品国产一区二区三区

  • 电脑版下载
猜你喜欢
标签: 91久久精品国产一区二区三区 exo妈妈mv高清视频播放
详情
介绍
猜你喜欢
相关版本

内容详情

91久久精品国产一区二区三区

机器之心报道

编辑:杜伟

苹果最近真是「高产」!

这几天,苹果在多模态 web 搜索中发现了赋能多模态大语言模型(MLLM)的新解法

在现实世界的应用中,MLLM 需要访问外部知识源,并对动态变化的现实世界信息进行实时响应,从而解决信息检索和知识密集型的用户查询。当前的一些方法,比如检索增强生成(RAG)、search agent 以及配备搜索功能的多模态大模型,往往存在流程僵化、搜索调用过多以及搜索查询构造不当等问题,导致效率低下以及结果不理想。

为了克服以往研究中暴露出的局限,苹果提出了 DeepMMSearch-R1 模型。该模型能够按需执行多轮网络搜索,并可针对文本与图像搜索工具动态生成查询,如图 1(右)所示。具体而言,DeepMMSearch-R1 能够通过自我反思与自我纠正,在多轮交互中自适应地生成和优化文本搜索查询,并利用检索到的内容作为反馈以及结合原始问题进行改进。

为了提升图像搜索的效果,苹果引入一个中间图像裁剪工具(Grounding DINO)来应对背景噪声和干扰性视觉实体带来的挑战。过程中,DeepMMSearch-R1 首先生成与问题最相关视觉实体的指代表达,然后利用该表达由裁剪工具动态识别并裁剪出图像中对应的区域。生成的裁剪图像随后被用于图像搜索,以检索与上下文更相关的结果。这种有针对性的搜索方式显著提升了检索质量,并大幅提高了整体性能。

苹果采用两阶段训练流程:首先进行有监督微调(SFT),然后通过 GRPO 算法进行在线强化学习(RL)。其目标是让模型学会何时发起搜索、使用哪种工具、搜索什么内容,以及如何基于检索到的内容进行推理,以决定下一步行动:是直接给出最终答案,还是进一步优化查询并发起新一轮搜索。

本文主要包括以下三个方面的贡献:

一是提出新的数据集 DeepMMSearchVQA。该数据集包含多样化多跳视觉问答样本,并以多轮对话的形式呈现。它在不同知识类别之间保持平衡分布,涵盖了既需要搜索又无需搜索的问题类型。

二是构建真实世界的多模态搜索流程,并整合了三种工具:(1)文本搜索工具,使模型能够发出有针对性的查询,从而检索相关网页并获取最新的事实性知识;(2)基于 Grounding DINO 的图像定位工具,可根据模型生成的与问题视觉实体相关的指代表达,识别并裁剪输入图像中的相关区域;(3)图像搜索工具,可基于输入图像(无论是裁剪图还是完整图)检索网页内容,包括标题与描述,帮助模型通过网络信息识别不熟悉的视觉实体。

三是通过两阶段训练过程实现了 SOTA 性能,超越以往的开源基线模型(见图 1)。该训练过程包括使用 SFT 进行冷启动初始化,随后采用 GRPO 算法进行在线强化学习。

论文标题:DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web SearcharXiv 地址:https://arxiv.org/pdf/2510.12801

针对苹果的最新研究,有人认为「这可能是苹果迈向 AI 原生 LLM 和多模态搜索引擎的第一步」。

数据集 DeepMMSearchVQA

苹果在数据集构建过程中遵循两个核心原则:(1)数据集应具备多样性,并覆盖完整的知识分类体系;(2)问题应同时包含无需搜索与需要搜索的类型,并以多轮对话的形式呈现,以促进模型的推理、自我反思与自我纠正。图 2(上)展示了用于数据集构建的自动化流程概览。

苹果从 InfoSeek 训练集随机选取了 20 万个样本,并生成带有工具标签、推理步骤及网页检索信息的多轮对话数据。为确保质量,苹果仅保留其中 Gemini-2.5-Pro 的预测结果与 InfoSeek 提供的真实答案一致的对话,从而得到约 4.7 万条精炼对话样本

随后使用 Gemini-2.5-Pro 据知识分类体系对问题进行分类,并从这些类别中采样 1 万个视觉问答(VQA)样本,以在不同知识类型之间实现大致平衡的分布。同时进一步确保数据集中搜索类与非搜索类问题的数量大致相等。

图 2(下)展示了知识分类体系、需要图像搜索、文本搜索或两者兼用的问题比例,以及不同轮次对话样本的分布情况。最终得到的 1 万个 VQA 样本构成了有监督微调阶段的训练语料

DeepMMSearch-R1 两阶段训练流程

有监督微调阶段

苹果采用 Qwen2.5-VL-7B-Instruct 作为基础模型,并仅对其语言模型(LLM)模块进行有监督微调,同时保持视觉编码器和视觉投影层冻结不变。此方法能够保留强大的预训练图像表征能力,并确保模型的适应过程专注于提升语言模型在网页检索信息上的推理能力,以及遵循结构化工具使用流程的能力。

训练目标方面,苹果采用标准的因果语言建模(Causal LM)目标函数。给定一个多模态输入 (x, I),其中包括文本问题和对应图像、以及包含完整推理过程、工具调用和最终答案的多轮对话 y*,训练中的模型在给定所有前文 token 的条件下预测目标序列中的每一个 token。

强化学习阶段

RL 阶段基于组相对策略优化(Group-Relative Policy Optimization,GRPO),该方法最初在 DeepSeekMath 中被提出。GRPO 在近端策略优化( Proximal Policy Optimization,PPO)的基础上进行了扩展,通过对同一提示词下生成的候选回复进行比较,从而提升训练的稳定性。

不同于独立评估每个 rollout(展开过程或推理轨迹)的方式,GRPO 计算的是相对于同一组采样 rollout 的平均奖励的优势值。

该阶段的训练目标通过带截断的重要性加权代理进行优化,这虽与 PPO 类似,但引入了组相对优势的概念。其数学形式可表示为:

Rollouts:它们由经过 SFT 后的模型检查点生成。SFT 模型使用已学习的工具调用标签体系,以与图像定位工具、图像搜索工具和文本搜索工具进行交互, 并将这些工具返回的反馈融入后续对话轮次中。该过程会持续进行,直到模型生成最终回答或达到最大轮次数为止。

因此,每个 rollout 都代表一条完整的推理轨迹,并附带在 SFT 阶段学习到的标签体系。在训练过程中,苹果对每条轨迹的工具调用次数和最大 token 长度进行了约束,要求模型在准确性与效率之间取得平衡。

奖励机制:GRPO 优化过程采用一个结合了事实准确性与结构合规性的复合奖励函数。苹果使用 gpt-5-chat-latest 作为奖励模型,用于判断模型预测结果在语义上是否与真实答案一致。正确性得分记为 s,取值为二元变量(s ∈ {0, 1}),表示模型最终答案是否被判定为正确。同时,格式得分 s_fmt 用于衡量输出是否遵循规定的结构化输出格式,以确保标签使用正确、工具调用结构有效。最终奖励的计算公式为:

实验结果

苹果表示,配备网络搜索功能的多模态大语言模型在性能上显著优于 RAG 工作流和基于提示的搜索代理基线模型。如表 1 所示,DeepMMSearch-R1-7B(RL)相较于 RAG 工作流和基于提示的 search agent 分别取得了显著的 + 21.13% 和 + 8.89% 的性能提升,同时在整体表现上与 OpenAI o3 相当。

裁剪图像搜索以及蒸馏得到的自我反思与自我纠正能力可以显著提升模型性能。苹果在图 3(左)中展示了启用多次文本搜索与裁剪图像搜索能力所带来的效果。SFT 基线模型指的是仅使用整图搜索并进行单次文本搜索调用的设置。可以看到,随着自我反思与自我纠正机制的引入与蒸馏,模型整体性能得到了提升。

在搜索平衡的 SFT 数据中(即从所有知识分类中均匀采样样本的情况),模型表现更优。苹果首先在 SFT 数据中通过不同的「需要搜索」与「无需搜索」样本比例进行消融实验,以研究其对性能的影响。从图 3(右)可以观察到,当需要搜索的问题比例较高时,微调后的模型会表现出过度搜索的行为,并在 OK-VQA 和 A-OKVQA 等需要较少搜索调用的数据集上表现较差。

SFT 阶段使模型具备使用工具的能力,而 RL 阶段则通过减少不必要的调用来优化工具选择行为。苹果在图 4 中总结了模型在 SFT 和 RL 阶段后的工具使用情况,分别针对两个数据集进行了分析。DynVQA 是一个较新的数据集,其中包含新万博体育:需要外部信息的问题;而 OKVQA 则相对需要较少的搜索调用。

模型的工具使用行为与各数据集的特性保持了一致:在 DynVQA 中,模型在 87.7% 的样本上调用了工具;而在 OKVQA 中这一比例为 43.5%。

另外,SFT 模型有时会在不必要的情况下执行裁剪图像搜索,而 RL 模型能够纠正此类错误,如图 5 所示。这一现象进一步印证了 RL 在优化工具使用行为、提升使用效率方面的重要作用。

最后,采用 LoRA 模块进行的 SFT 以及带有 KL 惩罚项的在线 GRPO 训练能够保持模型的通用视觉问答(VQA)能力,如表 2 所示。苹果观察到模型在多个数据集上的性能保持稳定,这表明本文提出的模型在学习与网络搜索工具交互的同时,依然有效地保留了其通用的视觉理解与推理能力。

新万博体育:实验细节,参阅原论文。

相关版本

    多平台下载

    查看所有0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:766969941

    查看所有0条评论>>

    相关软件
    暴躁姐姐国语版原声 女人被舔B 国产精品原创在线观看 3D云韵清被 到爽动漫 www.wwww在线黄色视频 熟妇激情XXXXX 美女插网站 欧美精品AⅤ在线视频 日韩黄色视频免费播放 天天AV天天翘天天综合网色鬼国产 最近最新中文字幕网站在线日 男男❌到爽🔞流片真人 精品推荐在线欧美 fulao2官方安卓国内载点2.0 久久精品美女一级毛片 美国一级毛片AAA黑粗硬大 拍婚纱照内裤裙子下面穿的裤子 男女插插视频 在线黄色网站你懂 迪丽热巴被 流白浆免费网站 日本在线aa免费 超碰国产精品久久国产精品99 女孩子光溜溜在家里好吗 搞熟女操高潮 扒开 狂揉 喷水视频男男 国产噜噜噜噜久久久久久久久 久久精品综合网 看电影来5566AV资源网 激情a 大尺度做爱 嗯~啊~进去了好烫~动漫 ...偷精品视频,国产中文字幕一区二区,精品熟女视频一区二区三区... 一级毛片不卡无码免费视频 和平精英女角色光腚 део+14一17 色婷婷人人超碰亚洲精品 另类,欧美,亚洲综合 妈妈被我乱c流水 99一级A片免费视频在线观看 国产精美自拍视频91 91.九色 综合图片 另类 亚洲精品精品 免费加勒比官网加勒比中文网 男生女生一起努力生孩子的视频素材 色哟电影一区二区 男0被  到爽 永久一级黄片 我在缅北学习操逼 东京热国产 妽妽~你真湿真紧好爽动态图 黄a一级a在线 国产调教视频在线 乳头夹夹太紧好疼 欧洲 小说 图片区在线 一区二区A片免费视频 www.001s8.com 温迪黄漫 神马午夜伦埋片 在 线 视 频A片 亚洲一本色道中文无码av 56yese66yese 黄色网站av免费看 九九九国产 亚洲成在线 亚洲免费视频一区二区三区 欧美一级日韩一级国产一级在线观看 3D动漫 腿交无尽视频 天堂av伊人网在线 凤鸟吟唱气质国模 另类人妖变态调教 免费操逼应用 黄片A片视频久久久久久 国产精品无码视频一本 亚洲无码在线黄色电影图片 www.国产精品一区 黄瓜视频app视频免费观看 www.人人操.con 撕开内衣 吸奶头的照片 富婆性猛交ⅩXXX乱大交在线播放 欧美大胆嫖妓视频 欧美老熟妇一级A片 caopeng 二级大黄大片在线长播放 嗯~啊~快点 死我视频 又长又硬又粗特黄片又大又粗又硬特黄片 熟女屁眼 日欧美性爱A片 x88a170 cc 孙尚香教刘禅*做作业 亚洲欧美白浆一区二区在线观看 在线观看的黄色网站 av在线免费视 国产很大很硬很爽的视频 黄页网站大全免费观看视频 精品免费一区二区在线观看 王者100%裸妆 田朴珺被躁57分钟视频在哪看 一级做a爱片特黄在线播放 日韩一级片电影 色色看看 欧美最新性爱网站 欧美中文日韩男人天堂 中文字幕乱码人妻无码久久 操操操三八人人插 芥敦液体 好爽好湿好硬好大免费 裸播app 国产一级持黄色网站 国产性老妇人另类交换 杨幂裸体  自慰动漫 日本熟妇乄╳乄日本老妇mp3 苍井空一级婬片A片免费软件 无码草草视频在线观看 欧美一级a视频免费看 日本xxx 欧美一级性交片AAAA 原神被 流白浆无码3D 强奸乱伦中文字幕影音先锋 www色色cnm
    热门网络工具