(3分钟带你了解)黄色视频带网站的可以直接在线观看的电脑版v94.32.848.12.43.06.9.96-2265安卓网_新万博体育
黄色视频带网站的可以直接在线观看的 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置:首页电脑软件许嵩回复了张靓颖 → 黄色视频带网站的可以直接在线观看的 v9.127 IOS版

黄色视频带网站的可以直接在线观看的

黄色视频带网站的可以直接在线观看的

  • 电脑版下载
猜你喜欢
标签: 黄色视频带网站的可以直接在线观看的 国内真实愉拍系列情侣
详情
介绍
猜你喜欢
相关版本

内容详情

黄色视频带网站的可以直接在线观看的

机器之心报道

编辑:杜伟

苹果最近真是「高产」!

这几天,苹果在多模态 web 搜索中发现了赋能多模态大语言模型(MLLM)的新解法

在现实世界的应用中,MLLM 需要访问外部知识源,并对动态变化的现实世界信息进行实时响应,从而解决信息检索和知识密集型的用户查询。当前的一些方法,比如检索增强生成(RAG)、search agent 以及配备搜索功能的多模态大模型,往往存在流程僵化、搜索调用过多以及搜索查询构造不当等问题,导致效率低下以及结果不理想。

为了克服以往研究中暴露出的局限,苹果提出了 DeepMMSearch-R1 模型。该模型能够按需执行多轮网络搜索,并可针对文本与图像搜索工具动态生成查询,如图 1(右)所示。具体而言,DeepMMSearch-R1 能够通过自我反思与自我纠正,在多轮交互中自适应地生成和优化文本搜索查询,并利用检索到的内容作为反馈以及结合原始问题进行改进。

为了提升图像搜索的效果,苹果引入一个中间图像裁剪工具(Grounding DINO)来应对背景噪声和干扰性视觉实体带来的挑战。过程中,DeepMMSearch-R1 首先生成与问题最相关视觉实体的指代表达,然后利用该表达由裁剪工具动态识别并裁剪出图像中对应的区域。生成的裁剪图像随后被用于图像搜索,以检索与上下文更相关的结果。这种有针对性的搜索方式显著提升了检索质量,并大幅提高了整体性能。

苹果采用两阶段训练流程:首先进行有监督微调(SFT),然后通过 GRPO 算法进行在线强化学习(RL)。其目标是让模型学会何时发起搜索、使用哪种工具、搜索什么内容,以及如何基于检索到的内容进行推理,以决定下一步行动:是直接给出最终答案,还是进一步优化查询并发起新一轮搜索。

本文主要包括以下三个方面的贡献:

一是提出新的数据集 DeepMMSearchVQA。该数据集包含多样化多跳视觉问答样本,并以多轮对话的形式呈现。它在不同知识类别之间保持平衡分布,涵盖了既需要搜索又无需搜索的问题类型。

二是构建真实世界的多模态搜索流程,并整合了三种工具:(1)文本搜索工具,使模型能够发出有针对性的查询,从而检索相关网页并获取最新的事实性知识;(2)基于 Grounding DINO 的图像定位工具,可根据模型生成的与问题视觉实体相关的指代表达,识别并裁剪输入图像中的相关区域;(3)图像搜索工具,可基于输入图像(无论是裁剪图还是完整图)检索网页内容,包括标题与描述,帮助模型通过网络信息识别不熟悉的视觉实体。

三是通过两阶段训练过程实现了 SOTA 性能,超越以往的开源基线模型(见图 1)。该训练过程包括使用 SFT 进行冷启动初始化,随后采用 GRPO 算法进行在线强化学习。

论文标题:DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web SearcharXiv 地址:https://arxiv.org/pdf/2510.12801

针对苹果的最新研究,有人认为「这可能是苹果迈向 AI 原生 LLM 和多模态搜索引擎的第一步」。

数据集 DeepMMSearchVQA

苹果在数据集构建过程中遵循两个核心原则:(1)数据集应具备多样性,并覆盖完整的知识分类体系;(2)问题应同时包含无需搜索与需要搜索的类型,并以多轮对话的形式呈现,以促进模型的推理、自我反思与自我纠正。图 2(上)展示了用于数据集构建的自动化流程概览。

苹果从 InfoSeek 训练集随机选取了 20 万个样本,并生成带有工具标签、推理步骤及网页检索信息的多轮对话数据。为确保质量,苹果仅保留其中 Gemini-2.5-Pro 的预测结果与 InfoSeek 提供的真实答案一致的对话,从而得到约 4.7 万条精炼对话样本

随后使用 Gemini-2.5-Pro 据知识分类体系对问题进行分类,并从这些类别中采样 1 万个视觉问答(VQA)样本,以在不同知识类型之间实现大致平衡的分布。同时进一步确保数据集中搜索类与非搜索类问题的数量大致相等。

图 2(下)展示了知识分类体系、需要图像搜索、文本搜索或两者兼用的问题比例,以及不同轮次对话样本的分布情况。最终得到的 1 万个 VQA 样本构成了有监督微调阶段的训练语料

DeepMMSearch-R1 两阶段训练流程

有监督微调阶段

苹果采用 Qwen2.5-VL-7B-Instruct 作为基础模型,并仅对其语言模型(LLM)模块进行有监督微调,同时保持视觉编码器和视觉投影层冻结不变。此方法能够保留强大的预训练图像表征能力,并确保模型的适应过程专注于提升语言模型在网页检索信息上的推理能力,以及遵循结构化工具使用流程的能力。

训练目标方面,苹果采用标准的因果语言建模(Causal LM)目标函数。给定一个多模态输入 (x, I),其中包括文本问题和对应图像、以及包含完整推理过程、工具调用和最终答案的多轮对话 y*,训练中的模型在给定所有前文 token 的条件下预测目标序列中的每一个 token。

强化学习阶段

RL 阶段基于组相对策略优化(Group-Relative Policy Optimization,GRPO),该方法最初在 DeepSeekMath 中被提出。GRPO 在近端策略优化( Proximal Policy Optimization,PPO)的基础上进行了扩展,通过对同一提示词下生成的候选回复进行比较,从而提升训练的稳定性。

不同于独立评估每个 rollout(展开过程或推理轨迹)的方式,GRPO 计算的是相对于同一组采样 rollout 的平均奖励的优势值。

该阶段的训练目标通过带截断的重要性加权代理进行优化,这虽与 PPO 类似,但引入了组相对优势的概念。其数学形式可表示为:

Rollouts:它们由经过 SFT 后的模型检查点生成。SFT 模型使用已学习的工具调用标签体系,以与图像定位工具、图像搜索工具和文本搜索工具进行交互, 并将这些工具返回的反馈融入后续对话轮次中。该过程会持续进行,直到模型生成最终回答或达到最大轮次数为止。

因此,每个 rollout 都代表一条完整的推理轨迹,并附带在 SFT 阶段学习到的标签体系。在训练过程中,苹果对每条轨迹的工具调用次数和最大 token 长度进行了约束,要求模型在准确性与效率之间取得平衡。

奖励机制:GRPO 优化过程采用一个结合了事实准确性与结构合规性的复合奖励函数。苹果使用 gpt-5-chat-latest 作为奖励模型,用于判断模型预测结果在语义上是否与真实答案一致。正确性得分记为 s,取值为二元变量(s ∈ {0, 1}),表示模型最终答案是否被判定为正确。同时,格式得分 s_fmt 用于衡量输出是否遵循规定的结构化输出格式,以确保标签使用正确、工具调用结构有效。最终奖励的计算公式为:

实验结果

苹果表示,配备网络搜索功能的多模态大语言模型在性能上显著优于 RAG 工作流和基于提示的搜索代理基线模型。如表 1 所示,DeepMMSearch-R1-7B(RL)相较于 RAG 工作流和基于提示的 search agent 分别取得了显著的 + 21.13% 和 + 8.89% 的性能提升,同时在整体表现上与 OpenAI o3 相当。

裁剪图像搜索以及蒸馏得到的自我反思与自我纠正能力可以显著提升模型性能。苹果在图 3(左)中展示了启用多次文本搜索与裁剪图像搜索能力所带来的效果。SFT 基线模型指的是仅使用整图搜索并进行单次文本搜索调用的设置。可以看到,随着自我反思与自我纠正机制的引入与蒸馏,模型整体性能得到了提升。

在搜索平衡的 SFT 数据中(即从所有知识分类中均匀采样样本的情况),模型表现更优。苹果首先在 SFT 数据中通过不同的「需要搜索」与「无需搜索」样本比例进行消融实验,以研究其对性能的影响。从图 3(右)可以观察到,当需要搜索的问题比例较高时,微调后的模型会表现出过度搜索的行为,并在 OK-VQA 和 A-OKVQA 等需要较少搜索调用的数据集上表现较差。

SFT 阶段使模型具备使用工具的能力,而 RL 阶段则通过减少不必要的调用来优化工具选择行为。苹果在图 4 中总结了模型在 SFT 和 RL 阶段后的工具使用情况,分别针对两个数据集进行了分析。DynVQA 是一个较新的数据集,其中包含新万博体育:需要外部信息的问题;而 OKVQA 则相对需要较少的搜索调用。

模型的工具使用行为与各数据集的特性保持了一致:在 DynVQA 中,模型在 87.7% 的样本上调用了工具;而在 OKVQA 中这一比例为 43.5%。

另外,SFT 模型有时会在不必要的情况下执行裁剪图像搜索,而 RL 模型能够纠正此类错误,如图 5 所示。这一现象进一步印证了 RL 在优化工具使用行为、提升使用效率方面的重要作用。

最后,采用 LoRA 模块进行的 SFT 以及带有 KL 惩罚项的在线 GRPO 训练能够保持模型的通用视觉问答(VQA)能力,如表 2 所示。苹果观察到模型在多个数据集上的性能保持稳定,这表明本文提出的模型在学习与网络搜索工具交互的同时,依然有效地保留了其通用的视觉理解与推理能力。

新万博体育:实验细节,参阅原论文。

相关版本

    多平台下载

    查看所有0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:766969941

    查看所有0条评论>>

    相关软件
    曰本激情一级黄色网站 中國少婦的屄 污色视频 蘑菇视频打扑克 黄片毛片毛片毛片毛片毛片黄色片黄色视频视频视频视频大屁股大屁股图片 亚洲Av毛片无码一区二区二三区 i gao 22视频 欧美熟妇潮喷 3Tm2FR 国产一级毛片国语A片厂 怡红院视频在线观看 欧美一级人操 日本黄在线观看 十八禁视频在线播放网站 911国产视频 日本人吮乳奶头喂男人 男人的 的朱竹清 日本内射 一级欧美性爱视频 国产色一区二区三区 日本巨乳中文字幕 爆乳女神 ▌麻酥酥▌蘑菇网站 另类,国产丝袜 毛片在线播放不卡的 国产AV自拍网站导航 精品久久人人做人人爽综合 无码三级中文字幕在线视频 台湾真军巜裸体模特 美女的隐私无遮无挡视频网站 双生殖人妖HD 18禁 deepseek成人版 女学生喷浆   动漫斗图 欧美疯狂XXXXX大交乱 麻豆精品视频国产精品,麻豆精选快射国产视频,麻豆久久国产精品... 看黄APP下载 把双腿打开疯狂进出爽爽爽 日韩se 18女学生三级 91bai.com 冢本垂乳おばさん熟女 强奷漂亮的女教师免费看 5555毛片 动漫 无尽 巨乳 添泬 妓女,得到 人人人操人人干 99re5 A片你懂的 好爽⋯要高潮了⋯电视剧 午夜视频又黄又爽 射精网站国产 在线观看国产妓女影院 国产激情大臿免费视频 久久99精品店 一级鲁鲁免费视频 国内黄片 h欧美在线 .免费 成人  美女在线观看 黃色A片视频一级毛片 内地一级黄片久久 把女人弄的特爽黄A大片 亚洲小说图片区亚洲综合图文偷 久久免费视频网 中文操b舒服视频 A片无码AV看免费大片在线 国产视频污污在线 草的爽AV导航网站 《完美无瑕》莫妮卡贝鲁奇 欧美性爱操肥逼 嫖娼视频软件 国产精品VA在线播放 欧美老熟妇AAAAAA农民 奶水网视频 欧美大片va欧美在线播放 Asmr成人榨精利 在线播放 91糖心桥本香菜丝袜 久草手机在线观看 欧美性爱兔费网站 蜜桃快草 苍月女战士被扒衣吸乳 亚洲女人拳交高潮 玩转学秭漫画免费读土豪版 色哟哟入口观看 种马大帅哥宇飞艰辛小说免费阅读 黄页在线 亚洲另类日韩制服无码蜜臀 三级视频网址播放 伊人久久大香线蕉综合AV 18下勿女人喷水高潮久久久 三月七被 同人本子 欧美激情58P 七猫视频播放 顶级欧美老熟妇性XXXX 国产一区二区熟女视频 www日韩欧美日韩 色哟哟视频入口 汤唯被实干20分钟视频 黄页网站在线大全免费观看 台湾AA在线 黄色刺激网站 午夜可以看的网址 黑粗硬大欧美牲交视频在线 人人爱人人鲁人人干人人操 亚洲日本h视频在线观看 丝袜熟女国偷自产中文字幕 国产一区二区视频在线播放 久久99国产曰韩精品久久99 黑皮体育生被C得合不拢腿视频 商务旅行戴女老板帽子 操国内女人骚逼视屏 老熟妇XB视频 公与妇在线观看日本 台湾小伙子GayFuckSex 日日碰国产精品视频 馃崒18 圆珠笔共感(1v1)笔趣阁 久久艹精品视频 成人色涩 纲手被自来也顶到高潮 国产免费黄色视频 扒开日本老师 欧美性爱八九本道在线 黄片免费看2019
    热门网络工具