(1分钟一步到位)星野和光头哥视频原版在线观看免费版最新版v82.39.19.51.54.65.20-2265安卓网_新万博体育
星野和光头哥视频原版在线观看免费版 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置:首页电脑软件龙珠大魔 → 星野和光头哥视频原版在线观看免费版 v7.962.7900 安卓免費版

星野和光头哥视频原版在线观看免费版

星野和光头哥视频原版在线观看免费版

  • 电脑版下载
猜你喜欢
标签: 星野和光头哥视频原版在线观看免费版 中外大屌在线视频
详情
介绍
猜你喜欢
相关版本

内容详情

星野和光头哥视频原版在线观看免费版

对于大模型的强化学习已在数学推理、代码生成等静态任务中展现出不俗实力,而在需要与开放世界交互的智能体任务中,仍面临「两朵乌云」:高昂的 Rollout 预算(成千上万的 Token 与高成本的工具调用)和极其稀疏的「只看结果」的奖励信号。

来自阿里高德的一篇最新研究论文提出了面向 Agent RL 的Tree-GRPO方法,将独立的链式采样改造为智能体步骤级的树搜索。该方法通过共享前缀、一次扩展多个分支,在相同预算下获得更丰富的有效轨迹;更重要的是,仅凭最终奖励即可沿树结构回溯出过程中的偏好信号,等价于隐式的步骤级偏好学习。

在 11 个知识密集型、网络搜索问答任务数据集中,Tree-GRPO 在多种模型规模上更省预算、更高表现,显著优于链式 RL 方法,甚至能在 1/4 预算的情况下超越 GRPO 基线,为 Agentic RL 的高效训练提供了新的解决思路。

论文标题:Tree Search for LLM Agent Reinforcement Learning论文地址:https://arxiv.org/abs/2509.21240代码链接:https://github.com/AMAP-ML/Tree-GRPO

树方法相较链方法的区别与优势

Agentic RL 的痛点

(左)链采样,(中)token/sentence-level 树采样,(右)agent-level 树采样

在 Agentic RL 中,LLM 不再是被动的文本生成器,而是一个在动态环境中的自主决策智能体。在 ReAct 视角下,LLM Agent 的决策轨迹由一段连续的多步行动构成,在每一步中,智能体都会进行思考(Think)、行动(Action)、观察(Observation)三个行为。

这样的开放式多轮轨迹在 RL 中面临两点关键瓶颈:

Rollout 采样成本高:多回合交互的轨迹中包含成千上万 Token 和多次 tool-calls。现有链式采样为同一任务反复生成多跳独立轨迹,采样冗余高,训练时间几乎被 rollout 吞噬,且外部工具(如搜索 API)费用不菲;

多轮长轨迹的监督稀疏:绝大多数方法仅能依赖最终奖励评估整条轨迹好坏,难以定位「哪一步/哪一次行动」贡献了成败,导致在预算增长时有效训练信号并未同比增加,学习过程失衡甚至出现训练崩溃。

Tree-GRPO:

以「智能体步骤」为节点进行树搜索

Tree-GRPO 训练总览,左上为采样流程,右上为两个主要优势,下方为训练流程

已有的树搜索 RL 方法通常在 Token 级或句式级别上进行,对于有明确步骤级语义结构的智能体来说并不适合。该团队提出以「智能体步骤」为树节点单位的树搜索,即每个树节点对应一个完整的思考、行动、观察步骤。为适配现有 LLM 并行推理框架,我们采用「先初始化—后扩张」的策略:

初始化 M 条独立轨迹;每条轨迹随机采样 N 个节点,以根节点到采样节点作为完整上下文进行扩张;

通过重复步骤 2 L 次,最终获得分散在 M 棵树的反应轨迹。这样的树搜索能够在一定的 rollout 预算下获得新万博体育:的 Agent 轨迹。

基于树的优势计算

通过树结构的样本轨迹,该方法还能够在仅凭结果奖励下构造出step-level 的偏好目标,形式与离线构造 DPO 数据优化目标一致。

对每棵树而言,在每个分支节点,从叶节点回溯得到的奖励差值天然形成一个偏好优化目标,而兄弟子树的深度决定了该过程信号的粒度。

为进一步提升 RL 训练中优势估计的稳定性,避免因单棵树轨迹数量过少导致的偏差或方差,Tree-GRPO 还对所有树间的轨迹优势进行归一化,并将归一化结果与原始优势相加,作为最终的优势估计。

最终的优化目标为:

值得注意的是,这样的树内 GRPO 在梯度形式上和 step-level DPO 的优化目标保持一致

实验结果:

11 个 Agent 问答任务评测

本文在包括 Llama3.2 和 Qwen2.5 系列的多个参数规模模型上进行了评测。实验结果表明,Tree-GRPO 在所有任务上均稳定优于链式 RL 方法,其中多跳问答(QA)性能提升尤为显著:在较小模型 Qwen2.5-1.5b 上有 69% 相对提升,在 Qwen2.5-3b 上取得了 36.8 的平均 EM 得分。

在 Web-Agent QA 实验设定中,Tree-GRPO 在各项指标上也均有稳定提升,在 GAIA 中有相对 28% 性能提升。

进一步分析:

树搜索 RL 的新万博体育:优势

由于 Rollout 预算是 Agentic RL 中一个重要限制,本文在不同预算设定下进行了实验,结果表明 Tree-based 方法在各种设定中均稳定优于 Chain-based 方法,尤其是在预算极其受限情况下(每个 prompt 仅 2 条完整轨迹),Tree-GRPO 相较 Chain-based 方法有 112% 提升;另外,该方法能够在 1/4 预算情况下获得更优性能(36.8 vs 33.9)。

除了性能上的提升,团队还发现 Tree-based 方法能够激发模型学习到新万博体育:轮的交互次数,这对于更加复杂的 Agent 任务有重要意义。

总结与未来展望

团队提出的 Tree-GRPO 算法给 Agentic RL 带来了全新思路,解决了现有方法中 rollout 预算大、监督信号稀疏的两大问题。通过树结构的采样和优势估计方法,Tree-GRPO 能够在多轮 Agent 任务中实现更高效、稳定的 RL 训练。

团队表示,树搜索方法是一种探索与利用的权衡,如何动态地调整 RL 训练中彼此的权重是优化学习效果的重要因素。

相关版本

    多平台下载

    查看所有0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:766969941

    查看所有0条评论>>

    相关软件
    色综合操 宝宝的扇贝真会夹哦 你懂的网站视频 9色视频91P0RNY XXXXX16日本免费看片 思思操亚洲 91精品福利国产在线观看 雷电将军的释怀免费 日本被黑人强伦姧人妻完整版 人人操人人干日日夜 女性裸体被 羞羞被扒胸衣 看精品欧美特黄 18禁无遮拦久久久 欧美成年男女免费性爱视频 免费一级黄片久久久 脔穴视频看看 欧美性爱男女a片久久 免费鳮巴视频在线观看软件 久久网性爱! 激情一区 中国三级黄色片18岁美女全体逼 学生被❌娇喘出奶视频 看a片免费视频 GOGO全球高清私拍摄影 一进一出又大又粗爽视频一片A片午夜看一级毛片一区二区不卡 AAAWWW 久久久久久国产免费视网址 交hdsexvideos娇小 caopeng97免费视频 黄片18岁以下禁止看 黄片精品漫费观看 欧美色图自拍偷拍三级网站 欧差超碰在线免费 久久这里视频 日本免费观看黄色视频 欧美第五页 日韩欧美亚洲另类∨ 榴莲视频看完怎么让你流连忘返呢 先锋影音资源在线A 人人干人人操人人骑 国产精品亚洲欧美一级久久精品 动漫男男被❌黄漫网站 黑人大吊在线看 91精品国产高清自在线看香蕉网 外国美女露双乳被插网站 青青青草手机在线视频 天堂一区亚欧色 欧美三级在线观看视频视色 国产巨乳网站 美女被操免费 日本一区 免费国产91黄色片子 欧洲乱码视频永久地址入口网页 国模黄色一级片 国内自拍2021 免费网站无码秘 鉴黄师 一亚州免费黄片 欧美性交大黄视频 日本成片网站 日韩一级视频免费黄色网站 欧美日韩国产亚洲无需播放器 好紧好深好大乳无码中文字幕 免费观看在线18A级毛片不卡 黄色四级生活片 18 色漫 色综合视频一区二区三区在线观看 国产足交无码在线 美女被干app下载 日本欧美国产激情 色色视频二区 超碰无遮挡黄色片 麻豆国产在线看 馃崒浼歌繘馃崙 国产∨a免费精品观看精品 8x亚洲国产av 三级视频网站视频网站受不了了 99在线免费视频视频 美女裸樱桃 第五人格黄漫 中国韩午夜久久久久精品影院 美女挨操网站 www.av天堂1999 插进去视频免费插 国产精品免费黄色网站 美女18禁大胸裸身啪啪网站 黄色a片视频网导航 91POPNY九色最新地址 91福利人在线 男女爽爽视频网站app下载 男人天堂亚洲 亚洲免费爱爱 黄色一类片永久视频 图片、小说、亚洲 国产精选91自拍原创视频 歪歪色漫 东北妓女作爱对白 十大免费黄色网站 黄视频国产原创 阿狸同人18 黄漫网站 特一级特黄级a毛片 18禁深夜A大片在线 他日着我还说着骚话 小说 尿孔 灌 电击 乳夹 打屁股从白打到嫩红网站 www在线免费看黄色视频 欧美日韩国产啊啊啊 双腿打开揉弄高潮 动漫表情包 99re这里只有精品视频66 杨晨晨的土豪定制视频内容 小南脱了内裤打开腿让人c 欧美视频在线不卡 看黄片天堂在线天堂 婷婷色图区 亚洲综合色图区 最新亚洲午夜久久久久久 18 免费下载视频 撕开 让摸 咬奶头 涩涩涩涩 欧美一区不卡 无套内谢A片毛片免费
    热门网络工具