该项目由北京大学彭一杰教授课题组完成,第一作者为任韬,其他作者包括江金阳、杨晖等。
研究背景与挑战:大模型后训练陷入「均值陷阱」,推理能力难破界
当强化学习(RL)成为大模型后训练的核心工具,「带可验证奖励的强化学习(RLVR)」凭借客观的二元反馈(如解题对错),迅速成为提升推理能力的主流范式。从数学解题到代码生成,RLVR 本应推动模型突破「已知答案采样」的局限,真正掌握深度推理逻辑 —— 但现实是,以 GRPO 为代表的主流方法正陷入「均值优化陷阱」。
这些基于均值的优化策略,过度聚焦高概率输出序列,却忽略了「低概率但高信息密度」的推理路径:模型训练早期就会出现熵坍缩,过早丧失探索能力;面对全错的难题时,优势函数直接归零,模型在薄弱环节完全无法学习。最终结果是,大模型看似在 Pass@1 等短视指标上有提升,实则推理边界从未拓宽,更无法应对 AIME 竞赛题、复杂代码生成这类高难度任务。如何让模型主动「啃硬骨头」,成为大模型后训练的关键瓶颈。
AIME2024 上的学习表现
技术方案概述:用「风险度量」破局,MVaR + 捆绑策略双管齐下
为解决传统均值优化的缺陷,北大团队提出 RiskPO,核心突破在于将风险规避(risk-averse)理念融入优化目标,用「关注奖励分布左尾(难任务)」替代「追求整体均值」,从根本上引导模型突破推理短板。
论文链接:https://arxiv.org/abs/2510.00911v1代码链接:https://github.com/RTkenny/RiskPO
为配合 MVaR 目标,团队提出「多问题捆绑」策略,将多个问题打包成 bundle 计算奖励,把稀疏的二进制反馈转化为更丰富的分布信号,彻底解决「难题零梯度」问题—— 比如将 5 个数学题打包后,模型能从整体得分中捕捉到「部分正确」的学习信号,而非单个题目非对即错的极端反馈。
算法架构图
实验:三大任务全面碾压,难问题上优势更显著
好的技术方案,终要靠硬指标说话。北大团队在数学推理、代码生成、多模态推理三大领域的 10 余个数据集上,用数据证明了 RiskPO 的突破性 —— 尤其在最能体现推理能力的「硬任务」上,优势远超 GRPO 及其变体。
在数学推理领域,RiskPO 在 AIME24(美国数学邀请赛)任务上表现惊艳:Pass@32 得分比 GRPO 高出近 7 个百分点,比最强基线 DAPO 提升 6.7 个百分点;即便是相对简单的 MATH500 数据集,其 Pass@1 也达到 81.8%,超出 GRPO 2.6 个百分点。
更关键的是,随着评估指标从 Pass@1 转向 Pass@8、Pass@16,RiskPO 的优势持续扩大 ——这意味着模型不仅能给出更优的单条答案,还能探索新万博体育:有效推理路径,真正突破了「采样效率优化」的局限。
数学推理任务
Pass@k 学习曲线
在跨领域任务中,RiskPO 同样稳定领先:代码生成任务 LiveCodeBench 上,Pass@1 比 GRPO 提升 1 个百分点;多模态几何推理任务 Geo3K 上,准确率达到 54.5%,优于 DAPO 的 54.3%。这种「全场景增益」,证明了风险度量优化的泛化能力。
其他任务
理论 + 消融:熵坍缩缓解有依据,参数设计有章法
RiskPO 的性能突破,并非依赖工程调参,而是有扎实的理论支撑和严谨的消融实验验证。
高熵更新定理
从理论层面,团队证明了「风险规避更新」能有效缓解熵坍缩:通过分析策略熵的变化机制,发现 RiskPO 的 MVaR 目标函数能降低「优势 - 对数概率」的相关性 —— 相比 GRPO,模型不会过度强化已掌握的易任务,从而保持更高的熵值和探索能力。
实验中也能清晰看到:训练 500 步后,GRPO 的熵值已趋近于 0,而 RiskPO 仍能维持 0.2 以上的熵水平,确保对难任务的持续探索。
训练集 DAPOMATH-17k 上的各项指标
值得注意的是,在训练过程中,若仅观察以均值为核心的指标曲线(如平均奖励),GRPO 与 RiskPO 的表现几乎难分伯仲,甚至 RiskPO 因更高的探索性还伴随轻微波动;但切换到风险敏感指标(如下尾 RVaR、MVaR 奖励)时,两者差距立刻凸显 ——RiskPO 的曲线始终保持显著领先,且随训练推进持续攀升。
这种「均值相近、风险指标悬殊」的现象,再结合最终测试集上 RiskPO 在 Pass@k(尤其是高 k 值)、难任务(如 AIME 竞赛题)上的优势,进一步印证了:均值目标只能让模型在「已知能力范围内优化采样效率」,而风险度量目标才是推动模型突破推理边界、真正提升核心能力的理想方向。
不同风险偏好对比实验
结果显示,风险寻求模型的熵值在训练早期就剧烈坍缩—— 训练 150 步后熵值已降至 0.1 以下,远低于 RiskPO 的 0.2;性能上,风险寻求模型在训练 50 步后便进入平台期,MATH 数据集 Pass@1 仅从 52% 提升至 54%,而 RiskPO 则持续优化至 56%,实现 1.5 倍的提升幅度。
这一对比清晰证明,聚焦易任务的风险寻求策略会加速模型「固步自封」,只有风险规避才能驱动模型突破推理边界
《台湾麻将规则》,《Q8X2R7L1T4J5M9B6W3》炸金花挣钱的游戏
“威尼期人线路检测”
曾道人攻略
……
10月18日
“体育世界杯 官方网站”全红婵第三跳
↓↓↓
10月18日,李娜郑钦文两代亚洲之光,湖北如何成为网球人才高地,名豪国际俱乐部官网,十大电竞竞猜app,凯时k66是正规平台吗,环亚国际平台怎么关了
10月18日,中方:祝贺春节申遗成功,欢迎各国朋友到中国体验丰富多彩的春节文化,开运体育官网app,线上真钱送彩金,下载皇冠体育手机app,威廉希尔在线投注
10月18日,湖南举行残奥冠军进校园主题活动,博乐体育app下载安装,世界杯投注量数据,巴黎人注册登录,王者娱乐棋牌
10月18日|驻哈外交使团举办慈善义卖会 中国使馆展台人气旺|赢三张炸金花下载|支付宝怎么投注世界杯|斗地主安卓版|世界杯滚球 网站推荐
10月18日|一港澳流动渔船搁浅4人遇险 珠海海事20分钟极速救援|投注世界杯|尊龙新版手机app|真钱赌盘网站大全|金沙官方网站入口
10月18日|云南镇雄发生山体滑坡 应急管理部启动地质灾害三级应急响应|华纳国际真人棋牌娱乐|爱游戏登陆平台|ayx乐鱼app官方下载|皇冠和365……
10月18日,纪念杨沫诞辰110周年活动在京举办 音乐剧《青春之歌》发布,赌城回忆录,凤凰彩票快速登陆,可以的捕鱼,即时比分90S
10月18日,依法遏制高额彩礼,世界杯官方开户,ag真人是真实的吗,金冠棋牌娱乐官网0292,天娱国际真人棋牌
10月18日|淡水河谷与晋南钢铁集团拟携手在阿曼投资铁矿石选矿厂|优博登录|国际真人彩弹 上海|速8娱乐—测速中心|客户端巴黎人
10月18日,广西瑶族神秘黄泥鼓舞:从深山舞向国际,银河电子游戏下载app,世界杯竞猜怎么投注,顶级138娱乐游戏平台,银河娱乐www1331网站
10月18日,张健任浙江金华代市长,美高梅体育下载App,十大真金赌博排名,澳门威斯尼斯人官方网站下载,外围足球让球规则
10月18日,体育赋能乡村振兴 河北武安打造农民家门口的运动场,在哪里可以买球球大作战的号,大唐国际,凯时国际网站官网,皇冠体育客户端网址
10月18日|罗马尼亚宪法法院确认总统选举第一轮投票结果|体育平台送体验金网站|彩票棋牌游戏|足球比分365bet|bob综合体育app下载4.0
10月18日|“刘德华马上要去超市上班了”,《恭喜发财》是“过年第一神曲”吗?|可以下分的捕鱼平台|凤凰彩票最新版APP|永利轮盘官网入口|炸金花的软件有哪些
10月18日|《跟着音乐大师去旅行》带读者体验一趟发现音乐的沉浸之旅|百家乐体育官方|MG真人平台首页|威廉体育官方app下载|永盛真人游戏
罗马主帅穆里尼奥下课,习近平主席抵达巴黎受到热烈欢迎|大文豪苏轼,竟是陶渊明的“超级粉丝”?|世界杯可以买球的app|正规买球网站有哪些|安卓六狮森林舞会|赛酷体育官网pc
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺