智东西编译 程茜编辑 李水青
智东西10月15日消息,10月14日,小米和北京大学联合署名的论文发表于arXiv,曾被曝获小米集团创始人兼CEO雷军以千万年薪招募的DeepSeek“天才少女”罗福莉,出现在了这篇论文的通讯作者之列,但值得注意的是,论文作者中并没有标注罗福莉属于小米大模型团队。
通讯作者中的罗福莉是95后,她本科就读于北京师范大学计算机专业,硕士毕业于北京大学计算语言学研究所计算语言学专业。随后罗福莉曾在阿里巴巴达摩院主导开发了多语言预训练模型VECO,并推动了AliceMind的开源工作,2022年入职DeepSeek,参与了MoE大模型DeepSeek-V2的研发。去年年底,小米被曝以千万年薪挖角DeepSeek-V2核心开发者之一罗福莉,使其冲上热搜,但双方至今都未公开声明是否正式入职小米。
▲DeepSeek“天才少女”罗福莉(图源:罗福莉个人公众号)
这篇论文提出了提升MoE模型强化学习训练的新方法Rollout Routing Replay(R3)。实验结果证明,R3的整体性能优于GRPO、TIS这类强化学习领域提升模型性能的优化算法,且引入R3的所有组合方法全过程无崩盘,训练过程中训练-推理KL散度等始终较低,在不影响训练速度的情况下,使得极端token比例减少一个量级。
当下,强化学习(RL)已成为提升大语言模型能力的关键方法。然而,在MoE模型中,路由机制往往会引入不稳定性,甚至导致强化学习训练崩溃,但现有的引入重要性采样机制等并不能提升训练稳定性。不同于此前采取诸如丢弃差异较大的数据之类的变通方法,这篇论文的研究人员希望通过解决路由分布也就是R3来根本性解决这个问题。
论文地址:https://arxiv.org/pdf/2510.11370
一、破解强化学习崩溃的关键方法,小米团队提出R3
强化学习已成为大语言模型后期训练的基石,利用大规模强化学习,大模型更深入、更广泛推理,获得解决复杂问题所需的高级能力,但其面临的关键挑战是如何平衡效率和稳定性。
现代强化学习框架通常使用不同的引擎进行推理和训练用于部署,但这种架构上的分离可能导致token概率出现分歧,甚至可能导致灾难性的强化学习崩溃。然而,现有的改进方法并不能完全解决MoE模型上进行强化学习训练时出现的强化学习离线策略问题。
研究人员提出的R3,其工作原理是在序列生成期间从推理引擎捕获路由分布,并将其直接重放到训练引擎中。这一过程可以缩小训练和推理之间的差距,其显著特征是不同引擎生成的逻辑向量的KL散度(量化两个概率分布之间的差异程度,值越小说明两个分布越接近)显著降低,两个阶段之间概率差异显著的token数量减少了大约一个数量级。
此外,该方法同时适用于在线策略(on-policy)和小批量(mini-batch)式离线策略强化学习(off-policy)场景。
论文提到了研究团队的三大主要贡献:
1、系统识别和分析了MoE模型中训练和推理之间的路由分布差异,强调了它们在训练不稳定性中的作用;
2、提出Rollout Routing Replay,它重用训练引擎内部的推理时间路由分布,以协调训练和推理之间的路由行为;
3、将R3应用于多种RL设置进行MoE强化学习,并表明R3在稳定性和整体性能方面优于GSPO和TIS。
二、可显著缩小训练-推理差异,对Agent任务大有裨益
R3的主要思路是在训练前向传播过程中重用推理路由掩码I,同时仍将softmax应用于训练逻辑以保持梯度流。
这种设计主要有两个目的:一是对齐训练和推理,确保训练重放期间使用的专家与推理期间选择的专家相匹配,从而消除专家选择中的不匹配;二是保留梯度数据流,通过仅重放掩码,梯度仍然可以流回logits而不会干扰计算图,这有助于有效地优化路由器。
▲重放门控权重、重放输出y的计算方式
具体来看,R3在效率优化上,通过路由掩码缓存(Router Mask Caching)适配多轮对话场景,降低计算开销。
其论文提到,缓存的路由掩码具有相似的属性,对于相同的前缀token,MoE路由器应该产生相同的结果,因此来自推理引擎的路由掩码可以与前缀KVCache一起缓存。
对于每个层和token前缀,相应的路由掩码都存储在KVCache中。当相同的前缀出现并命中缓存时,这些掩码可以被重用,从而无需重新计算,这使得R3能够与前缀缓存机制无缝集成。
研究人员称,缓存路由掩码在Agent场景中有较大应用空间。例如软件工程和网页浏览等Agent任务,都涉及自回归生成和工具调用之间的多轮交互,为了提高效率,这些过程直接重用了前几轮的KVCache,因此无需重新生成已计算的数据。路由掩码缓存使R3能够在强化学习代理任务中保持高效,而无需重新预填充以生成路由掩码。
为了证明R3在缩小训练-推理差异上的有效性,研究人员使用Qwen3-30B-A3B模型进行了验证,其将推理过程中获得的路由分布缓存在SGLang上,并在Megatron框架内重放它们。
▲使用Megatron进行两次前向传播获得的概率
结果表明,应用R3后,训练和推理之间的KL散度从1.5×10??减小到7.5×10??,接近于稠密模型的6.4×10??水平,这表明其训练-推理差异减少。
研究人员还绘制了使用R3的训练-推理差异比率的累积分布图,对于MoE模型,应用R3可将具有较大训练推理差异的token的频率降低一个数量级。
▲a、MoE模型中训练-推理差异的说明,b、MoE+R3模型中训练-推理差异的说明,c、稠密模型中训练-推理差异的说明,d、极端token分布函数
三、实测三大能力提升:整体性能、训练稳定、优化生成行为
为了评估R3对强化学习的性能改进,研究人员从BigMath、ORZ等开源数据集筛选约10万道可验证数学题,采用AIME24、AIME25、AMC23和MATH500作为基准数据集进行评估,并在单次训练过程中每5个全局步骤测量一次模型性能。
其选择的模型是Qwen3-30B-A3B-Base及其微调模型Qwen3-30B-A3B-SFT。
评估方式是每5个全局步骤记录模型性能,最终报告最佳性能及对应训练步骤,若模型后期性能骤降,同时追踪训练崩盘步骤”。
实验结果表明,整体性能上,R3在多步更新场景,GRPO+R3平均得分68.05分,比GSPO高出1.29分;GSPO+R3进一步提升至69.00,比单独GSPO高2.24分。
单步更新场景,SFT模型上,GRPO+R3平均得分71.83分,比GRPO(62.23)高9.6分,比GRPO+TIS(66.24)高5.59分;Base模型上,GRPO+R3平均得分70.73,比GRPO(61.69)高9.04分。
▲主要评估结果
研究人员还发现,将R3与TIS结合使用并不能带来明显的性能提升,甚至可能降低性能,例如在SFT模型的单小步设置下,TIS+R3的得分比单独使用R3低1.69分。由于R3已经显著降低了训练和推理之间的策略差异,因此TIS的额外校正效果微乎其微。
训练稳定性方面:如GRPO、GRPO+TIS等无R3的方法在单步更新场景中均出现崩盘,GRPO在60步崩盘、GRPO+TIS在105步崩盘。
引入R3后,所有组合方法均无崩盘,且训练过程中训练-推理KL散度等始终较低。
▲多步更新训练-推理崩溃分析
优化与生成行为方面,在训练过程中,R3还能增强优化稳定性、探索行为和生成动态。下图是研究人员绘制的单步+基础模型组训练过程中的序列长度、梯度范数、生成熵和评估分数。
▲wen3-30B-A3B-Base训练动态
结果显示,R3具有更小的梯度范数、更平滑的序列增长模式和更稳定的熵。实验中使用R3时,生成的序列长度在训练开始时迅速上升,表明R3能够快速捕捉到正确的优化方向,相比之下其他两个训练过程在第80步之后才缓慢上升,并且波动更为明显;R3始终保持较低的梯度范数,表明优化过程更加稳定;实验使用R3时,熵在大约第25步后开始稳步上升,表明模型更早地开始探索更优策略,不使用R3时,熵上升得更晚,并且波动较大。
结语:聚焦MoE模型训练难题,小米提出新思路
MoE架构如今已成为扩展现代语言模型的基石,其采用门控网络,对每个token稀疏地仅激活一部分专家参数,从而将模型的总参数数量与其推理成本分离开来,从而大幅提升了模型容量。然而,由于门控网络的敏感性,MoE模型容易受到训练不稳定性的影响,这使得路由稳健性成为有效模型收敛的核心挑战。
在这篇论文中,研究人员在训练过程中重用推理时的路由分布,以在保留梯度流的同时对齐专家选择。这种思路或为行业提供了新的研究思路。
《色色色色综合》,《Q8X2R7L1T4J5M9B6W3》小13箩利洗澡无码视频网站
“123人人免费操在线观看”
h漫画网站
……
10月16日
“美女操逼帅哥91视频”这是我的岛
↓↓↓
10月16日,丁俊晖:从低谷中奋起前行,馃崙馃崙馃崋馃崋,啪啪官网,欧美性爱高清视频,免女人18毛片A级毛片视频
10月16日,2024年皖台学前教育研讨会在安徽合肥启幕,中国黄色1级视频,触手怪榨乳侵犯樱花在线观看,18分钟处破痛哭视频在线,亚洲视频www
10月16日,山西黎城:“水+”产业赋能丹泉河谷 打造乡村振兴新引擎,中日韩激情一级无码免费毛片,午夜福利av电影,天天一级片,丁香花社区无码中文字幕
10月16日|呼和浩特—乌兰巴托全货运包机出口贸易额超1亿元|欧美性爱黄片|拍自拍亚洲手机黄色视频在线观看|Os6hqMc40Up b:/7 ZH3336 2024/01/04【】https://m.tb.cn/h.hgqo8Wr?tk=8MZDV|欧美情爱免费网址
10月16日|陕西系统开展“人社工作进园区”活动 企业代表:感受到温度和效率|欧美性爱资源|AV棉费|优优视频国内A级毛片|www.黄色网址
10月16日|【台青在大陆】“00后”台青倾心中国舞 踱步间尽显文化传承|性色在线观看视频免费网站|吴梦梦连续高潮十八次|男人为何会射精过快|美女露出 让男生吃奶……
10月16日,丹麦国王腓特烈十世登基,免费插进去了湿了啪啪黄片,www.dxj久久av,黄色网站在线观看污,丝袜美女麻豆免费美女视频国产视频
10月16日,首次走出京津冀 第十三届恭王府“海棠雅集”走进浙东唐诗之路源头,林书辞定制全套视频,18禁无码久久精品中文字幕乱码,精品国产午夜在线观看2021,牲视频网
10月16日|中国黄金协会:前三季度全国黄金消费量同比降逾11%|24小时免费看成年女人18级毛片毛片免费|欧美一级免费一区|中国女人毛片A片区一区|久久黄片不卡
10月16日,山西襄垣:草莓采摘正当时 尽享田园好时光,com.www黄片,校花 把熊 给我捏,欧美日韩一区河南,果冻精品秘 国产传媒AV消防
10月16日,李家超:惠港措施为香港经济带来新增长点,jiuse1127.xyz少妇粉丝背着老公体验体育生 - 海角视频,成年人黄色网站视频,美女被强奸视频大全,白丝高中生被塞到爽哭
10月16日,浙江衢州:发布超6500个岗位招才引智,婷婷五月婷婷五月,日韩Aⅴ色香淫乱,同人 エロ 漫画,亚洲人成电影在线观看天堂色
10月16日|“巴黎锌屋顶工匠与装饰工匠技艺”列入人类非物质文化遗产代表作名录|人人舔人人射|电击花蒂穴到失禁尖叫|亚洲三级图片小说|2020自拍系列精品视频
10月16日|江西共青城300余人同吃百家宴|男同在线视频|好爽...高潮了,叫的再浪一点视频|91精品视频免费|亚洲欧美 激情小说
10月16日|东契奇末节被罚出场,凯尔特人再胜独行侠|国内一级性爱直播|精品国产品不卡在线免费观看|天天日一日干一干|娇喘啊~你tm别㖭了h
智能路障开团米游头部UP主,女寝举报送水大爷导致无人送水|青海油田增产保供为中国西部三省(区)过冬添“底气”|陈小春演唱会上座率高得惊人|www.97caopeng.com|3级a做AV二|欧美自拍网址
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺