青青视频免费青青视频观看,界面清爽、功能强大,专为极致体验而生_新万博体育
青青视频免费青青视频观看 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置:首页电脑软件女子景区捡到孩子生气大喊 → 青青视频免费青青视频观看 v4.123.2126.300669 安卓最新版

青青视频免费青青视频观看

青青视频免费青青视频观看

  • 电脑版下载
猜你喜欢
标签: 青青视频免费青青视频观看 一区二区三区免费视频在线观看
详情
介绍
猜你喜欢
相关版本

内容详情

青青视频免费青青视频观看

机器之心报道

编辑:Panda

如果说大模型的预训练(Pre-training)是一场拼算力、拼数据的「军备竞赛」,那么测试时扩展(Test-time scaling, TTS)更像是一场在推理阶段进行的「即时战略游戏」。

现在的共识是:让模型在回答问题前「多想一会儿」,往往能得到更好的结果。这听起来像是一个完美的免费午餐:只要能在推理时动态分配新万博体育:计算资源,就能让模型的智商原地起飞。

但问题来了:我们该怎么让 LLM「多想」?

好比让一群学生做题:是让一个学生反复修改答案(序列策略)?还是让一百个学生同时做题然后投票(并行策略)?亦或是让他们开个会讨论一下(混合策略)?

更重要的是,有些「学生」(模型)虽然聪明,但想得越多反而越容易钻牛角尖;而另一些则必须深思熟虑才能解出难题。

究竟哪个 TTS 策略才是那个「天选之子」?

为了结束这场盲人摸象般的争论,微软终于出手了。

他们进行了一项针对 TTS 的系统性研究:涵盖了从 7B 到 235B 参数量的 8 个开源 LLM,在 4 个推理数据集上疯狂生成了超过 300 亿 个 token。

论文标题:The Art of Scaling Test-Time Compute for Large Language Models论文地址:https://arxiv.org/abs/2512.02008

这项研究不仅打破了「一种策略通吃」的幻想,还发现了一个颠覆认知的现象:模型之间存在着明显的性格差异,分化为「短视界」和「长视界」两大阵营。

基于这些洞见,微软团队更是直接甩出了一套综合了问题难度、模型类型和计算预算的「实用配方」。下面,让我们一起走进这项揭示了 LLM 推理本质的重磅研究。

测试时扩展方法简介

LLM 的测试时扩展策略多种多样,通常分为并行、序列、混合 / 元方法(meta)以及内部计算机制(图 2)。虽然每类方法在特定设置下都显示出潜力,但没有单一策略是普遍最佳的

并行扩展策略

通过聚合多个独立采样的推理路径的答案来提升性能。Self-consistency 对多样的推理路径进行采样并选择出现频率最高的最终答案,显著提升了算术和符号任务的性能。Best-of-n 采样作为一种简单的并行方法被广泛使用,不过最近也有人提出了更具原则性的投票策略,如加权多数投票和多智能体验证(MAV)。Short-m@k 利用了早停机制:它并行运行 k 条推理链,并根据完成路径的比例提前终止。

序列扩展策略

通过迭代式的修正、重启或回溯来扩展推理深度。思维链(CoT)提示是一个基础理念,随后的工作如 STaR 和 Reflexion 探索了通过试错或语言自我反思进行修正。思维树(ToT)和思维图(GoT)通过结构化的广度优先或 DAG 风格搜索进一步扩展了这一点。AlphaGeometry 将符号证明搜索与 LLM 结合,以实现步骤级的序列控制。S1 微调模型以教授自我修正策略,利用了更高的测试时计算量。

混合扩展策略

该策略融合了以上两个维度。Meta-Reasoner 使用上下文多臂老虎机根据感知的任务难度动态选择 TTS 策略。AgentTTS 和 START 部署智能体(具有工具调用能力的 LLM)在直接生成或更复杂的推理之间进行切换。PEARL 交替进行草稿生成与修正,模拟自我改进循环。这些元调度器(meta-schedulers)认识到仅靠深度或并行扩展是不够的,旨在根据模型行为和提示动态调整策略。相比之下,内部扩展策略修改模型在推理过程中的内部计算量,而不显式调整外部样本数或推理步骤数。HALT-CoT 和 SoftCoT++ 的方法是估计答案的不确定性,如果置信度高则提前终止。

没有哪种策略是普遍最佳的。多项实证研究加强了这一观点,即没有 TTS 策略能持续占据主导地位。

微软这项研究分析的算法包括最先完成搜索(First Finish Search, FFS,算法 1)、最后完成搜索(Last Finish Search, LFS,算法 2)和束搜索(Beam Search),前两者由变量 k 和 N 参数化,而后者仅由 N 参数化。

FFS-k@N 意味着采样 N 个输出并在最短的 k 个样本中执行多数投票(MV)以确定结果;而 LFS-k@N 仅仅涉及选择最长的 k 个样本而非最短的,随后对这些样本进行多数投票。

束搜索涉及维护一组高概率的部分假设(partial hypotheses),并在解码过程中不断更新这些前缀。

研究结果

束搜索显示出逆扩展或无扩展

研究的第一个爆点来自于对经典算法束搜索(Beam Search)的宣判。

在实验中,研究人员观察到了一个极其反直觉的现象:在「短视界」和「非推理」这两个模型家族中,束搜索表现出了一致的逆扩展(inverse-scaling) 模式:随着束大小 N 的增加,性能单调下降(图 1)。

看图便知,对于像 R1 和 QwQ-32B 这样的模型,一旦束大小(Beam Size, N)超过 2,准确率不仅没有提升,反而像坐过山车一样急剧下降。

即便是 GPT-OSS-120B 和 Qwen3-32B 这样的「长视界」模型,增加 N 也未能带来收益,准确率曲线要么躺平,要么缓慢下滑。

这意味着什么?意味着在束搜索上投入新万博体育:的计算量(增加 N 会消耗新万博体育: token),不仅是浪费,甚至是有害的。简直是花钱买罪受。

推理路径长度与质量的相关性

这项研究最核心的贡献,在于揭示了推理路径长度与质量之间复杂的相关性。这对于深入理解像 FFS 和 LFS 这样基于长度的过滤策略至关重要。

FFS 和 LFS 基于两个截然相反的观点:越短越好和越长越好。

为了调查哪种假设(或哪些假设)适用于特定模型,该团队报告了给定推理路径长度区间和问题难度下的准确率(表 1)。

请注意,问题难度是通过所有模型和路径的平均准确率来衡量的,而报告的准确率是通过特定模型的所有输出来衡量的。一个关键的考量是,问题难度与推理路径长度存在混淆(confounded,图 3):短路径通常源于较容易的问题,而长路径往往对应较难的问题。

为缓解这种混淆效应,他们将分析限制在同时具有短路径和长路径的任务上。对于每个此类数据集,他们分别计算短路径和长路径的单一准确率值,然后在数据集之间平均这些值,从而防止数据集大小的差异不成比例地影响聚合结果。

结果,他们将六个推理模型清晰地划分为两大阵营:

1. 短视界模型

代表成员:R1, QwQ-32B, DAPO-32B行为特征:对于给定的问题难度,更短的推理路径比更长的路径更可能是正确的。

这意味着这些模型在推理时往往「直击要害」,如果它们开始长篇大论,很可能是在「胡言乱语」或者陷入了无效循环。

有趣的是,DAPO-32B 尽管使用了 GRPO 等技术,依然表现出与 R1 相似的长度偏置,说明目前的后训练技术在缓解长度偏置方面可能还很有限。

2. 长视界模型

代表成员:Qwen3-32B, GPT-OSS-120B行为特征:它们的表现更为复杂且「世故」。

在简单问题上,它们倾向于较短的路径。但在困难问题上,它们则偏好较长的路径。

这类模型展现出了更强的适应性:遇到难题时,它们确实在利用额外的计算步骤进行有效推理,而非无效空转。

深度分析:预算与策略的博弈

既然模型性格迥异,那么在给定的计算预算(Token 消耗量)下,我们该如何选择最佳的 k 和 N?

研究团队通过分析 FFS-k@N 和 LFS-k@N 的性能曲线,发现了几个关键趋势:

LFS 的奥义在于「全员投票」

对于 LFS 系列方法,给定总计算量下的最大性能总是当 k 很大时(即 k=N)实现。注意,当 k=N 时,LFS 实际上就退化成了 多数投票(MV-N)。

结论非常简单粗暴:在消耗相同 token 的情况下,直接做多数投票(MV@N)总是优于刻意筛选最长路径的 LFS-k@N。

FFS 的微妙权衡

对于短视界模型: 较大的 N 值总是最好的。这意味着你应该采样很多样本,然后从中选出最短的那一批进行投票。

对于长视界模型:存在权衡。如果你想用高计算量换取高性能,你必须选择较小的 N(本质上是执行简单解码);而在非推理模型上则相反。

这一分析告诉我们,最佳 TTS 策略是随着预算的增加而动态扩展的

终极配方:如何为你的模型选择 TTS 策略?

基于上述海量实验数据,微软团队总结出了一套极具操作性的「决策矩阵」。这不仅是理论分析,更是给算法工程师们的实战手册。

让我们来拆解这个配方的内在逻辑:

场景一:如果你使用的是「短视界模型」(如 R1, QwQ)

这类模型有个特点:无论题目难易,它们总是觉得「长话短说」的答案更靠谱。

低计算预算时:使用 FFS,且设定 k=1。即:采样 N 个答案,直接挑最短的那个作为最终答案。简单、快速、有效。

高计算预算时: 使用 FFS,且设定 k=N(等同于 MV@N)。即:采样 N 个答案,因为 N 个最短路径就是所有路径,所以这实际上就是标准的多数投票。

核心逻辑:对于短视界模型,性能随 N 的增大而提升。因此,只要预算允许,把 N 拉满,做多数投票即可。

场景二:如果你使用的是「长视界模型」(如 Qwen3)

这类模型比较「纠结」,策略选择稍微复杂一些。

面对高难度问题(High Difficulty):模型倾向于长路径。由于 LFS@N 随 N 增加而提升:

高计算预算: 使用大 N 的 MV@N。低计算预算: 使用小 N(理想情况下 N=1)的简单解码(SD)。

这里有一个有趣的结论:在保持 k=N 的情况下(即 MV),性能随 k 增大而提升。

面对低难度问题(Low Difficulty):此时模型偏好短路径(杀鸡焉用牛刀)。

高计算预算: 使用大 k 的 FFS。低计算预算: 使用小 k 的 FFS。

在这种设置下,设定 N=k(即 MV@N)依然是稳健的选择。

总结来看,尽管模型类型和任务难度千差万别,但最终的「配方」却表现出了惊人的殊途同归:对于绝大多数情况,多数投票(MV@N) 或者是其变体(如 FFS 中的 k=N)往往是性价比最高的选择。特别是对于「短视界」模型,不要试图通过让它「多想」来强行提升效果,新万博体育:时候,从大量的快速回答中通过投票筛选出共识,才是正确的打开方式。

微软的这项研究,实际上是在为 LLM 的推理能力「祛魅」。它告诉我们,测试时扩展并不是简单地堆砌算力,更不是盲目地追求更长的思维链。

理解模型的「视界」属性是设计高效推理系统的第一步。而在算力昂贵的今天,这份基于 300 亿 token 实测得出的决策配方,无疑为我们节省了大量的试错成本。

下一次,当你准备让你的模型「再想一下」时,不妨先查查这份配方,看看你是否正在为一个「短视界」的模型,强加它并不擅长的长考重担

相关版本

    多平台下载

    查看所有0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:766969941

    查看所有0条评论>>

    相关软件
    免免费毛片一级在线播放视频 app免费下载汅api在线下载网站 亚洲黄色网站入口 少司缘被拖到繁衍之后免费阅读漫画 忘川49秒生孩子原版 XNXXX日本 23 美女裸体软件网站下载 刘涛下面B好长大 在线中文字幕亚洲日韩五区 纲手自慰喷水 18岁禁看黄网站 欧美一级裸体视频,免费看 男人操女的亚洲国产视频 黄色网站在线观看全网 久久青草精品A片狠狠来 亚洲欧美偷拍视频 女性的屁股眼秘 视频网页 欧美巨大视频 在线免费视频网址 久久久久无码精品国产不卡 七仙女大乳全黄裸体 日韩久久免费看A片 美女互扣 亚洲性爱视频色图 人人操人人看人人射人人干 天天色淫荡综合网 灌醉迷奷系列无码 h片免费 91   娇蕊白丝 少妇激情A片免费看视频 欧美亚洲另类图片 www.91 在线.com 亚洲精品笫一页国产精品 久久午夜一级A片免费 吻奶视频 黄色日人视频 免费A黄色视频看 色a 4 y y 俄罗斯一级黄色 J8又粗又硬又大又爽又长视频 亚洲天天在线 日韩欧美三级视频 国产精品色哟哟网 网址性av 爆 美女图片视频小说 亚洲爱情视频一区 一级做a爰片久久毛片A片免费的 女优网站 igao222视频 美欧色色色 A片免费观看视频 尤物网站在线免费看 XXXX大人 HD 日本三级香港三级人妇美 免费一级a毛片、在 线 播放 网站A片在线看免费 小幺女一级毛片AAA春巴櫻樱女 射精女上司 国产一级18女精品 私密直播全婐 精品人妻系列无码人妻无广告 亚洲无码乱伦视频 被焯哭了 挠男生jio 日批视频免费 日韩在线电影一区 免费的黄片有没有亚洲免费的黄片亚洲一级毛片 人禽互交50篇视频 FC2污污污 国产一级啪啪电影 毛片综合 免费胸交视频 一级伦奷视频 黄色精品在线观看 一起草在线播放 迈开腿打扑克视频 叶舒华吃大狙 www.tzzc666.com 黄色网站免费在线看一区 在线免费观看欧美一级片 综合色亚洲自拍偷拍欧美 软萌兔兔酱纳西妲在哪个平台 国产主播福利第一页 沐浴的视频毛多 又色又爽网站 羞羞网站免费 人人操人人叉人人 koub cc 国产精品福利在线观看 a√一圾片 吴敏农场驴全部小说 久久极品精品 初中生白脚射丝鞋 魅魔繁殖乐园 99国产高潮流白浆视频免费看 ixxx a级a片 国产黄色视屏 国产在线网址 看美女靠屄 www…爱爱…com 日产品精1二区3日产免费二区 偷拍网偷拍 麻豆91 曰曰鲁国产 免费JJZZ4视频在线观看 猎奇官网9.1(官网) 欧美一区二区三区在线观看星空 久久免费视频观看 美女的隐私秘 视频网站喷水 亚洲国产精品久久无码中文字 海角社区 18 中国女兵A级毛片 亚洲欧美性爱自拍 亚洲欧洲色A让一区二区三区 加勒比码 国产精品老师机在线观看 升级项目小蛙导航 亚洲大型综合色站
    热门网络工具