猫眼电影
猫眼电影记者 卓霏 报道Q8X2R7L1T4J5M9B6W3
机器之心报道
编辑:+0、冷猫
目前,所有主流 LLM 都有一个固定的上下文窗口(如 200k, 1M tokens)。一旦输入超过这个限制,模型就无法处理。
即使在窗口内,当上下文变得非常长时,模型的性能也会急剧下降,这种现象被称为「上下文腐烂」(Context Rot):模型会「忘记」开头的信息,或者整体推理能力下降。
这种现象在现实使用中远比在标准化基准测试中更明显。当用户与 ChatGPT 等主流 LLM 进行长时间、多轮的复杂对话时,会明显感觉到模型开始变「笨」,变得难以聚焦、遗忘关键信息。
来自 MIT 的研究者从一个直观的想法出发:也许可以把超长上下文切分,分别交给模型处理,再在后续调用中合并结果,以此避免衰退问题?
基于此,他们提出了递归语言模型(Recursive Language Models,RLMs),这是一种通用的推理策略:语言模型将输入上下文视作变量,对其进行分解并递归式交互。
将上下文视为一个可操作的「变量」:主模型(root LM)在一个类似 Jupyter Notebook 的编程环境(REPL)中工作,完整的上下文只是一个它能用代码访问的变量,而不是直接的输入。递归调用自身或小模型:主模型可以编写代码来查看、切分、过滤(比如用 grep)这个巨大的上下文变量,然后把小块的任务外包给一个个小的、临时的 LLM 调用(递归调用)。综合结果:主模型收集这些「外包」任务的结果,最终形成答案。
研究者还设计了一个具体实现:在一个 Python REPL 环境中调用 GPT-5 或 GPT-5-mini,并将用户的 prompt 存入变量中进行迭代式处理。
结果很惊人:在能获取到的最难的长上下文评测集之一 OOLONG 上,使用 GPT-5-mini 的 RLM 正确答案数量是直接使用 GPT-5 的两倍以上,而且平均每次调用的成本更低。
研究者还基于 BrowseComp-Plus 构建了一个全新的长上下文 Deep Research 任务。在该任务中,RLM 显著优于 ReAct + 推理时索引 / 检索等方法。令人意外的是,即使推理时输入超过 1000 万 tokens,RLM 的性能也没有出现衰减。
他们相信,RLM 很快会成为一个强大的范式
同时,相比于仅依赖 CoT 或 ReAct 风格的代理模型,显式训练以递归式推理为核心机制的 RLM,很可能成为推理时扩展能力领域的下一个里程碑
博客文章:https://alexzhang13.github.io/blog/2025/rlm/原帖压缩总结见推文:https://x.com/a1zhang/status/1978469116542337259
博客作者为 MIT CSAIL 的 Alex Zhang 和 Omar Khattab。
这是一个递归语言模型 (RLM) 调用的示例。它作为一种从文本到文本(text → text)的映射,但比标准的语言模型调用更灵活,并且可以扩展到近乎无限的上下文长度。RLM 允许语言模型与一个环境(在此实例中为 REPL 环境)进行交互,该环境存储着可能非常庞大的上下文。在其中,模型可以递归地子查询「自身」、调用其他 LM 或其他 RLM,从而高效地解析这些上下文并提供最终的响应。
评论区的反馈也非常积极,并且进行了很多深入的讨论。
递归语言模型 RLM
RLM 的通用性与其底层语言模型本身相同。实际上,从用户角度来看,RLM 的调用方式与普通模型调用并没有区别,但它在内部可以生成(递归式的)LM 子调用来完成中间计算。
当你向一个 RLM 发起查询时,「根」语言模型(root LM)可以把整个上下文当作可操作的环境来探索和处理。它会通过递归调用(R)LM,将对任意结构或任意长度上下文的处理任务分解并逐级委托,从而实现可扩展的推理能力。
递归语言模型(RLM)调用取代了传统的语言模型调用。它为用户提供了一种「仿佛上下文无限大」的体验,但在底层,语言模型会自动对上下文进行管理、分区,并根据需要递归调用自身或其他 LM,从而避免出现 context rot(上下文退化)问题。
研究者将这一机制实现为一个类似 Jupyter 的 REPL 环境:
核心思想是:将用户的 prompt 存入一个 Python 变量中,然后提供一个 REPL 循环给 LLM,让它可以在不一次性读取全部内容的前提下,主动尝试理解和操作 prompt。
「根」语言模型(root LM)通过编写代码并查看每个单元格的输出,与这个环境进行交互;在此过程中,它还可以在 REPL 环境中递归调用其他 LM 或 RLM,以此在上下文中进行导航和解析。
这种方式要比任何「分块(chunking)」策略都更加通用且更智能。研究者认为:应该让语言模型自己决定如何探索、拆解并递归地处理长 prompt,而不是由人为制定固定的切分策略。
RLM 框架实例为根 LM 提供了在 Python 笔记本环境中分析上下文的能力,并能在任何存储在变量中的字符串上启动递归 LM 调用(深度 = 1)。LM 通过输出代码块进行交互,并能在其上下文中接收(截断的)输出版本。完成时,它输出带有 FINAL (…) 标签的最终答案,或者可以选择使用代码执行环境中的字符串 FINAL_VAR (…)。
这种结构在实际使用中带来了多项明显的优势:
根语言模型(root LM)的上下文窗口很少被「塞满」 —— 因为它从不直接读取完整上下文,它接收的输入规模增长得很慢。root LM 拥有灵活的上下文访问策略 —— 它可以只查看部分上下文,或者对上下文块进行递归处理。例如,当任务是寻找「needle-in-the-haystack」信息或需要多跳推理时,root LM 可以先通过正则表达式(regex)等方式粗略筛选上下文范围,再对筛选结果发起递归式 LM 子调用。这对于任意长度的上下文输入尤其有价值,因为对整个长文档现检索(on-the-fly indexing)通常代价很高。理论上,RLM 能处理任何可以加载到内存的模态数据 —— root LM 可以完全掌控数据的查看与转换方式,并在此基础上继续向递归 LM 发起子查询。
RLM 框架的一个显著优势在于:可以在一定程度上解释它的行为轨迹,理解它是如何一步步推理并得出最终答案的。研究团队编写了一个简易可视化工具,用来观察 RLM 的推理路径,展示了 RLM 实际在「动手做什么」。
令人振奋的早期结果
研究者一直在寻找能够真实反映长上下文任务场景的基准测试,例如 长时间多轮的 Claude Code 会话。他们希望通过这些任务重点突出当今前沿模型面临的两类核心限制:
1. 上下文退化现象 —— 模型性能随着上下文长度增加而退化;
2. 系统层面的约束 —— 模型在处理超大型上下文时出现的架构或交互瓶颈。
激动人心的成果 — 处理上下文退化
RLMs 旨在解决上下文退化问题,即当你有一个很长的 Claude Code 或 Cursor 实例时,它无法正确处理你的长历史记录的奇怪现象。
OOLONG 是一个具有挑战性的新型长上下文基准,其中模型在极其密集的上下文中回答查询。研究者选择了一个特别困难的分割点,在 OOLONG 基准测试的 trec_coarse 数据集上报告结果,GPT-5 在 132-263k token 上下文中得分约为 33%。
与此同时,一个使用 GPT-5-mini 的 RLM 在 132k 情况下以超过 114%(即超过两倍)的低查询成本优于 GPT-5,在 263k 情况下以49% 的成本优于 GPT-5!
RLM (GPT-5-mini) 比 GPT-5 高出 34 分以上(约增长 114%),并且几乎每个查询的成本都相同(研究者发现中位数查询更便宜,因为有些异常昂贵的查询)。
RLM (GPT-5-mini) 比 GPT-5 高出 15 分以上(约 49% 的提升),并且平均每个查询的成本更低。
令人兴奋的结果 — 超大上下文
RLM 的设计目标之一,就是在无需额外辅助结构的情况下,处理近乎无限长度的上下文。
BrowseComp-Plus(BC+) 是一个 DeepResearch 任务基准,模型需要通过检索多个离线文档,来回答多跳组合性问题(multi-hop compositional questions)。
在目前的初步实验中,研究者从 BC+ 中抽取了一个小规模的查询子集,然后直接将不同数量的文档(从 10 份扩展到 1000 份,对应约 10 万到 1000 万 tokens)原样塞进上下文中。实验结果显示:基于 GPT-5 的 RLM 在跨越这些规模时性能并未下降,甚至优于采用 ReAct + 检索循环(retriever loops)的方法
研究者在 BrowseComp-Plus 上对 20 个随机查询绘制了各种方法的性能和每个答案的 API 成本,随着上下文文档数量的增加。只有迭代方法(RLM、ReAct)在 100 篇文档以上时仍保持合理性能。
这些实验结果令人振奋:在没有进行任何额外的微调或架构改动的前提下,就能够在真实基准上处理超过 1000 万 tokens 规模的上下文,并且完全不依赖检索器(retriever)!
思考与总结
RLM 不是 agent,也不只是作总结。一个系统中使用多次 LM 调用的想法并不新颖 —— 从广义上讲,这正是多数 Agent 框架所做的事情。在现实中,最接近的例子是 ROMA Agent,它会分解问题并运行多个子代理来解决每一部分。另一个常见的例子是 Cursor 和 Claude Code 这样的代码助手,它们会在上下文越来越长时对历史进行摘要或裁剪。这些方法通常是从任务或问题的角度来理解多轮 LM 调用的分解。而研究者们坚持认为,LM 调用可以从上下文的角度进行分解,而分解方式应完全由语言模型自己来决定。
固定格式对 scaling laws 的价值。从 CoT、ReAct、指令微调、推理模型等理念中,得到的经验是:以可预测或固定的格式向模型呈现数据,对于提升性能至关重要。基本思路是,如果能将训练数据的结构约束到模型预期的格式,就可以用合理的数据量显著提升模型性能。将这些理念应用到改进 RLM 之上,或许可以作为另一条扩展轴。
随着 LM 的进步,RLM 也会进步。最后,RLM 调用的性能、速度和成本与底层模型能力的提升直接相关。如果明天最强的前沿语言模型可以合理处理 1000 万 token 的上下文,那么一个 RLM 就可以合理处理 1 亿 token 的上下文(可能成本还只有一半)。
研究者认为,RLM 与现代 Agent 是两种根本不同的押注方向。Agent 是基于人类 / 专家的直觉来设计如何将问题拆分为语言模型可以消化的形式。而 RLM 的设计原则是,应该由语言模型自己决定如何拆分问题,使之可被语言模型消化。
研究者坦言:「我个人并不知道最终什么会奏效,但我很期待看到这个思路会走向何处!」
??时事1:国内久久久久久久久久精品
??10月17日,柬埔寨执政党人民党重申坚定奉行一个中国政策,
今天,我要演讲的题目是《善待地球,保护环境》。
,帅小伙被客人无套猛擦。??10月17日,百位两岸音乐唱作人齐聚福州 两岸原创歌曲评选颁奖盛典举行,
小不点上前,大眼发光,说出了一句令这群人悲愤的话语,道:“一堆战利品总比一两个人强吧,你们谁去送信啊,拿镇族宝术来换人。”
,久久一本本道,12岁初中生打扑克,iGao视频入口。??时事2:草草影院在线一区二区三区
??10月17日,(寻味中华|戏曲)云南滇剧:300年乡间“年戏”温润年轻人,
第三,重抓城市建设,是加快嘉荫发展的需要。近几年来,我们沿江县份的发展特别是城市建设可以说是百花齐放、异彩纷呈:东宁县注重依山傍水的独特优势,做足山、水文章,着力打造具有现代品位、人文内涵、山水特色、边陲知名的旅游生态城市,整个县城的建设力度、建设品位令人耳目一新。漠河县紧紧围绕“人在绿中,楼在花中,城在林中”的目标定位,积极开展最佳人居环境的生态城市创建活动,全面加快现代化城市建设步伐,城区基础设施配套功能日益完善。萝北县按照建设“宜居城市”和边陲明星县的目标定位,全民动员,全员参与,城市建设大有起色。周边县市蓬勃开展的城市建设,还有我们没有说到的南方发达县市的成功模式,既给我们发展城市经济带来了有益的启示,更给我们提出了更大的挑战。面对沿江县份城市建设你追我赶、争先恐后的发展态势,我们必须进一步坚定信心,加快赶超,充分借鉴这些地区城市建设方面的成功经验,扬长避短,奋力向经济发达、环境优美、秩序井然的边陲名城、文明型县城迈进。
,汤姆维的设姐,成年女人网站视频,曰本做爱视频。??10月17日,高考后,如何进行心理调适|科普时间,
在接下来的日子里,湖边多了一个小小的身影,跟着孩子们一起练功,众人吃惊的发现,他除了身子有点单薄外,竟也懂得骨文,虽然没有小不点那么精深,但也很强。用老族长的话说,这是一个天才,此前只是被他的身体拖累了。
,中文字幕亚洲一区二区www,在线观看黄A片,美女被 到高潮出白。??时事3:黑人干网站
??10月17日,【滔滔两岸潮】台青在沪直播带货:“大陆让我成长很大”,
“喂,你们不是要抢我们的宝骨吗?过来拿啊。”一群娃子非常不忿,情绪稳定下来后,全都发作了。
,顺子日大婶小说最,日产中文字幕网站在线观看在线网人成亚洲欧美国产,国产一級a片黄片。??10月17日,广西桂林发布暴雨红色预警 漓江游览排筏再次全线封航,
“你们死定了,今日注定要灭族!”狈里青又出现了,他脸色阴冷,眼睛跟毒蛇一样,此时骑坐在一头通体银白的巨狼身上。
,国产男女交性A片,体育生屁眼太紧了军警gay,免费视频久久。??时事4:欧美性爱高清视频
??10月17日,天津伦敦“双城互动” 上演“海河邂逅泰晤士”天津时尚秀,
三要规范工作程序,确保重点工程的顺利实施。随着嘉荫经济社会的快速发展,各类重点工程建设进入高速发展期。整顿建筑市场秩序和规范项目建设施工程序,进一步强化建筑市场管理,已成为确保工程质量安全的一件刻不容缓的大事。经过研究,我们将逐步出台一些规范性文件。刚才,会议印发并宣读的《新万博体育:进一步规范城市基本建设项目审批及竣工验收程序和明确参建各方主体责任的意见》就是其中的一部分,目的就是要有效解决在加快城市建设过程中责任不够明晰、程序不够规范的问题,就要进一步规范建设业主和参建各方主体行为和责任,进一步捋顺项目建设的各项程序。如,公建项目建设单位在建设过程中要认真履行责任与义务的同时,要与财政、建设主管部门对工程建设标准,包括主体与装修工艺材料等所有相关事项予以明确并签订相关协议。普通砖混结构工程严格执行一口价,经财政、建设主管部门审核提出意见后,报县政府主要领导批准后确定。框架及特殊结构严格执行预决算,由施工单位提出预算,经财政、建设主管部门审核提出意见后、报县政府主要领导批准后确定。施工过程需要改变建设和工程造价时,必须经财政、建设部门审核提出意见后,报县政府主要领导审批确定,没有履行以上审批程序,不予拨付工程款。房地产开发项目,开发单位在建前办理各项审批手续的同时,必须将小区内部规划、景观设计与工程施工图纸一并呈报规划局、建设局、公用事业局、园林局等相关单位部门予以审批,包括小区硬化、绿化、供热、供水、通信等配套设施等,并在施工过程予以认真执行和实施,否则不予验收和发放产权证;同时,在开发过程中要严格执行预售许可制度,履行审批程序,坚决控制超前销售行为发生,建设行业主管部门要严格予以监督。另外,各项目建设单位必须在建前足额交纳农民工欠薪保障金,竣工后足额扣取工程质量保障金等等,这些都要在今后的城市建设中予以进一步规范。各部门、建设各单位及开发企业,要严格按照意见要求,认真贯彻执行,确保城市建设各项重点工程高效推进和顺利实施。
,揉我奶头 啊 嗯摸硬了,91精品国产免费久久久蜜月,亚洲 欧美 另类 中文字幕。??10月17日,祁连山林海雪原尽显纯净壮丽 宛若大自然雕琢的艺术品,
“我们也要去,看他到底能不能破掉石毅的纪录!”
,AAAA人妻互换视频,免费人成视频在线狼友网,永久免费AⅤ无码视频。责编:张惠雯
审核:利昂
责编:杨眉












