为了同时解决知识的实时性和推理的复杂性这两大挑战,搜索智能体(Search Agent)应运而生。它与 RAG 的核心区别在于,Search Agent 能够通过与实时搜索引擎进行多轮交互来分解并执行复杂任务。这种能力在人物画像构建,偏好搜索等任务中至关重要,因为它能模拟人类专家进行深度、实时的资料挖掘。
但 Search Agent 经常面临着一个棘手的瓶颈:缺乏过程中的自我纠错能力。现有的智能体一旦在推理早期因一个模糊的查询而走上错误的路径,就会基于这个错误结果继续执行,引发连锁式错误(Cascading Errors),最终导致整个任务失败。
为了攻克这一难题,腾讯内容算法中心联合清华大学,近期提出ReSeek 框架,它不是对 RAG 的简单改进,而是对 Search Agent 核心逻辑的一次重塑。
ReSeek 的关键在于引入了动态自我修正机制,允许智能体在执行过程中主动评估每一步行动的有效性。一旦发现路径无效或信息错误,它就能及时回溯并探索新的可能性,从而避免「一条路走到黑」。
论文地址:https://arxiv.org/pdf/2510.00568开源模型及数据集地址:https://huggingface.co/collections/TencentBAC/reseekGithub 地址:https://github.com/TencentBAC/ReSeek
连锁式错误:一步错,步步错
连锁式错误指的是,智能体在多步推理链的早期,哪怕只犯了一个微小的错误,也会像推倒第一块多米诺骨牌一样,导致后续所有步骤都建立在错误的基础之上,最终使整个任务走向完全失败。
这个过程可以分解为以下几个阶段:
初始偏差:任务起点是「美国上一任总统哪一年出生的」?智能体没有先去识别 「上一任总统」是谁,而是直接将整个模糊问题扔给搜索引擎,这种跳过推理、依赖直接搜索的策略就是最初的偏差。错误固化:搜索结果中可能同时出现了「特朗普」「总统」和「出生年份」等信息,智能体从中错误地提取并认定了「上一任总统就是特朗普」,它没有停下来验证这个信息的准确性,而是将这个未经证实的猜测固化为后续步骤不可动摇的事实依据。无效执行:智能体基于「上一任总统是特朗普」这个前提,去执行搜索「特朗普的出生年份」的指令。接着智能体抓取了年份「1946」(这是特朗普的出生年份),这个执行步骤本质上是一次无效执行。任务失败:最终,智能体给出了一个完全错误的答案:「美国上一任总统出生于 1946 年。」这个结果与事实(正确应为 1942 年)完全不符,它错误地将一个人的信息安在了另一个人身上,直接导致了任务的彻底失败。
根源何在?「执行者」而非「思考者」
为什么当前的搜索智能体会如此脆弱?根源在于它们在设计上更偏向一个「忠实的执行者」,而非一个「批判性的思考者」。
缺乏反思机制:智能体遵循一个线性的「思考 - 行动」循环(Think-Act Loop),但缺少一个关键的「反思 - 修正」环节(Reflect-Correct Loop)。它不会在得到中间结果后,与最初的目标和约束条件进行比对和审视,评估当前路径的合理性。对中间结果的「盲信」:智能体将每一步的输出都视为不容置疑的「事实」,并将其直接作为下一步的输入。这种对中间结果的过度自信,使其无法从错误的路径中抽身。
因此,当前搜索智能体的脆弱性在于其推理链的刚性。它擅长沿着一条既定路线走到底,却不具备在发现路走不通时,掉头或另寻他路的能力。要让智能体真正变得鲁棒和可靠,未来的关键突破方向在于:赋予智能体自我反思和动态纠错的能力,让它从一个只会「一条路走到黑」的执行者,进化成一个懂得「三思而后行、及时止损」的思考者。
让 Agent 具备元认知能力
为了赋予智能体自我反思和动态纠错的能力,团队扩展了 Agent 动作空间,引入了一个核心的JUDGE 动作。该动作在每次信息获取后被调用,用于评估新信息的有效性。
自我纠错的奖励函数设计
这种奖励塑造(Reward Shaping)策略为智能体提供了密集的、步进式的反馈,引导其逐步学会如何准确评估信息价值,从而使 JUDGE 动作真正有效。
FictionalHot 基准的构建
为了公正且严格地评估智能体的真实推理能力,团队构建了 FictionalHot 数据集。其核心目标是创建一个封闭世界(closed-world)的评测环境,以消除预训练模型因「记忆」了训练数据而带来的评估偏差(即「数据污染」问题)。
构建流程如下:
采样与改写:从现有的问答数据集中采样种子问题,并利用大模型对问题进行改写,将其中所有真实世界的实体(人名、地名、事件等)替换为虚构实体,同时保持原问题复杂的推理结构不变。生成虚构知识:为每一个虚构实体生成对应的、维基百科风格的说明文档。这些文档是解决新问题的唯一事实来源。构建封闭知识库:将这些生成的虚构文档注入到一个标准的维基百科语料库中,形成一个封闭且受控的知识环境。
通过这种设计,FictionalHot 迫使智能体必须依赖其程序化的搜索、整合与推理能力来解决问题,而不是依赖其参数中存储的先验知识。这样能够更干净、更准确地评估 ReSeek 框架在提升智能体核心能力方面的真实效果。
多数研究实验设置不一致
当前,对 Search Agent 的评估面临着实验设置的不一致的挑战。现有研究在多个关键方面存在差异:
知识库 (Corpus):使用的知识源各不相同,从静态的维基百科快照(如 2018、2019 年版)到无法复现的实时互联网,差异巨大。测试集 (Test Sets):有的研究使用涵盖多种任务的广泛测试集(如 NQ, TriviaQA 等,集合 A),有的则专注于需要复杂推理的多跳问答任务(如 HotpotQA, Musique 等,集合 B)。训练方式 (Training Regimes):模型的训练策略也五花八门,从完全不训练,到在单个或多个不同数据集上进行训练。评估指标 (Metrics):评估标准同样不统一,涵盖了从精确匹配(Exact Match)和 F1 分数,到使用大模型作为评判者(LLM-as-a-judge, LJ)等多种方式。
为了确保公平的比较,Reseek 采用了最普遍的训练方法,在 NQ 和 TriviaQA 的训练集上进行训练,并采用精确匹配(Exact Match, EM)作为主要评估指标。该模型在 7 个主流的公开问答数据集上进行了测试,涵盖了从简单事实查询到复杂多跳推理(如 HotpotQA)的各种任务。
此外,Reseek 还在自建的 FictionalHot 数据集上进行了测试。该数据集通过虚构内容,彻底杜绝了 “数据污染” 问题,能够更公平地评估模型的真实推理能力。
主要结果
实验结果表明,ReSeek 在 3B 和 7B 参数规模上均达到了业界领先的平均性能。该模型在 HotpotQA 和 Bamboogle 等需要复杂多跳推理的基准上优势尤为突出,这证明了其自我纠错范式在处理复杂问题上的高效性。
在 FictionalHot 基准上的测试揭示了一个关键现象:模型规模(7B vs. 3B)对性能的影响显著减小。这表明FictionalHot 成功地消除了模型因规模增大而产生的记忆优势,从而能够更准确地衡量其程序化推理能力,凸显了该基准的评估价值。
交互轮次越多,模型效果越好?
为了分离行动预算(action budget)的影响并检验模型的迭代式自我纠错能力,团队对最大交互轮数(turns)进行了消融实验。此处的「交互轮数」定义为模型为单个查询可执行的最大动作次数。该设置旨在验证额外的动作步骤能否帮助模型复核证据、修正假设,或者其性能是否在一次「搜索 - 回答」的最小循环后即已饱和。
如下图,基线模型(baselines)的性能从一轮增至两轮时有显著提升,但在三轮和四轮时几乎停滞,这与其典型的两步工作流(搜索后回答)相符。
相比之下,ReSeek 的性能从一轮到四轮单调递增,展现了更强的自我纠错能力:当交互轮数更充裕时,它会在不确定时重新查询证据、优化规划并修正答案。平均性能也印证了这一趋势,ReSeek 取得了最高的平均分,证明该方法能将新万博体育:的交互预算转化为真实的性能增益,而非冗余操作。
JUDGE 机制到底有没有用?
为了更深入地理解判断器(Judge)机制在具体案例中的作用,而不仅仅是看最终的宏观分数,团队对其行为进行了细致的逐例分析。根据判断器干预所产生的实际效果,将其分为三类(见下图):
积极影响 (蓝色):这类情况代表判断器的干预带来了明确的好处。例如:(1) 当模型状态能够导向正确答案时,判断器正确地给出了「是」的信号;(2) 当检索到的信息不包含答案时,判断器正确地给出「否」的信号,成功阻止了模型被错误信息干扰。负面影响 (红色): 这类情况代表了判断器的干预起到了反作用。具体来说,就是判断器发出了「是」的信号(认为当前信息足以回答问题),但模型最终还是给出了错误答案。中性影响 (绿色): 其余所有情况归为此类,表示判断器的作用不明确或为中性。
分析结果非常清晰:在全部的测试上,「积极影响」 的比例都非常高,稳定在 40-50% 之间。相比之下,「负面影响」的比例最低,通常不到 25%。正面与负面影响之间的这种显著差距,充分证明了该设计的有效性。这一质性证据表明,判断器是整个框架中一个可靠且高效的关键组件。
展望
ReSeek 框架的核心价值在于为复杂的业务场景提供高可靠性的决策支持。在需要实时数据或热点理解等领域,简单的「检索 - 生成」已无法满足需求。这些任务不仅要求信息实时,更要求推理过程的严谨无误。ReSeek 的自我纠错机制,正是为了解决这一痛点,通过赋予 Agent「反思」和「修正」的能力,显著降低因单点错误导致全盘失败的风险,提升复杂任务的成功率。
当然,通往通用智能 Agent 的道路充满挑战。当前的训练数据还不充分,距离实际落地还有一定距离,还面临一些有待解决问题和算法挑战, 相信在未来,Search Agent 能够作为一种基本的 Agent 范式,服务于每一位用户。
《大发体育注册送18》,《Q8X2R7L1T4J5M9B6W3》世界杯在线投注软件
“威尼斯5139手机版”
龙8long8手机登录
……
11月14日
“AOA登陆”潘展乐第四棒游进46秒
↓↓↓
11月14日,浙江小伙在荷兰开火锅连锁店:让“中国味”走向世界,M6app链接,卡塔尔世界杯购票网站,开户送体验金可提现,万赢体育
11月14日,“大美青海·侨贺新春”2024甲辰新年音乐会在青海西宁推出,凯发娱乐客户端登录注册,米乐网页版注册登陆失败,欧宝苹果APP下载,银河官网APP
11月14日,美国又现“血腥周末” 枪案频发造成近30人伤亡,聚星平台登陆,金沙官网娱乐平台,澳门威斯尼斯人官网,美高梅手机游戏网站
11月14日|2024年世界城市日中国主场活动在威海开幕|澳门有滚球吗|皇冠官方app客户端|188宝金博体育APP|世界杯指定投注平台
11月14日|浙江大学师生自发悼念校友李政道 追忆与其过往|伟德体育bv1946|ag永乐国际官网|贝博bb平台体育app下载|bet8九州体育
11月14日|上海“五一”假期叠加“五五购物节” 文旅市场迎客超1623万人次|杏彩网页版登录注册|世界杯官方直播网站|365bet体育专业娱乐网站|12bet在线试玩……
11月14日,HICOOL全球创业者峰会上的黑科技,篮球世界杯网站,天豪棋牌,AG在线注册,开元棋盘软件怎么用的
11月14日,探访澳大利亚悉尼唐人街,赌城回忆录,千赢国际官网登陆入口手机版,bet8酷游体育,正宗六合玄机料
11月14日|尺素金声丨食品安全零容忍!道德底线、法律红线不容突破|亚新平台网址|尊龙网站是多少|外围投注世界杯|米乐体育官网下载
11月14日,要素保障好,“两重”项目建设“加速跑”(干字当头,推动经济持续回升向好),博亚娱乐官网,m6米乐登录地址,必威官网下载苹果,优博登陆
11月14日,利马瞬间,菠菜平台大全,体育平台注册就送,登录rb88客户端,乐鱼体育网址
11月14日,四川省举行向邓小平同志铜像敬献花篮仪式,博狗登陆,网棋游戏,赚钱的游戏,如何在手机上买足球
11月14日|金融生鲜季丨“小仙草”为村民撑起“致富伞”|欧宝平台进不去了|maxbextx官方网站|万博手机版登录注册|万人牛牛怎么开庄
11月14日|韩媒:韩政府就岸田文雄向靖国神社献祭品深表遗憾|网络版斗地主|沙巴电竞|从哪买世界杯球|qq分分彩官方网站
11月14日|金观平:推进新型城镇化和乡村全面振兴有机结合|万博网页登录页面|手机电玩城平台|永利体育app|AG真人到底是真是假
勒沃库森44场不败创纪录,如何打造覆盖全球的“朋友圈”?|龙年春晚扎堆官宣,谁是你的菜?|美高梅体育官方app|天亚娱乐官网下载|网投真人游戏|fb体育是啥
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺