猫眼电影
猫眼电影记者 杨远林 报道P6F3X2M7T9QJ8L1B4WZR
RAG准确率提升10.6%,多项基准拿下新SOTA!
ACL 2025最新研究提出Lexical Diversity-aware RAG(DRAG)框架,首次系统性地将词汇多样性引入RAG的检索与生成过程,提供了一个轻量、通用且易扩展的解决方案。
在多项基准任务中,该方法带来了显著性能提升,尤其在HotpotQA上刷新了当前最优结果。
在大语言模型的浪潮下,Retrieval-Augmented Generation(RAG)已经成为提升模型事实性和时效性的重要手段。然而,现有方法普遍忽视了一个看似细微却极为关键的问题——词汇多样性(lexical diversity)。
同一个问题,不同的表达方式,往往让检索模型“晕头转向”,最终导致错误答案。
由此,来自北航、北大、中关村实验室的研究团队提出了这项最新工作,他们首次将“词汇多样性”引入检索增强生成的相关性评估过程,并通过新颖的风险稀疏校准机制解决了生成阶段被无关信息干扰的问题。
团队认为,该方法对信息检索、问答系统、专业领域大模型应用都具有重要价值。未来,他们计划进一步拓展该方法到新万博体育:专业场景,让大模型不仅能“读懂”,更能“理解”复杂的人类语言表达。
词汇多样性:RAG的隐形痛点
研究团队指出,现有RAG方法大多通过“单一标准”判断检索文档是否相关,但现实情况要复杂得多。如图所示,以问题“What is Hattie McDaniel’s occupation?”为例,其中的语义成分表现出不同程度“词汇多样性”:
不变词(Invariant):人名“Hattie McDaniel”一般不会变形;可变词(Variant):词语“occupation”可以对应“profession”“actress”甚至“Academy Award”;补充信息(Supplementary):答案可能依赖“American celebrity”等扩展语境。
这种词汇多样性往往导致模型错误地将部分相似但无关的文档判为相关,或者忽略了真正有用的信息。
两大关键创新
为解决“词汇多样性”带来的挑战,研究团队提出了该框架,核心在于两个互补模块:
1、Diversity-sensitive Relevance Analyzer(DRA)
传统检索相关性评估往往“一刀切”,把整体查询和检索文档进行比较。该方法则进一步拆解查询语义,针对不同成分采用差异化策略:
不变成分:如人名、地名等必须精确匹配的关键词,该方法强调其检索文档应与该成分严格匹配;可变成分:如“occupation”—“profession”,DRA借助LLM的语义扩展和分析能力,在检索时允许一定语义灵活性;补充成分:如“American celebrity”,该方法通过检索需求的明确程度来判断是否需要真正提供有用的补充证据。
在此基础上,该方法通过该模块对相似度检索结果进行重排序,输出一个更细粒度、多维度的相关性评分,避免检索时存在的“假阳性”和“假阴性”的常见问题。
2. Risk-guided Sparse Calibration
即使有了更精准的检索,生成阶段仍然可能“被干扰”。Risk-guided Sparse Calibration的设计灵感来自“风险控制”:它会实时监控每个生成token的“被误导风险”,并在必要时进行解码校准。
词汇风险(Lexical Risk):检测生成内容是否过度依赖低相关的词汇;注意力风险(Attention Risk):评估模型注意力是否集中在无关段落;预测风险(Prediction Risk):衡量当前预测是否与检索证据存在冲突。
RSC的独特之处在于它的稀疏性(sparse calibration):只对高风险token动态干预,而不会对全局输出强行重写,从而保证了生成质量与效率的平衡。
最终,DRA负责“挑选更靠谱的材料”,RSC负责“防止模型走偏”,形成了检索与生成环节的双保险,让RAG更稳健、更准确。
实验结果:显著超越现有方法
团队在多个开放域问答基准上验证了该方法:
其中,该方法在PopQA/TriviaQA(短文本问答):准确率分别提升4.9%和4.4%;HotpotQA/2WikiMultiHopQA(多跳问答):准确率均提升10.6%,展现出强泛化性;在ASQA(长答案生成):在str-em、QA-F1等指标上刷新SOTA。
不仅如此,该方法在不同类型、大小的模型上均表现出显著增益,如Llama2-7B, Llama2-13B, Qwen2-7B, Alpaca-7B和Mistral-7B等。
论文链接:
https://aclanthology.org/2025.acl-long.1346/代码(即将开源):
https://github.com/Zhange21/DRAG
??时事1:XXXX💋❤👙👙2411动漫
??09月24日,天津首个“封神”主题园区哪吒设计小镇预计5月开放,
“哈哈……”一群大人都大笑了起来。
,唐舞桐被❌吸乳脱内内微博。??09月24日,宁夏彭阳:闽宁协作再升级 绘就乡村振兴新画卷,
“这……”狈村的人全都皱眉,狩猎队伍中的头领道:“我们在这里赔礼道歉,并将所有猎物都给你们如何?”
,杰克性器被园丁摸硬了,成版one安装包苹果,Free❌❌❌性AVcomic。??时事2:国产又爽❌又黄❌免费吞精
??09月24日,中新健康丨国家卫健委:全国发热门诊接诊量呈波动下降趋势,
石子陵如太古的神王般,沐浴光辉,一步向前,黄金矛锋指向前方,想将石笠与石毅一齐洞穿,钉死在地。
,甘雨疯狂揉❌难受,碧琪公主污,giantess18XXXXHDvideos。??09月24日,第十二届全国少数民族传统体育运动会结束 新疆运动员:收获满满,
⒈落实资金问题。公司每年都拿出部分资金用于科技项目开发和信息化建设,重点支持重视科技信息工作的单位和科技含量高的项目,也鼓励单位自筹资金进行科技攻关,公司将帮助组织成果鉴定和评奖,并在系统内予以推广。
,黑土被扒开腿做❌,黄金厕主奴丨VK,男男㊙️Gay自慰。??时事3:韩国美女奶头㊙️麻豆AV
??09月24日,黄埔“廖氏三兄弟”后人:父辈保家卫国 坚定信仰不做亡国奴,
20xx年,是我职业经理人生涯的第20个年头。从苹果、SGI到微软和谷歌,我踏踏实实地走过了20年职业经理人生涯。但过去半年来,我的心中总有一种急迫感,心中常有个声音告诉自己:是开始职业人生新篇章的时候了。经过反复思考,我决定在北京创立创新工场。
,福利午夜无码AAA片不卡夜色,18禁无遮挡▓挠脚禮,原神❌裸身。??09月24日,法院支持爱心人士监护,“野娃儿”开心了,
“妖月,一念花开,枯木再生,生命力强大,搬血境无人可超越。”
,🈲️18水蜜桃,主人 调教 憋尿 高潮 锁男男,❤禁漫Bl网站无删减动漫APP。??时事4:❌H漫画
??09月24日,江南名楼滕王阁北园即将开放 章江晓渡再现赣江之滨,
“好像没什么危险,但这只生灵有点古怪,紫云降低一点,近距离看一看。”小石昊说道。
,www.988.gov.cn,快手困困全程58秒的视频,女军妓女一级毛片视频下载软件。??09月24日,北京市千人口拥有中医师1.14人 居全国前列,
神霞喷薄,瑞光万道,一个老人如怒狮般闯进密室,见到眼前这一幕后,目眦欲裂,发出了惊天动地的咆哮:“贱人,好一个毒妇!”
,校花摸熊🐻自慰,少妇吴敏的群交,91偷拍老师更衣裸体㊙️。责编:丹·斯诺
审核:白志健
责编:李灵