猫眼电影
猫眼电影记者 方丽槐 报道Q8X2R7L1T4J5M9B6W3
闻乐 发自 凹非寺量子位 | 公众号 QbitAI
Transformer的时代,正在被改写。
月之暗面最新发布的开源Kimi Linear架构,用一种全新的注意力机制,在相同训练条件下首次超越了全注意力模型
在长上下文任务中,它不仅减少了75%的KV缓存需求,还实现了高达6倍的推理加速。
有网友表示期待:这个架构下的Kimi K2.5何时来??
不过,咱还是先来看一下Kimi Linear是如何挑战传统Transformer的。
让注意力真正线性化
Transformer确实聪明,但聪明得有点太烧钱。
它的注意力机制是全连接的,每个token都要和其他所有token打交道。
计算量也随着输入长度呈平方增长(O(N?)),而且每生成一个新词,还要查一遍之前的所有缓存。
这就导致推理阶段的KV Cache占显存极大,尤其是在128K以上的上下文中,显卡直接崩溃警告。
模型越强,显卡越崩,钱包越痛。
所以,过去几年无数团队都在研究线性注意力,希望把计算从 O(N?) 降到 O(N),让模型能又快又省。
但问题是,以前的线性注意力都记不住东西,快是快了,but智商打折。
现在,Kimi Linear以既要又要还要的姿态登场了。
Kimi Linear的核心创新是Kimi Delta Attention(KDA)
它在原有线性注意力的基础上,引入了细粒度遗忘门控,不再像传统线性注意力那样一刀切地遗忘,而是让模型可以在每个通道维度上独立地控制记忆保留,把重要信息留下,把冗余信息扔掉。
更关键的是,KDA的状态更新机制是基于一种改进的Delta Rule(增量学习规则)。
它在数学上保证了稳定性,即使是在百万级token序列中,梯度也不会爆炸或消失。
这也让Kimi Linear能在超长上下文中跑得稳。
整个模型采用3:1的混合层设计,每3层线性注意力(KDA)后加1层全注意力。这样既保留全局语义的建模能力,又能在多数层用线性计算节省资源。
团队还干脆把传统的RoPE(旋转位置编码)砍掉,让KDA自己通过时间衰减核函数学习序列位置信息。
结果,没有RoPE,模型反而更稳、更泛化。
在KDA的状态更新过程中,Kimi Linear用了一种叫Diagonal-Plus-Low-Rank(DPLR)的结构。
核心思路是把注意力矩阵拆成「对角块+低秩补丁」,这样GPU在并行计算时能一次性处理新万博体育:内容,吞吐率直接翻倍。
此外,团队还引入了分块并行计算和kernel fusion优化(内核融合),极大地减少了显存I/O开销。
在工程部署上,它还能无缝对接vLLM推理框架,不需要改模型结构,也不需要改缓存管理,直接替换即可。
这意味着,任何基于Transformer的系统在理论上都能一键升级为Kimi Linear。
实验结果显示,在相同训练规模下,比如1.4T tokens,Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多个基准测试上全面超越Transformer。
长上下文推理中,解码速度提升最高达6倍,KV缓存减少75%。
不仅没丢精度,还在数学推理、代码生成等任务上更稳定、更高分。
One More Thing
不得不说,Transformer的地位正在被重新审视。
Mamba的作者曾用长文论述Transformer并非最终解法,状态空间模型(SSM)在长序列建模和高效计算上展现出强大的替代潜力,这也让人们重新思考注意力是否真的是唯一答案。
之前谷歌推出的MoR架构,探索用递归结构取代部分注意力,通过动态计算深度来减少冗余推理,进一步提升效率。
苹果公司也在多项研究中倾向采用Mamba,而非传统Transformer,理由很现实——SSM架构更节能、延迟更低、适合在终端设备上部署。
现在,Kimi Linear则从另一条路线突围,在线性注意力方向上取得突破。
或许这也预示着,AI架构正在告别对传统Transformer的路径依赖,迈向多元创新时代。
但值得一提的是,刚刚坐上开源模型王座的MiniMax M2,却重新用回了全注意力机制。
技术报告:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
— 完 —
??时事1:鸭脖网站多少
??10月28日,“日落以后”主题时尚大秀在深圳上演,
绣有金色狼头的大帐中,走出一个高大的老人,眸子开阖间,金光一缕缕,慑人心魄,他一把抓起了断臂中年人,掌心出现一枚金色的符文,霞光飞射,没入其体内。
,im体育平台网址。??10月28日,中国创新创业大赛颠覆性技术创新大赛在大连开赛 展示未来材料领域发展潜能,
本届初三同学是我校的初中毕业生。我来分校将近三年,已送走两届初中毕业班。与前两届相比,我感觉本届同学无论是在学习文化课,还是在遵守学校各项规章制度以及在个人的言行举止等综合素质方面都表现得更好。从入初一以来,一直是学校最满意的年级组。我想这既与我们的家庭和学校的教育有关,更是同学们自己努力、追求上进的结果。在去年的期中、期末和今年的一摸、二摸连续四次的区统考中,同学们的成绩在不同方面都有所提升。我有理由相信,我们今年的中考一定会在前两年基础上有新的突破。我更有理由相信,你们中的每一位同学一定都会有着美好的未来。
,日博体育官方中文版,yabo22vip网站是多少,球盟会国际官网。??时事2:AG真人是哪里开出来的
??10月28日,广西壮族自治区钦州市政协副主席林庆山接受审查调查,
这片废墟广袤无垠,带状黑雾缭绕,整片天地都一片昏暗,看不清太远处的景物。地上,瓦砾成片,断壁残垣更是众多,这是一片上古遗迹。
?第一百四十九章 金翅鹏鸟,单机斗地主六月版破解版,宝博体育官网链接,6up是啥意思。??10月28日,关注巴以局势:以军行动持续 加沙地带多地发生激烈战斗,
“这种凶禽最记仇,你们将它的卵盗走,它怎会善罢甘休,以后想出村子打猎都难了。”石飞蛟发愁。
,鸿福国际,新萄京娱乐手机版,ca88游戏官网。??时事3:华体会hth登录
??10月28日,斗鱼2024“护苗·鱼阅计划”公益活动启动,
这若是传出去,一定会引发大轰动,惊掉一地下巴。破入这个境界已经很难了,很少听说有人连破境界,在这一瞬间连开两个洞天极其罕见,非天纵之姿不可为,被外界知晓的话,会吓到人瞠目结舌。
?第八章 青鳞鹰,英亚体育国际首页,威尼斯人安卓版下载,皇冠游戏官网入口。??10月28日,日本杂志附赠“满是大熊猫”笔记本获好评,
希望在教科室指导下,全乡毕业班教师,形成共识,团结协作,积极发挥团队的智慧,加强研究,积极探讨积极有效地工作方法,坚定信心,克服困难,以更加饱满的热情投入教育教学工作中,狠抓教学规范,强化管理,加强对毕业生“双基”、能力、情感、习惯等方面的训练与培养,最大限度的提高我乡小学毕业班教育教学质量。
,新濠天地在哪注册,威尼斯软件,篮球世界杯买球怎么买。??时事4:opebet体育电竞官网
??10月28日,青海省首笔最新标准汽车报废更新补贴发放到位,
一缕缕霞光自石毅的双眼淌出,景象诡异,慢慢将他自身包裹,宛若形成一个茧,滋润其身,噼啪作响,断骨竟归位了。
,bbin官网手机版下载,微信世界杯下注平台,bv伟德体育官网登录。??10月28日,庆祝中法建交60周年暨中法文化旅游年开幕音乐会举办,
仅过去一个月,三只小家伙就跟吹气球一般膨胀了起来,现在已经接近两米长了,而食量也极为惊人,一天比一天大。
,足球现金网,鸿博体育快速注册,BOB足球体育APP。责编:平措加布
审核:王馨
责编:李英三












