闻乐 发自 凹非寺量子位 | 公众号 QbitAI
Transformer的时代,正在被改写。
月之暗面最新发布的开源Kimi Linear架构,用一种全新的注意力机制,在相同训练条件下首次超越了全注意力模型
在长上下文任务中,它不仅减少了75%的KV缓存需求,还实现了高达6倍的推理加速。
有网友表示期待:这个架构下的Kimi K2.5何时来??
不过,咱还是先来看一下Kimi Linear是如何挑战传统Transformer的。
让注意力真正线性化
Transformer确实聪明,但聪明得有点太烧钱。
它的注意力机制是全连接的,每个token都要和其他所有token打交道。
计算量也随着输入长度呈平方增长(O(N?)),而且每生成一个新词,还要查一遍之前的所有缓存。
这就导致推理阶段的KV Cache占显存极大,尤其是在128K以上的上下文中,显卡直接崩溃警告。
模型越强,显卡越崩,钱包越痛。
所以,过去几年无数团队都在研究线性注意力,希望把计算从 O(N?) 降到 O(N),让模型能又快又省。
但问题是,以前的线性注意力都记不住东西,快是快了,but智商打折。
现在,Kimi Linear以既要又要还要的姿态登场了。
Kimi Linear的核心创新是Kimi Delta Attention(KDA)
它在原有线性注意力的基础上,引入了细粒度遗忘门控,不再像传统线性注意力那样一刀切地遗忘,而是让模型可以在每个通道维度上独立地控制记忆保留,把重要信息留下,把冗余信息扔掉。
更关键的是,KDA的状态更新机制是基于一种改进的Delta Rule(增量学习规则)。
它在数学上保证了稳定性,即使是在百万级token序列中,梯度也不会爆炸或消失。
这也让Kimi Linear能在超长上下文中跑得稳。
整个模型采用3:1的混合层设计,每3层线性注意力(KDA)后加1层全注意力。这样既保留全局语义的建模能力,又能在多数层用线性计算节省资源。
团队还干脆把传统的RoPE(旋转位置编码)砍掉,让KDA自己通过时间衰减核函数学习序列位置信息。
结果,没有RoPE,模型反而更稳、更泛化。
在KDA的状态更新过程中,Kimi Linear用了一种叫Diagonal-Plus-Low-Rank(DPLR)的结构。
核心思路是把注意力矩阵拆成「对角块+低秩补丁」,这样GPU在并行计算时能一次性处理新万博体育:内容,吞吐率直接翻倍。
此外,团队还引入了分块并行计算和kernel fusion优化(内核融合),极大地减少了显存I/O开销。
在工程部署上,它还能无缝对接vLLM推理框架,不需要改模型结构,也不需要改缓存管理,直接替换即可。
这意味着,任何基于Transformer的系统在理论上都能一键升级为Kimi Linear。
实验结果显示,在相同训练规模下,比如1.4T tokens,Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多个基准测试上全面超越Transformer。
长上下文推理中,解码速度提升最高达6倍,KV缓存减少75%。
不仅没丢精度,还在数学推理、代码生成等任务上更稳定、更高分。
One More Thing
不得不说,Transformer的地位正在被重新审视。
Mamba的作者曾用长文论述Transformer并非最终解法,状态空间模型(SSM)在长序列建模和高效计算上展现出强大的替代潜力,这也让人们重新思考注意力是否真的是唯一答案。
之前谷歌推出的MoR架构,探索用递归结构取代部分注意力,通过动态计算深度来减少冗余推理,进一步提升效率。
苹果公司也在多项研究中倾向采用Mamba,而非传统Transformer,理由很现实——SSM架构更节能、延迟更低、适合在终端设备上部署。
现在,Kimi Linear则从另一条路线突围,在线性注意力方向上取得突破。
或许这也预示着,AI架构正在告别对传统Transformer的路径依赖,迈向多元创新时代。
但值得一提的是,刚刚坐上开源模型王座的MiniMax M2,却重新用回了全注意力机制。
技术报告:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
— 完 —
《澳门新萄京》,《Q8X2R7L1T4J5M9B6W3》完美国际玉藻真人没任务
“立博中文版官网”
斗地主加倍是什么意思
……
10月25日
“买球在哪买app”孙杨国内赛400自取得17连胜
↓↓↓
10月25日,庆祝中法建交60周年大型文艺晚会在巴黎举办,多宝官网,牛宝体育官网注册,皇冠体育比分官网,BCE体育平台
10月25日,罗来昌代表——持续提升乡村治理水平,微信上能世界杯投注吗,现金电子注册平台,hth华体会体育APP,冠亚体育网站
10月25日,最高法:“第二十条”已被唤醒,还要持续落到实处,淘宝网世界杯投注,仙机点特(新图),天天发娱乐app,艾弗森贝博ballbet体育
10月25日|斯诺克世界公开赛回归中国 6名中国选手率先晋级正赛|ca88亚汌城|世界杯手机上如何买球|js333国际线路检测|万象城体育app
10月25日|深刻认识加强党的纪律建设的重要性|大富豪俱乐部|体育彩票投注站申请|云顶集团平台网址|im体育注册彩金
10月25日|中国驻美大使谢锋:我们必须同舟共济,绝不能同舟共“挤”|管家婆新传密|火狐体育下载苹果版|日博开户首页|cq9跳高高游戏网站……
10月25日,香港启德体育园首次试运营 预计明年一季度整体投用,亚新体育开户,龙8国际网站是多少,娱乐网址注册平台大全,博天堂在线试玩
10月25日,吉林生物教师自费建“百草园” 引中外人士感受生态之美,AG捕鱼是个坑,bb平台体育,九游会j9官网AG,365bet中文网站
10月25日|通讯:中国漫瀚调亮相巴黎记|2026世界杯淘宝投注|开云最新版APP|名豪平台app|正规的21游戏下载
10月25日,青海西宁:文旅深度融合 增强城市“芯”动力,博狗扑克网址,亚星官方,2026世界杯买球入口,正规365体育投注网站
10月25日,西安市鄠邑区太平国有生态林场首次发现金钱豹,亚洲城登入,mg注册送10,九游会AG登录入口,银河国际注册网站
10月25日,9个项目入选“2023年度川渝地区重要考古发现”,真人国际赌场895959.com,凯时国际手机下载,皇冠在线登录,在哪里下载博彩app
10月25日|广西开展健康主题宣传服务活动 促优质医疗资源“沉下去”|手机版金沙下载|世界杯竞猜 微信投注|球探体育手机比分直播|环球网址
10月25日|重庆发布今年首个“高温中暑预警” 市民水中觅“清凉”|Bob综合体育官方app下载|威尼斯人官网网页登录|九州体育bet9平台入口|365速发在线注册
10月25日|把生态优势变成发展优势|世界杯投注起什么名字|九州app下载|四人真人斗地主|亚星登录网址
她和她的她,王大雷:踢印尼巴林像保级大战|【社评】调研“经典路线”实则是走歪了“群众路线”|网上正规赌场有哪些|万博manbetx官网网页登录|edf138网址|欧宝平台官网
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺