闻乐 发自 凹非寺量子位 | 公众号 QbitAI
Transformer的时代,正在被改写。
月之暗面最新发布的开源Kimi Linear架构,用一种全新的注意力机制,在相同训练条件下首次超越了全注意力模型
在长上下文任务中,它不仅减少了75%的KV缓存需求,还实现了高达6倍的推理加速。
有网友表示期待:这个架构下的Kimi K2.5何时来??
不过,咱还是先来看一下Kimi Linear是如何挑战传统Transformer的。
让注意力真正线性化
Transformer确实聪明,但聪明得有点太烧钱。
它的注意力机制是全连接的,每个token都要和其他所有token打交道。
计算量也随着输入长度呈平方增长(O(N?)),而且每生成一个新词,还要查一遍之前的所有缓存。
这就导致推理阶段的KV Cache占显存极大,尤其是在128K以上的上下文中,显卡直接崩溃警告。
模型越强,显卡越崩,钱包越痛。
所以,过去几年无数团队都在研究线性注意力,希望把计算从 O(N?) 降到 O(N),让模型能又快又省。
但问题是,以前的线性注意力都记不住东西,快是快了,but智商打折。
现在,Kimi Linear以既要又要还要的姿态登场了。
Kimi Linear的核心创新是Kimi Delta Attention(KDA)
它在原有线性注意力的基础上,引入了细粒度遗忘门控,不再像传统线性注意力那样一刀切地遗忘,而是让模型可以在每个通道维度上独立地控制记忆保留,把重要信息留下,把冗余信息扔掉。
更关键的是,KDA的状态更新机制是基于一种改进的Delta Rule(增量学习规则)。
它在数学上保证了稳定性,即使是在百万级token序列中,梯度也不会爆炸或消失。
这也让Kimi Linear能在超长上下文中跑得稳。
整个模型采用3:1的混合层设计,每3层线性注意力(KDA)后加1层全注意力。这样既保留全局语义的建模能力,又能在多数层用线性计算节省资源。
团队还干脆把传统的RoPE(旋转位置编码)砍掉,让KDA自己通过时间衰减核函数学习序列位置信息。
结果,没有RoPE,模型反而更稳、更泛化。
在KDA的状态更新过程中,Kimi Linear用了一种叫Diagonal-Plus-Low-Rank(DPLR)的结构。
核心思路是把注意力矩阵拆成「对角块+低秩补丁」,这样GPU在并行计算时能一次性处理新万博体育:内容,吞吐率直接翻倍。
此外,团队还引入了分块并行计算和kernel fusion优化(内核融合),极大地减少了显存I/O开销。
在工程部署上,它还能无缝对接vLLM推理框架,不需要改模型结构,也不需要改缓存管理,直接替换即可。
这意味着,任何基于Transformer的系统在理论上都能一键升级为Kimi Linear。
实验结果显示,在相同训练规模下,比如1.4T tokens,Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多个基准测试上全面超越Transformer。
长上下文推理中,解码速度提升最高达6倍,KV缓存减少75%。
不仅没丢精度,还在数学推理、代码生成等任务上更稳定、更高分。
One More Thing
不得不说,Transformer的地位正在被重新审视。
Mamba的作者曾用长文论述Transformer并非最终解法,状态空间模型(SSM)在长序列建模和高效计算上展现出强大的替代潜力,这也让人们重新思考注意力是否真的是唯一答案。
之前谷歌推出的MoR架构,探索用递归结构取代部分注意力,通过动态计算深度来减少冗余推理,进一步提升效率。
苹果公司也在多项研究中倾向采用Mamba,而非传统Transformer,理由很现实——SSM架构更节能、延迟更低、适合在终端设备上部署。
现在,Kimi Linear则从另一条路线突围,在线性注意力方向上取得突破。
或许这也预示着,AI架构正在告别对传统Transformer的路径依赖,迈向多元创新时代。
但值得一提的是,刚刚坐上开源模型王座的MiniMax M2,却重新用回了全注意力机制。
技术报告:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
— 完 —
《人人夜色精品国产噜噜噜》,《Q8X2R7L1T4J5M9B6W3》国产放荡对白视频网络
“男人窝男人亚洲一区二区三区”
69人妻精品久久无码专区
……
10月29日
“舌头伸进去 的我好爽APP男男”央视网评全面禁止老头乐
↓↓↓
10月29日,中央气象台继续发布暴雨黄色预警,weee色com,乱理伦片在线观看视频,国产黄视在线观看免费,免费的黄页播放器在线观看
10月29日,安徽黄山:烟雨徽州旅游热,和巨乳继拇做爰4,先锋影音综合资源网站网址,一区二区国产盗,亚洲第一福利网站
10月29日,纪念联合国国际科学与和平周三十六周年 成果文献展在京开幕,男生坤坤怼女生坤坤,久久六黄色视频,色色色色色色色色色色色色色综合,九9999玖热免费视频
10月29日|颐和园冰场将于2月4日17时关停|福利视频欧美|人人干夜夜艹|jlzzjlzz欧美大全|亚洲精品综合欧美二区变态
10月29日|航空公司“规定如此”就对吗|华人91国内在线视频|亚洲无码视频日韩无码|免费看日本AAAAAAA片|偷窥美女洗澡
10月29日|近看外交 | “金砖+” 创造“全球南方”美好未来|国内偷拍小视频|中文字幕第一页自拍偷拍|国产一级黄色视频无码|欧美操逼在线观看……
10月29日,国足亚洲杯首战没输已是万幸,调整之后还有戏,欧洲精品福利,卡夫卡vore,r34friskchara-chara18,狠狠撸格
10月29日,协定存款频迎调整 银行揽储收紧,99夜色精品国产网站,女帝被扒开腿爆 乳液,国产1级片免费观看网站,哈尔滨熟女真实老熟女无套
10月29日|中国玉雕之乡:不产玉的小镇变身“天下玉源”|欧美性受XXXX白人猛交|国产做受❌❌❌14|coM偷拍|馃崋馃崋馃崋91
10月29日,外国驻蓉领事机构官员看四川“两会”:见证四川发展 把握合作机遇,久久免费特黄视频,蕾丝app,免费看毛片的网站,一级黄片 ftp
10月29日,美考虑进一步限制中国获取AI芯片技术 中方:暴露“说一套做一套”的虚伪嘴脸,日韩欧美亚洲综合一区二区三区,免费免费黄色网址,小草在线一区二区,导管导射视频教学
10月29日,推进数实融合 提供澎湃动力,元神被捅到流口水,馃崒馃憛,涩涩APP,又粗又硬又爽又黄的免费视频
10月29日|“五一”假期广铁共发送旅客1245.8万人次|台湾一级黄片|欧美一级黃视频在线观看|xxxx欧美xxxx性爱|在线A片美女视频自拍网
10月29日|政策加力带动增长加速 一揽子增量政策助力实现全年目标|国产精品嫩草影院永久…|天天在线看黄片|亚洲永久精品一区二区在线观看|免费看黄入口
10月29日|杭州警方通报“四季青火情”:犯罪嫌疑人经抢救无效死亡|欧美图色插逼|米奇影视盒第四88888|久cao视频在线|国产av自拍啪啪
央视仍不转播国足的比赛,何冰娇晋级女单决赛|应对直播乱象,“线上+线下”共同治理不可少|成在线人免费视频一区二区三区|黄色网站一级大片|飞霄图片全身踝|国产欧美日韩专区
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺