猫眼电影
猫眼电影记者 卡加梅 报道Q8X2R7L1T4J5M9B6W3
闻乐 发自 凹非寺量子位 | 公众号 QbitAI
Transformer的时代,正在被改写。
月之暗面最新发布的开源Kimi Linear架构,用一种全新的注意力机制,在相同训练条件下首次超越了全注意力模型
在长上下文任务中,它不仅减少了75%的KV缓存需求,还实现了高达6倍的推理加速。
有网友表示期待:这个架构下的Kimi K2.5何时来??
不过,咱还是先来看一下Kimi Linear是如何挑战传统Transformer的。
让注意力真正线性化
Transformer确实聪明,但聪明得有点太烧钱。
它的注意力机制是全连接的,每个token都要和其他所有token打交道。
计算量也随着输入长度呈平方增长(O(N?)),而且每生成一个新词,还要查一遍之前的所有缓存。
这就导致推理阶段的KV Cache占显存极大,尤其是在128K以上的上下文中,显卡直接崩溃警告。
模型越强,显卡越崩,钱包越痛。
所以,过去几年无数团队都在研究线性注意力,希望把计算从 O(N?) 降到 O(N),让模型能又快又省。
但问题是,以前的线性注意力都记不住东西,快是快了,but智商打折。
现在,Kimi Linear以既要又要还要的姿态登场了。
Kimi Linear的核心创新是Kimi Delta Attention(KDA)
它在原有线性注意力的基础上,引入了细粒度遗忘门控,不再像传统线性注意力那样一刀切地遗忘,而是让模型可以在每个通道维度上独立地控制记忆保留,把重要信息留下,把冗余信息扔掉。
更关键的是,KDA的状态更新机制是基于一种改进的Delta Rule(增量学习规则)。
它在数学上保证了稳定性,即使是在百万级token序列中,梯度也不会爆炸或消失。
这也让Kimi Linear能在超长上下文中跑得稳。
整个模型采用3:1的混合层设计,每3层线性注意力(KDA)后加1层全注意力。这样既保留全局语义的建模能力,又能在多数层用线性计算节省资源。
团队还干脆把传统的RoPE(旋转位置编码)砍掉,让KDA自己通过时间衰减核函数学习序列位置信息。
结果,没有RoPE,模型反而更稳、更泛化。
在KDA的状态更新过程中,Kimi Linear用了一种叫Diagonal-Plus-Low-Rank(DPLR)的结构。
核心思路是把注意力矩阵拆成「对角块+低秩补丁」,这样GPU在并行计算时能一次性处理新万博体育:内容,吞吐率直接翻倍。
此外,团队还引入了分块并行计算和kernel fusion优化(内核融合),极大地减少了显存I/O开销。
在工程部署上,它还能无缝对接vLLM推理框架,不需要改模型结构,也不需要改缓存管理,直接替换即可。
这意味着,任何基于Transformer的系统在理论上都能一键升级为Kimi Linear。
实验结果显示,在相同训练规模下,比如1.4T tokens,Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多个基准测试上全面超越Transformer。
长上下文推理中,解码速度提升最高达6倍,KV缓存减少75%。
不仅没丢精度,还在数学推理、代码生成等任务上更稳定、更高分。
One More Thing
不得不说,Transformer的地位正在被重新审视。
Mamba的作者曾用长文论述Transformer并非最终解法,状态空间模型(SSM)在长序列建模和高效计算上展现出强大的替代潜力,这也让人们重新思考注意力是否真的是唯一答案。
之前谷歌推出的MoR架构,探索用递归结构取代部分注意力,通过动态计算深度来减少冗余推理,进一步提升效率。
苹果公司也在多项研究中倾向采用Mamba,而非传统Transformer,理由很现实——SSM架构更节能、延迟更低、适合在终端设备上部署。
现在,Kimi Linear则从另一条路线突围,在线性注意力方向上取得突破。
或许这也预示着,AI架构正在告别对传统Transformer的路径依赖,迈向多元创新时代。
但值得一提的是,刚刚坐上开源模型王座的MiniMax M2,却重新用回了全注意力机制。
技术报告:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
— 完 —
??时事1:bpb体育
??11月01日,企业出题高校答 为新能源产业提供人才“源动力”,
当年,意外得到狻猊遗体,全村人将一整头都给吃掉了。那时村人的体质就得到了极大的改善,不然何以一群孩子都能修习骨文了?
,真人网投。??11月01日,2023年香港零售业销货价值同比升16.2%,
“都行动起来,做好最坏的打算。”一位族老开口。
,AOA登陆,AG真人是哪里开出来的,真钱斗牛手机版。??时事2:AG真人官方平台
??11月01日,“读懂中国”国际会议奥运冠军与专家学者为全运会“打CALL”,
4、学生会在活动特色方面做的还不够完善,缺乏创新,活动形式单一,不能吸引广大同学参加,所以我希望下一届的学生会干部们能努力创新,在继承传统的基础上更好的服务于同学
,斗球app安卓官方下载,od体育官网登录网址,亚星游戏登录。??11月01日,百余件亚美尼亚文化珍品亮相广东省博物馆,
“我没有杀那些人,也不打算逐一将你们斩首。”小不点平静的说道。
,澳门在线游戏场,天博综合手机客户端下载,电游网。??时事3:欧博赌场网站
??11月01日,通讯:中国漫瀚调亮相巴黎记,
“柳神说,进入下一个境界时底子越厚越好,精气神越充足成就越大,我现在也算是提前准备了。”小不点咕咚咕咚不断的吞咽五色鸟蛋内的汁液,晶莹光泽流转,浑然忘记了凶险,实在是过于投入了。
,体育现金平台有哪些,万博手机网页版登录,yabo平台首页。??11月01日,第二届两岸青少年“创未来”科普夏令营福州开营,
“二猛,加把劲,它没有攻击你,说明对你还是比较亲善的,别摔下来丢人,坚持住。”石林虎喊道。
,星光娱乐官网app下载,当日特码玄机报,百丽宫网址谁有讨论。??时事4:体育在线娱乐
??11月01日,成都一餐馆捞取垃圾桶内废弃油脂?官方通报,
保护环境我们在行动国旗下讲话 篇2
,让一球什么意思,刺激战场国际服哪个区真人多,金宝搏188手机app下载。??11月01日,北京大中小学校2025年普遍开展人工智能场景应用,
“在浓烟中逃生的时候,是应该低姿弯腰,还是匍匐前进?” “浓烟情况下,怎样正确利用手中金贵半瓶水?”“车中遇突发意外但找不到安全锤,可就近用何物品砸开车窗?”“油锅起火,用什么办法救火最好?”培训人员用一系列与日常贴近的安全常识问题抛砖引玉,引起教工们热烈的讨论与互动。在此基础上,又重点从躲避火灾烟雾、燃气消防、电器消防三个方面详细讲解了防火减灾的原理和方法,并对常用消防器材、用具的使用进行介绍和演示。贯穿前后,培训人员都在让教工们明白一个重要观点:火灾通常情况下不是天灾,而是一些行为错误引发的灾害,许多惨重灾难的发生也不是人力不可抗拒的,而是许多不安全因素凑到一起造成的。因此,要想防火减灾,增强日常安全意识,懂得安全知识刻不容缓,消防潜意识应该成为每个人必备的基本素质。
,乐博现金,凯发娱乐手机网站登录,澳门十大电子正规游戏。责编:李猛
审核:童曙泉
责编:王元哲












