猫眼电影
猫眼电影记者 赵友清 报道Q8X2R7L1T4J5M9B6W3
闻乐 发自 凹非寺量子位 | 公众号 QbitAI
Transformer的时代,正在被改写。
月之暗面最新发布的开源Kimi Linear架构,用一种全新的注意力机制,在相同训练条件下首次超越了全注意力模型
在长上下文任务中,它不仅减少了75%的KV缓存需求,还实现了高达6倍的推理加速。
有网友表示期待:这个架构下的Kimi K2.5何时来??
不过,咱还是先来看一下Kimi Linear是如何挑战传统Transformer的。
让注意力真正线性化
Transformer确实聪明,但聪明得有点太烧钱。
它的注意力机制是全连接的,每个token都要和其他所有token打交道。
计算量也随着输入长度呈平方增长(O(N?)),而且每生成一个新词,还要查一遍之前的所有缓存。
这就导致推理阶段的KV Cache占显存极大,尤其是在128K以上的上下文中,显卡直接崩溃警告。
模型越强,显卡越崩,钱包越痛。
所以,过去几年无数团队都在研究线性注意力,希望把计算从 O(N?) 降到 O(N),让模型能又快又省。
但问题是,以前的线性注意力都记不住东西,快是快了,but智商打折。
现在,Kimi Linear以既要又要还要的姿态登场了。
Kimi Linear的核心创新是Kimi Delta Attention(KDA)
它在原有线性注意力的基础上,引入了细粒度遗忘门控,不再像传统线性注意力那样一刀切地遗忘,而是让模型可以在每个通道维度上独立地控制记忆保留,把重要信息留下,把冗余信息扔掉。
更关键的是,KDA的状态更新机制是基于一种改进的Delta Rule(增量学习规则)。
它在数学上保证了稳定性,即使是在百万级token序列中,梯度也不会爆炸或消失。
这也让Kimi Linear能在超长上下文中跑得稳。
整个模型采用3:1的混合层设计,每3层线性注意力(KDA)后加1层全注意力。这样既保留全局语义的建模能力,又能在多数层用线性计算节省资源。
团队还干脆把传统的RoPE(旋转位置编码)砍掉,让KDA自己通过时间衰减核函数学习序列位置信息。
结果,没有RoPE,模型反而更稳、更泛化。
在KDA的状态更新过程中,Kimi Linear用了一种叫Diagonal-Plus-Low-Rank(DPLR)的结构。
核心思路是把注意力矩阵拆成「对角块+低秩补丁」,这样GPU在并行计算时能一次性处理新万博体育:内容,吞吐率直接翻倍。
此外,团队还引入了分块并行计算和kernel fusion优化(内核融合),极大地减少了显存I/O开销。
在工程部署上,它还能无缝对接vLLM推理框架,不需要改模型结构,也不需要改缓存管理,直接替换即可。
这意味着,任何基于Transformer的系统在理论上都能一键升级为Kimi Linear。
实验结果显示,在相同训练规模下,比如1.4T tokens,Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多个基准测试上全面超越Transformer。
长上下文推理中,解码速度提升最高达6倍,KV缓存减少75%。
不仅没丢精度,还在数学推理、代码生成等任务上更稳定、更高分。
One More Thing
不得不说,Transformer的地位正在被重新审视。
Mamba的作者曾用长文论述Transformer并非最终解法,状态空间模型(SSM)在长序列建模和高效计算上展现出强大的替代潜力,这也让人们重新思考注意力是否真的是唯一答案。
之前谷歌推出的MoR架构,探索用递归结构取代部分注意力,通过动态计算深度来减少冗余推理,进一步提升效率。
苹果公司也在多项研究中倾向采用Mamba,而非传统Transformer,理由很现实——SSM架构更节能、延迟更低、适合在终端设备上部署。
现在,Kimi Linear则从另一条路线突围,在线性注意力方向上取得突破。
或许这也预示着,AI架构正在告别对传统Transformer的路径依赖,迈向多元创新时代。
但值得一提的是,刚刚坐上开源模型王座的MiniMax M2,却重新用回了全注意力机制。
技术报告:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
— 完 —
??时事1:国产综合图片
??11月01日,中国人寿投资实体经济存量规模超4.4万亿元,
这一刻,小不点心中既紧张又激动,甚至还有点惶恐,近乡情怯,不知道石村而今怎样了。
,激情A片网站。??11月01日,英国选手获第四届“汉语桥”世界小学生中文秀全球总冠军,
今年新增科研项目808项,其中自然科学668项,经费近2亿元,获批国家自然科学基金174项,其中2项为重点;国家社会科学基金23项,位列全国高校第27位。新增授权专利178项,其中发明专利31项(含1项国际专利),实用新型专利147项。2位教授获首届“_省优秀中青年社会科学专家”称号,联合申报的2项成果获_年度国家科技进步二等奖。承担各级各类科研项目,特别是国家级重点、重大项目,是考察教师队伍创新能力的“试金石”,如何提升这种能力?这是我们下一步要认真思考的问题。
,欧美激情亚洲A∨综合,A 级大黄片,色呦呦国内视频。??时事2:黄色电影三级片a片
??11月01日,11月中国物流业景气指数为52.8% 需求回升总体向好,
此语一出,争吵声顿时变少了,很多人都不再说话,这是一个事实,小不点能否活下来都还两说呢。
,羞羞视频www,操逼视频网址大全,人与猪交配视频。??11月01日,一批00后舰载战斗机飞行学员成功完成单飞训练,
要加快城镇化进程,必须抓住关键,创优环境,消除影响发展的一些体制机制上的障碍。
,骚逼尻中文xxxxvideo,亚洲嫩草,亚洲国产精品秘 麻豆蝴蝶传媒。??时事3:国内偷拍2021
??11月01日,财政部 应急管理部紧急预拨3000万元资金 支持新疆做好地震灾害救灾工作,
“它野心不小啊,想让金骨复活,于自己体内再生,可结果伤了自身根本命源。”小不点醒悟,终于明白了这头祭灵为何异常,明明很恐怖,但却有部分实力施展不出。
,馃悿馃悿馃崋馃敒,国产成年人网站免费看,玖玖爱国产精品。??11月01日,第四届中国女子围棋名人战开幕,
双方人马都停了下来,被这强大的少年还有令人震惊的幼童的对决吸引住了,都在等他们分出个胜负来。
,胡桃拔萝卜,黄色高清无码,性知音。??时事4:污污视频在线免费观看网站
??11月01日,再获“国字号”招牌!新疆兵团这里“夜经济”为何能出圈?,
铁箭不断坠落,箭头全部折断,密密麻麻,眨眼在地上积了一堆,金属光泽冷冽,很是惊人。
,拉拉外网入口免费,17c·mooc,免观看黄色视频。??11月01日,胡塞武装逮捕多名联合国工作人员 古特雷斯谴责,
亲爱的同学们,伸出你的手,伸出我的手,让我们一起播种绿色,让我们一起宣传绿色倡议,让大地妈妈拥有新万博体育:的绿色吧
,国产一级自慰97A片,无码动漫下载,久久字幕。责编:刘明奎
审核:陈英
责编:阿道弗·坎比亚索












