日韩性插,在这里发现兴趣,分享快乐,记录生活的每个精彩瞬间_新万博体育

新万博体育

图片
搜索
猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

Kimi开源新线性注意力架构,首次超越全注意力模型,推理加速6倍

2025-10-28 12:18:06
来源:

猫眼电影

作者:

陈灵

手机查看

  猫眼电影记者 李兴安 报道Q8X2R7L1T4J5M9B6W3

闻乐 发自 凹非寺量子位 | 公众号 QbitAI

Transformer的时代,正在被改写。

月之暗面最新发布的开源Kimi Linear架构,用一种全新的注意力机制,在相同训练条件下首次超越了全注意力模型

在长上下文任务中,它不仅减少了75%的KV缓存需求,还实现了高达6倍的推理加速。

有网友表示期待:这个架构下的Kimi K2.5何时来??

不过,咱还是先来看一下Kimi Linear是如何挑战传统Transformer的。

让注意力真正线性化

Transformer确实聪明,但聪明得有点太烧钱。

它的注意力机制是全连接的,每个token都要和其他所有token打交道。

计算量也随着输入长度呈平方增长(O(N?)),而且每生成一个新词,还要查一遍之前的所有缓存。

这就导致推理阶段的KV Cache占显存极大,尤其是在128K以上的上下文中,显卡直接崩溃警告。

模型越强,显卡越崩,钱包越痛。

所以,过去几年无数团队都在研究线性注意力,希望把计算从 O(N?) 降到 O(N),让模型能又快又省。

但问题是,以前的线性注意力都记不住东西,快是快了,but智商打折。

现在,Kimi Linear以既要又要还要的姿态登场了。

Kimi Linear的核心创新是Kimi Delta Attention(KDA)

它在原有线性注意力的基础上,引入了细粒度遗忘门控,不再像传统线性注意力那样一刀切地遗忘,而是让模型可以在每个通道维度上独立地控制记忆保留,把重要信息留下,把冗余信息扔掉。

更关键的是,KDA的状态更新机制是基于一种改进的Delta Rule(增量学习规则)。

它在数学上保证了稳定性,即使是在百万级token序列中,梯度也不会爆炸或消失。

这也让Kimi Linear能在超长上下文中跑得稳。

整个模型采用3:1的混合层设计,每3层线性注意力(KDA)后加1层全注意力。这样既保留全局语义的建模能力,又能在多数层用线性计算节省资源。

团队还干脆把传统的RoPE(旋转位置编码)砍掉,让KDA自己通过时间衰减核函数学习序列位置信息。

结果,没有RoPE,模型反而更稳、更泛化。

在KDA的状态更新过程中,Kimi Linear用了一种叫Diagonal-Plus-Low-Rank(DPLR)的结构。

核心思路是把注意力矩阵拆成「对角块+低秩补丁」,这样GPU在并行计算时能一次性处理新万博体育:内容,吞吐率直接翻倍。

此外,团队还引入了分块并行计算和kernel fusion优化(内核融合),极大地减少了显存I/O开销。

在工程部署上,它还能无缝对接vLLM推理框架,不需要改模型结构,也不需要改缓存管理,直接替换即可。

这意味着,任何基于Transformer的系统在理论上都能一键升级为Kimi Linear。

实验结果显示,在相同训练规模下,比如1.4T tokens,Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多个基准测试上全面超越Transformer。

长上下文推理中,解码速度提升最高达6倍,KV缓存减少75%。

不仅没丢精度,还在数学推理、代码生成等任务上更稳定、更高分。

One More Thing

不得不说,Transformer的地位正在被重新审视。

Mamba的作者曾用长文论述Transformer并非最终解法,状态空间模型(SSM)在长序列建模和高效计算上展现出强大的替代潜力,这也让人们重新思考注意力是否真的是唯一答案。

之前谷歌推出的MoR架构,探索用递归结构取代部分注意力,通过动态计算深度来减少冗余推理,进一步提升效率。

苹果公司也在多项研究中倾向采用Mamba,而非传统Transformer,理由很现实——SSM架构更节能、延迟更低、适合在终端设备上部署。

现在,Kimi Linear则从另一条路线突围,在线性注意力方向上取得突破。

或许这也预示着,AI架构正在告别对传统Transformer的路径依赖,迈向多元创新时代。

但值得一提的是,刚刚坐上开源模型王座的MiniMax M2,却重新用回了全注意力机制。

技术报告:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

— 完 —

??时事1:自拍欧美在线综合另类

??10月28日,梦回长安 《大唐狄公案》官宣定档,

  今天,爸爸又带我去事故现场看了一下,想想真是后怕。不光是48号楼被炸坏,周围的楼都有不同程度的损坏,还有好多停放的汽车被震坏。

,久久精品国产99久久久电影。

??10月28日,“带豹回家”:中国少年在COP29讲述生态守护梦,

  四是试点乡镇示范带动不断突出,渗透作用日益延伸。小城镇建设在我市城镇化的梯级结构中处于最低一级,但它们在小天地里演绎了大精彩,纷纷唱起了“特色戏”。随着我市小城镇二、三产业的兴起,广大农民纷纷进镇务工经商,使农村生产力从纯农业中分离出来,对启动农村工业化,加速乡村城市化进程起到了很大作用。尤其是各县区所在的城关镇、城郊乡城乡二元结构差异小,经济发展较快,在年全市乡镇综合经济实力排序中稳居前列。目前,全市小城镇镇区非农业人口由年的万人增加到年底的万人,吸纳农村劳动力万人。小城镇试点的示范引导作用日益突出,我市自年以来先后确定了个综合改革试点乡镇,它们发展的显著成效,对全市的小城镇建设起到了很好的示范带头作用。据统计,试点镇(乡)的财政收入平均高出其它小城镇,国内生产总值平均高出,农民人均纯收入平均高出。个试点镇乡在全市个镇乡综合经济实力排序中,年有个升位,年有个升位。县镇突出以经济建设中心,六年来综合经济实力上升位,进入全市三十强,在全市产生了强烈的示范效应。还有一些小城镇的发展依托历史特点和自身优势进行定位,功能作用独具特色。如镇以发展旅游为主,以繁荣市场出名,靠“嫩头青”萝卜、靠柳编“打天下”,靠工业“唱大戏”,让边界贸易、服务业“登堂入室”,靠科技先导招纳四方,靠区位优势造镇,靠交通优势兴业。这些小城镇已成为我市小城镇建设的典范,在全市的经济建设和发展中起着不可低估的带动作用。值得一提的是,有些乡镇也建设了工业园区,如罗山的镇,规划建设了周南工业园区,已吸纳家乡镇企业入驻,区镇和镇分别建立了民营工业园和“双非”工业园,这些做法值得具备条件的乡镇借鉴。

,插女生网站,国产在线第一页 RMVB,人人爽夜夜高潮夜夜高潮。

??时事2:xxxxbbb

??10月28日,郑钦文人民日报撰文:远大的梦想,唯有坚持才能抵达,

  山地一片赤红,有很多水洼,都是血,肉泥与白骨茬儿更是到处都是,血腥气扑鼻。

,亚洲一区二区在线免费视频,嗯啊嗯啊嗯啊嗯啊嗯啊嗯啊嗯啊网站,3D自慰漫画。

??10月28日,最高检:前三季度起诉严重暴力犯罪4.4万人,

  这里发生剧烈的大爆炸,乱石崩云,神光如瀚海,向外扩散,石子陵战意冲霄,舞动神矛,将这个地方打到崩碎,所有宝骨全都炸开了。

,同城性爱视频,被肏,欧美一级A一级a爱片免费免免。

??时事3:一级A片激情

??10月28日,外汇市场、外资来华投资“锦上添花” 我国经济回升向好态势不断巩固增强,

  黑暗中尽是粗重的喘息声,连跑了数里远,十几个孩子累坏了,刚才又惊又怕,青鳞鹰那种凶物太强大了,若是被追上,一爪子下来,他们必然会成为一滩血泥与碎骨。

,女人天堂AV网,我要看亚洲女孩的毛,黄片,性爽爽。

??10月28日,一习话·众行致远丨“共同谱写‘大金砖合作’高质量发展新篇章”,

  “万物没有绝对,我只是说了一种可能。”柳树没有否认。

,欧美一级黄片直播,插人妻视频,国产精品免费视频色拍拍软件。

??时事4:把女人弄爽特黄a大片APP

??10月28日,2025年第九届亚冬会特许零售旗舰店迎购买热潮,

  经过全体代表和大会工作人员的共同努力,圆满完成了大会预定的各项任务,即将胜利闭幕。这次大会高举邓小平理论伟大旗帜,以“三个代表”重要思想为指导,全面贯彻落实科学发展观和党的xx届六中全会、来宾市三届二次党代会和武宣县十一届一次、二次党代会精神,实事求是地总结了 乡(镇)20xx年以来的工作,分析了存在的问题和面临的形势,明确了今年全乡

,www.my1169.com,黄色网站免费能看,爽~奶黑子。

??10月28日,习近平视察信息支援部队,

  “一朵花含着一口飞剑?”

,雏田吃大狙在线观看,国产欧美在线欧美日韩,A片一级3p。

责编:金山城

审核:谢晓丹

责编:许昕

相关推荐 换一换