(8分钟一步到位)威尼斯人游戏网站电脑版v39.81.38.661.91.69-2265安卓网

首页 >新闻 >社会新闻

详解Kimi K2 Thinking：谢谢DeepSeek，我先去干掉GPT-5了

2025-11-03 17:28:10

来源：

猫眼电影

作者：

彭善超

手机查看

　　猫眼电影记者樊文泉报道Q8X2R7L1T4J5M9B6W3

作者｜周一笑邮箱｜ zhouyixiao@pingwest.com

“这是又一次DeepSeek式的辉煌时刻吗？开源软件再次超越闭源软件。”

2025年11月6日，Hugging Face 联合创始人 Thomas Wolf 在 X 上的感慨，精准概括了Kimi K2 Thinking模型发布后所引发的讨论。

Kimi K2 Thinking在多个基准测试中取得了亮眼的成绩，追平、乃至超过了SOTA的闭源模型。例如，在HLE（Humanity's Last Exam）text-only子集的基准上，其工具增强版得分达到44.9%，超过了GPT-5的41.7% 。

Kimi K2 Thinking是基于 Kimi K2 模型训练而来的，专注于提升Agentic能力和推理能力。这是一个拥有1万亿总参数的混合专家模型（Mixture-of-Experts, MoE），每次推理激活约320亿参数，支持256k的上下文窗口，并采用了原生INT4量化技术。设计思路是在保持巨大模型规模的同时，想办法控制计算成本和训练成本。据CNBC援引知情人士的报道，该模型的训练成本仅为460万美元。作为对比，DeepSeek披露的 V3训练成本（租赁价，正式训练阶段）是560 万美元，R1为29.4万美元。这里主要考虑的是GPU预训练费用，不包括研发、基础设施等投资。

Kimi K2 Thinking的一个核心特性是Agent能力，官方宣称它能够连续执行200-300次工具调用来解决复杂问题。Grok-4等闭源阵营广泛采用RL提升工具使用与长程规划，但在开源模型中看到如此的实现还是第一次。它表明开源社区正在快速跟上智能体技术的前沿，同时也对模型托管服务提出了更高的要求。

Kimi K2 Thinking目前还没有发布技术报告，仅有技术博客、使用文档，未披露它的训练数据、RL细节或配方。模型发布后不久，技术社区的新万博体育：模型架构本身的讨论也开始出现。在X和Reddit上，一张将其与DeepSeek模型并排比较的架构图又开始流传，引发了新万博体育：其技术渊源的讨论。

在DeepSeek的R2“难产”已久、社区翘首以盼的背景下，Kimi带着一个架构存在继承关系且同样是开源SOTA推理模型的模型出现，让人恍惚以为Kimi是替DeepSeek把R2发了。

架构的“继承”与工程的“魔法”

LLM研究工程师Sebastian Raschka对此进行了详细的分析，他在threads指出了两者间的具体异同：

?每个MoE层的专家数量增加约1.5倍（384 vs 256）

?更大的词汇表（160k vs 129k）

?K2每个token激活约320亿参数（DeepSeek R1为370亿）

?MoE之前的密集FFN块更少

“简而言之，Kimi K2本质上就是一个规模上略作调整的 DeepSeek V3/R1。它的改进主要体现在数据和训练配方上。”

Raschka的分析指出了一个关键事实，Kimi K2 Thinking对DeepSeek核心架构的“继承”是显而易见的，包括MoE机制、MLA（多头潜在注意力）等设计。这是在一个已被验证的基座上，根据自身的目标进行了针对性的调整和优化。例如，减少注意力头和激活参数量，旨在降低推理成本；而增加专家数量和词汇表，则是为了增强模型的知识容量和表达能力。这种“站在巨人肩膀上”的做法，是开源精神最直接的体现。

除了对DeepSeek架构的继承，Kimi K2 Thinking的成果也离不开对整个开源生态成果的广泛“化用”。从底层用于加速注意力计算的FlashAttention，到K2技术报告中提到的、为解决训练不稳定性而改进的MuonClip优化器，再到各种数据处理和后训练方法论，都整合了开源社区的集体智慧。

如果说架构和开源技术决定了模型的骨架，那么让其血肉丰满的，则是月之暗面自身的工程实现能力。这主要体现在三个方面：

1、训练稳定性：在长达15.5万亿tokens的预训练过程中，Kimi K2 Thinking实现了“零loss spike（损失尖峰）”。这意味着训练过程极其稳定，无需因模型崩溃而进行成本高昂的回滚。这对于万亿参数规模的模型来说，是一项重要的工程成就。

2、原生量化推理：Kimi K2 Thinking支持原生INT4量化推理，据称能在极小的性能损失下，将推理速度提升约2倍，并显著降低部署所需的GPU显存。这是将大参数模型从实验室推向广泛应用的关键。

3、长程任务执行：模型能够稳定执行200-300轮工具调用，这不仅考验了模型的推理能力，也检验了其系统鲁棒性。在长达数百步的交互中，模型必须能处理各种异常，背后需要一套复杂的工程机制。

Kimi团队在选择和整合这些开源技术时的具体决策，及其工程团队最终的执行能力，共同构成了Kimi K2 Thinking取得当前成果的基础。这种技术路线和成功范式，让许多人联想到了当初R1发布时的情景。它承接DeepSeek 的 MLA+MoE高效架构与“可验证任务优先”的数据/奖励取向，用工程手段（如 MuonClip、长上下文、工具链）把能力做稳。不同点在于K2 Thinking的开放形态与目标更偏应用交付。

SOTA之外的取舍

对Kimi K2 Thinking的全面审视，不能只停留在Benchmark的分数上。一个绕不开点是其Benchmark成绩的来源。Kimi K2 Thinking在技术博客中展示的许多SOTA分数，是基于一个特殊的“Heavy”模式获得的。根据官方在Hugging Face上的说明，这个模式通过并行运行多达8个推理然后通过反思性地聚合所有输出来生成最终结果。这种做法在学术界和模型竞赛中很常见。在今年7月9日的Grok 4的发布会上，xAI公布Grok 4 Heavy的HLE得分为44.4 %，text-only 子集得分50.7%。

这种heavy模式也带来一些问题，一是资源消耗巨大，普通用户通过API或本地部署几乎不可能复现这种性能，二是它造成了Benchmark分数与模型单实例真实能力之间的差距。用户实际能体验到的标准模式，与榜单上的“野兽模式”不是一回事。

对效率的追求，也体现在模型底层的工程决策中，而这些决策往往遵循着性能与成本的交换原则。例如，模型采用的原生INT4量化，虽然官方宣称性能损失极小，但从FP16到INT4的精度压缩是巨大的。这种量化在标准评测集上可能表现良好，但在更长、更复杂的推理链条中，精度损失的累积效应是否会影响任务的最终成功率，仍有待更广泛的实际应用检验。

同样，将注意力头从128个减少到64个，也是Kimi团队为降低内存带宽和计算开销做出的主动选择。但K2技术报告也承认，新万博体育：的注意力头通常能带来更好的模型质量。这意味着，Kimi K2为了更高的推理效率，在模型能力上做出了一定的妥协。

Kimi K2 Thinking对Agent能力的押注，也带来了其他维度的局限性。官方公布的基准测试显示，K2 Thinking 在"智能体推理"和"智能体搜索"两项指标上超越了 OpenAI 与 Anthropic 的顶级模型（GPT-5 和 Sonnet 4.5 Thinking），但在“编程能力”方面尚未登顶。

在前沿模型纷纷将多模态作为标配的今天，Kimi K2 Thinking仍然是一个纯文本模型。这种差异在处理涉及视觉或空间推理的任务时尤为明显。例如，在生成一个“鹈鹕骑自行车”的SVG图像这类任务上，纯文本模型可能会因为缺乏对物理世界的基本视觉理解而存在一些问题：

Kimi K2 Thinking生成的SVG

Kimi K2 Thinking的发布，给人的感觉就像是开源AI社区又一次集体狂欢。它站在DeepSeek这样所有优秀开源成果之上，想明白了自己此阶段最重要的性能目标，对细节进行改进，对训练效率进行提高，得到一个可以在今天最关键方向上超过闭源最强模型的新开源模型。然后这个模型也给开源社区带来反馈和启发，同时它也是Kimi下一代更大更完整模型的一块拼图——也许下一次DeepSeek时刻不远了，而且它可能真的不需要由DeepSeek自己带来。

点个“爱心”，再走吧

??时事1：必博手机APP

??11月03日,人民领袖｜做青年友,

　　“青大婶你不要紧吧？”小不点担忧，巨兽能有数百头，不弱青鳞鹰的也有几头，想要夺得狻猊的遗体，难度太大了。

,真人葡京国际。

??11月03日,推动高质量发展·权威发布｜甘肃：连续7个季度经济增速保持在全国第一方阵,

　　小孤山镇大乱，人们四处奔逃，但是惊恐的发现，小镇四周全是凶兽，无路可逃，兽潮出现，将这里淹没了。

,英亚国际下载,新濠天地真人投注,世界杯在哪里买球。

??时事2：手机网赌app

??11月03日,第十二届全国少数民族传统体育运动会结束新疆运动员：收获满满,

　　站在教室门口的走廊上，可以看清楚楼下的一草一木，它们是多么的翠绿，看着舒服。它们见证了我们的成长：操场上，有我们跑步的身影;小道旁，常常有我们的欢声笑语。走进教室里，呆呆的望着黑板，仿佛前面有一位老师，正在讲课，而座位上，是我们积极对我同学。走出校园，回过头，那石碑上清晰刻着：安阳实验小学。六个大字，作为安阳实小人，我为此感到自豪……母校给了我无限的回忆，她给了我太多太多的东西。

,AG8亚洲国际游戏集团,云顶娱乐手机登入,网络ag真人首选75505。

??11月03日,邹敬园夺得巴黎奥运会体操男子双杠金牌,

　　(一)振奋精神，增强信心。去年底，市委十二届十四次全委(扩大)会议对“”发展进行了部署，确立了建设世界现代田园城市示范区的发展定位，明确了20xx年基本建成国际旅游城市目标，对20xx年工作进行了安排，并将今年作为投资促进年、产业振兴年、改革突破年、管理提升年。面对美好前景和艰巨任务，滨江街道各级党组织和广大干部要进一步看到优势，振奋精神，增强信心。信心来源于灾后重建即将取得全面胜利，来源于灾后重建为我们赢得了转型发展的历史最好时期，来源于改革为我们创造的先发优势，来源于灾后重建奠定的群众基础和干部基础。在新的任务面前，希望各党组织和广大干部继续保持争先创优、赶超跨越的强烈信心，进一步振奋精神，鼓足干劲，不断开创科学发展的新局面。

,亚美体育官方网,足球世界杯开户网址,线上银河游戏。

??时事3：世界杯买球有发财的嘛

??11月03日,2024年“文化中国·水立方杯”中文歌曲大赛巴西赛区启幕,

　　各位下午好！今日是我们大学阶段的最后一次团聚，是我们向母校挥手告别的日子，也是我们各奔东西，或进一步深造或走上工作岗位，开启我们人生新征程的日子。在这个即将别离的时刻，能代表中文系20xx届全体毕业生在此发言，我感到非常荣幸。首先，请允许我代表全体毕业生向辛勤培养了我们的各位、老师们表示最衷心的感谢，并致以最崇高的敬意！几年前，我们拎着简单的行李，怀揣着同样的梦想，从全国各地相约在了xx学院。从此，我们便成了一家人，组成了一个团结、和谐的各位庭。从进入大学的那天起，这里便成了我们人生路上的

,必威苹果客户端下载不了,天博com体育,dafa娱乐网址。

??11月03日,瑞士媒体：抱怨中国“产能过剩”暴露西方的虚伪与短视,

　　谢谢大家，我的演讲完毕。

,新濠天地线上app娱乐,哪个斗牛游戏可以赢钱,PG电子游戏快速开户。

??时事4：爱游戏体育

??11月03日,江苏电网唯一一座省外变电站移交国网山东电力属地管理,

　　石昊迈步，如入无人之境，继续出手，此人见状极速冲来，浑身发出宝光，而后一片又一片甲胄出现了，笼罩在他的身上。

,哪个网站可以买世界杯,博鱼体育官网登录入口,美高梅注册上分手机版官网。

??11月03日,奥运冠军李小鹏：运动员在提高专业训练的同时也要做好未来规划,

　　村人全都吃惊，看着那枚散发璀璨光辉的蛋，眼中都露出炽热的光芒，这绝对是一头难得的战禽，潜力无尽。

,爱游戏手机版登录,九龙内幕传真(新上市),宝马娱乐网址。

【直击港交所“打风不停市”机制首次实施】

【国际深一度：美国债务又要“爆”了？带给世界的风险攀升】

责编：马拉西亚

审核：武翁仲

责编：亚明