国产模型炸了!Kimi K2超越GPT-5,全球第一

昨天(11月6日),国产AI又炸了。

MoonshotAI发了Kimi K2 Thinking。

Artificial Analysis直接排它全球第一。

GPT-5、Claude 4.5、Grok 4,全在后面。

Huggingface创始人Thomas Wolf转发说:"我们再一次见证DeepSeek时刻。"

这次,不是平替。

是超越。

image


多强?看数据

直接说结论:多项测试碾压GPT-5和Claude 4.5。

智能体测试:93%,吊打GPT-5

τ²-Bench Telecom是个智能体工具测试。

模型要当客服,处理复杂问题,调各种工具。

Kimi K2 Thinking拿了93%。

目前测到的最高分。

智能体能力,碾压。

推理和编程:全面领先

看这张图:

image

几个关键数据:

  • Humanity's Last Exam(专家级跨学科问题) Kimi K2 Thinking: 44.9% GPT-5: 39%左右 Claude 4.5: 28%左右
  • BrowseComp(智能搜索和浏览) Kimi K2 Thinking: 60.2% GPT-5: 54.9% Claude 4.5: 24.1%
  • SWE-Multilingual(多语言编程) Kimi K2 Thinking: 61.1%
  • SWE-bench Verified(编程验证测试) Kimi K2 Thinking: 71.3% GPT-5: 60%左右
  • LiveCodeBench V6(实时编程测试) Kimi K2 Thinking: 83.1%
  • Seal-0(真实世界信息收集) Kimi K2 Thinking: 56.3%

每一项,都是第一或接近第一。

不是单项强,是全面碾压。


技术亮点:强,还省钱

image

1T参数,但只激活32B

Kimi K2 Thinking用MoE架构(混合专家模型)。

总参数:1万亿(1T)激活参数:320亿(32B)

啥意思?

每次推理,只用320亿参数。其他参数"待命"。

能力够,成本低。

原生INT4量化

以前的模型,训练用FP16或FP8,完了再量化到INT8或INT4。

Kimi K2 Thinking直接原生INT4训练。

  • 用量化感知训练(QAT),在后训练阶段就量化。

结果:

  • 模型大小:594GB(相比K2 Instruct的1TB+,小了一半)
  • 推理速度:低延迟模式下快了2倍
  • 性能:不降反升

这是技术上的突破。

256K上下文窗口

支持256,000 token的上下文。

能处理超长对话,超长文档。

200-300次连续工具调用

这个猛。

一般模型,工具调10-20次就乱了。

Kimi K2 Thinking能连续调200-300次工具,不用人管。

啥概念?

它能自己完成复杂任务:

  • 搜信息
  • 分析数据
  • 调API
  • 整理结果
  • 再搜
  • 再分析
  • ...

一直干下去,不迷路。

所以智能体测试能拿93%。


训练成本:460万美元

这数据震撼。

知情人士说,Kimi K2 Thinking训练花了460万美元。

对比下:

  • GPT-4训练:几亿美元
  • GPT-5训练:估计几十亿
  • DeepSeek V3:560万
  • Kimi K2 Thinking:460万

性能超GPT-5,成本是零头。

为啥?

  1. 技术路线牛:MoE架构+INT4量化+高效训练
  2. 中国算力成本低:电费、人工、基建都比美国便宜
  3. 工程能力强:知道咋花钱,不瞎堆资源

460万,做出全球第一。

中国AI的硬实力。


这次真不一样

以前,国产模型一直"追"。

DeepSeek V3出来,说"接近GPT-4"。Kimi出来,说"不错,能用"。

这次不一样。

这次是超越。

Artificial Analysis把Kimi K2排全球第一,不是客气,是数据。

而且,这次超的不是一项,是全面:

  • 推理:超
  • 编程:超
  • 智能体:碾压
  • 成本:完胜

全面超。

Thomas Wolf说"再次见证DeepSeek时刻",不夸张。

DeepSeek V3在1月震惊世界,证明中国能做顶级模型。

Kimi K2 Thinking在11月再证明:中国能做得更好。


开源还是闭源?

Kimi K2 Thinking是开源的。

权重和代码已经发布在Huggingface: https://huggingface.co/moonshotai

任何人都可以下载使用。

594GB的模型大小,对于有GPU的团队来说,完全可以部署。

对比下:

  • GPT-5:闭源,只能API调,贵
  • Claude 4.5:闭源,只能API调
  • Kimi K2 Thinking:开源,能自己部署

开源vs闭源,两条路。

OpenAI选闭源,控制技术,赚钱。中国模型选开源,共享技术,建生态。

谁的路更好?

现在不好说。但至少,开源让更多人能用最强AI。


咋用?

在线用

直接上:https://kimi.com

现在有聊天模式,完整智能体模式快上了。

API调

去:https://platform.moonshot.ai

能接入自己的应用。

自己部署

下模型:https://huggingface.co/moonshotai

要够GPU资源(模型594GB)。


适合干啥?

看Kimi K2的能力,最适合这些:

深度研究

要多次搜、分析、整理的活。

它能自己完成200-300步研究。

复杂编程

多模块、多步骤的编程。

SWE-bench拿71.3%,编程很强。

智能体应用

要调多个工具、多次决策的应用。

客服、助手、自动化,都行。

长文档处理

256K上下文,能处理超长文档。

分析报告、法律文件、研究论文,能搞定。


不足

没完美的模型。Kimi K2也有不足:

只支持文本

现在只支持文本输入输出。

不支持图片、音频、视频。

对比GPT-5和Claude 4.5,这是劣势。

速度

虽然有低延迟模式,但智能体模式下,200-300次工具调要时间。

复杂任务可能等几分钟。

中文优化

Kimi系列中文一直强。

但某些英文测试,GPT-5和Claude还是略好点。

不过,差距已经很小了。


意味着啥?

中美AI竞赛的拐点

以前,美国遥遥领先。OpenAI、Anthropic、Google,轮流刷榜。

中国模型一直追。

现在,中国模型开始领先了。

拐点到了。

成本优势持续扩大

460万训出全球第一,这成本优势太大。

意味着:

  • 中国公司能更快迭代
  • 能做更多实验
  • 能支持更多应用

美国公司花几十亿训一个模型,迭代跟不上。

开源生态的胜利

Kimi K2开源,会带动整个生态:

  • 更多开发者进来
  • 更多应用出来
  • 技术进步更快

闭源模型控技术,但发展慢。开源模型共享技术,发展快。

长期看,开源可能赢。

芯片禁令失效

美国一直限制中国拿先进GPU。

想法是:没好芯片,做不出好模型。

结果呢?

中国用更少算力,做出了更好的模型。

460万美元,用的肯定不是最先进的H100或B200。

但性能超了用最先进芯片训的GPT-5。

说明:算法 > 算力。

芯片禁令,限制不住中国AI。


我咋看

用了这么多年AI,从GPT-3到GPT-4到Claude到DeepSeek,我有几个感受:

国产模型不再是"备胎"

以前,国产模型是备胎。GPT-4不让用了,才试试国产。

现在,Kimi K2是首选。

不是因为爱国,是因为真好用。

开源的力量

Kimi K2开源,意味着任何人都能用最强AI。

不担心API被封,不担心价格涨,不担心服务停。

下下来,自己部署,永远能用。

这安全感,闭源给不了。

中国AI的未来

如果说DeepSeek V3是"证明我们能做"。

那Kimi K2 Thinking就是"证明我们能做得更好"。

这不是终点,是起点。

接下来,会有更多中国模型刷榜。

会有更多开源模型出来。

会有更多应用落地。

中国AI,真起来了。


最后

Kimi K2 Thinking,全球第一。

不是吹的,测出来的。

不是平替,是超越。

技术博客:https://moonshotai.github.io/Kimi-K2/thinking.html

想用的,去kimi.com试试。

想部署的,去Huggingface下。

这次,真不一样了。


看到这了,觉得有意思的话,点个赞、转发一下呗。想第一时间看到更新的,给我个星标⭐

谢了,下次见。

注:文章来源于微信公众号《虹安AI进化论》。

首页_07180934_815    行业新闻    国产模型炸了!Kimi K2超越GPT-5,全球第一
创建时间:2025-11-17
浏览量:0

请完善以下信息,获取完整案例资料!

联系电话 *

姓名

公司名称

意向方案选择
咨询问题 *