11 月 6 日,Kimi 发布 Kimi K2 Thinking,已在网页端与最新版 App 上线,同时其 API 也正式登陆 Kimi 开放平台。
Kimi K2 是基于「模型即 Agent」理念训练的新一代 Thinking Agent。在 OpenAI 评估 AI Agent 网络浏览能力的基准测试 BrowseComp 中,Kimi K2 以 60.2% 的成绩成为新的 SOTA 模型。
真格基金于 2023 年天使轮投资月之暗面。自 2023 年 10 月发布以来,Kimi 持续升级基础模型能力,拓展产品功能与交互体验。Kimi K2 模型最初发布于 7 月 11 日。目前,包括 Cursor、Genspark、Perplexity、YouWare 等多款产品已接入或使用 Kimi K2 模型。
我们期待在未来与 Kimi 和更多用户一起共创智能。
今天,我们发布 Kimi K2 Thinking——Kimi 迄今能力最强的开源思考模型。
Kimi K2 Thinking 是我们基于「模型即 Agent」理念训练的新一代 Thinking Agent,它原生掌握「边思考,边使用工具」的能力。在人类最后的考试(Humanity's Last Exam)、自主网络浏览能力(BrowseComp)、复杂信息收集推理(SEAL-0)等多项基准测试中表现达到 SOTA 水平,并在 Agentic 搜索、Agentic 编程、写作和综合推理能力等方面取得全面提升。

Kimi K2 Thinking 模型无需人类干预,即可凭借持续稳定的深度思考能力自主实现高达 300 步的工具调用,从而帮助用户解决更复杂的问题。这是我们在 Test-Time Scaling(测试时扩展)领域的最新进展,通过同时扩展思考 Token 和工具调用的步数,实现更强的 Agent 和推理性能。
Kimi K2 Thinking 模型已上线 kimi.com 和最新版 Kimi 手机应用的常规对话模式。Kimi Agent 模式的底层模型后续也将升级为 Kimi K2 Thinking 模型,带来完整的多步思考和工具调用能力。
Kimi K2 Thinking 模型的 API 可通过 Kimi 开放平台()访问。如需自行部署,请在 Hugging Face、ModelScope 等平台下载模型。

推理性能全面提升
我们来看一个人类最后的考试中人文类题目推理过程示例。在这个示例中,Kimi K2 Thinking 经过 5 次搜索和推理,结合每步搜索到的新信息,层层深入,最终推理出了答案: