模型即智能体，Kimi K2 Thinking多项评估超越顶尖闭源模型，300轮工具调用不疲倦—

模型即智能体，Kimi K2 Thinking多项评估超越顶尖闭源模型，300轮工具调用不疲倦

发布时间:2025年11月10日来源：算泥作者：suani 浏览量：71

月之暗面（Moonshot AI）刚刚发布了Kimi K2 Thinking。

这是Kimi迄今能力最强的开源思考模型。

基于模型即智能体（Model as Agent）理念训练，原生掌握边思考边使用工具的能力。

无需人类干预，可自主实现200-300轮连续工具调用与多轮思考。

测试时扩展（Test-Time Scaling）技术同时扩展思考Token和工具调用轮次，实现更强的智能体与推理性能。

还记得今年初DeepSeek R1开源免费对Kimi带来的巨大冲击，风光无限的Kimi瞬间黯然失色。

如今，Kimi再次站上了世界巅峰。

Kimi K2 Thinking重新定义AI智能体边界

传统AI模型需要人类逐步引导。

Kimi K2 Thinking突破这一限制。

它能够在数百个步骤中保持连贯的目标导向行为。

自主规划、执行、调整策略。

将模糊问题分解为清晰可执行的子任务。

这种能力源于端到端训练，使模型在思维链推理与函数调用之间自如切换。

可以看到，Kimi K2 Thinking在评估智能推理HLE with tools（人类的最后一次考试，跨学科的专家级问题）、智能搜索BrowseComp、Seal-0（智能搜索和浏览，真实世界最新信息收集）的基准测试中创造了新的世界记录。

在编程任务的三个重要测试集上，也媲美顶尖闭源模型。

基准测试成绩揭示技术实力

Humanity's Last Exam（人类最后的考试）是涵盖100多个专业领域的终极封闭式学术测试。

这项测试包含数千道专家级问题。

在允许使用搜索、Python、网络浏览工具的同等条件下，Kimi K2 Thinking取得44.9%的成绩。

这是目前该测试的最佳记录。

人类最后的考试中人文类题目推理过程：

可以看到，模型通过5轮搜索和推理，层层深入，最终得出答案。

官方的另一个案例显示，模型用23次交错的推理与工具调用，成功解决博士级数学问题。

BrowseComp由OpenAI发布，专门评估AI 智能体网络浏览能力。

测试衡量AI在信息过载环境中的坚持性与创造力。

人类平均成绩29.2%。

Kimi K2 Thinking达到60.2%。超越OpenAI 5.3个百分点。

这种能力使模型能够像人类研究员一样刨根问底。

执行思考→搜索→浏览网页→思考→编程的动态循环。

持续提出假设、验证证据、构建逻辑一致的答案。

编程能力在多个基准测试中获得验证。

SWE-Multilingual测试得分61.1%。SWE-Bench Verified测试得分71.3%。Terminal-Bench测试得分47.1%。

模型在HTML、React及组件密集型前端任务中性能显著提升。

能将创意转化为功能齐全、响应式的产品。

在Agentic Coding场景中，模型在调用工具的同时思考，灵活融入software agents，处理复杂多步骤开发工作流。

官方演示了复刻真实可用的Word文字编辑器。

以及创造华丽风格的体素艺术（voxel art）作品。

通用能力实现全面跃迁

创意写作方面，Kimi K2 Thinking将粗略灵感转化为清晰动人的叙述。

写作兼具韵律感和深度。

能驾驭微妙文风差异，在长篇内容中保持风格连贯。

意象更生动，情感共鸣更强烈。

精准表达与丰富表现力融为一体。

学术与研究场景中，分析深度、信息准确性和逻辑结构显著提升。

模型有条不紊地剖析复杂指令，以严谨方式拓展思路。

特别擅长处理学术论文、技术摘要和长篇报告。

个人与情感问题回应更显同理心，立场中正平和。比上一个版本强太多了。

K2 0905版本：

新版K2 Thinking：

思考深入周到，提供细致观点和可行建议。

语气脚踏实地，切实中肯，更富人情味。

原生INT4量化实现效率革命

大规模推理服务器上，低比特量化是降低延迟和GPU显存占用的有效方法。

思考模型产生极长解码长度，常规量化导致性能大幅下降。

Kimi K2 Thinking在训练后阶段采用量化感知训练（QAT）。

对MoE组件应用INT4纯权重量化。

实现原生INT4推理，生成速度提升约2倍。

INT4对推理硬件兼容性更强，对国产加速计算芯片更友好。

所有基准测试成绩均在INT4精度下取得。

模型总参数1万亿，激活参数320亿。上下文窗口256K。架构采用更多专家、更少head的设计。

Kimi K2 Thinking已在kimi.com常规对话模式中上线。

长思考开关位于工具箱中。

API通过Kimi开放平台（platform.moonshot.cn）提供。

Turbo API速度达100 Token/s。

定价方面，标准版每百万Token输入4元，输出16元，缓存命中1元。

Turbo版每百万Token输入8元，输出58元，缓存命中1元。

Kimi K2 Thinking标志着开源模型与闭源模型差距进一步缩小。

通过边思考边行动的能力，模型在推理、搜索、编程等任务中展现专家级水平。

300轮连续工具调用为复杂问题解决提供新可能。

INT4量化确保高效部署与广泛硬件兼容。

API和开源权重使开发者能够灵活集成与定制。

模型代码和权重可在Hugging Face、ModelScope等平台下载，采用MIT协议。

免费试用：

https://www.kimi.com/

参考资料：

https://huggingface.co/moonshotai/Kimi-K2-Thinking

https://moonshotai.github.io/Kimi-K2/thinking.html

https://www.modelscope.cn/models/moonshotai/Kimi-K2-Thinking/summary

免责声明：本文来自算泥客户端，不代表超天才网的观点和立场。文章及图片来源网络，版权归作者所有，如有投诉请联系删除。

有话要说人讨论 71 人阅读

发表

匿名

游客

这位投稿者太神秘了，什么都没留下~

登录

模型即智能体，Kimi K2 Thinking多项评估超越顶尖闭源模型，300轮工具调用不疲倦

热门搜索

热门文章