模型即智能体,Kimi K2 Thinking多项评估超越顶尖闭源模型,300轮工具调用不疲倦

发布时间:2025年11月10日 来源:算泥 作者:suani 浏览量:71

月之暗面(Moonshot AI)刚刚发布了Kimi K2 Thinking。

图片

这是Kimi迄今能力最强的开源思考模型。

基于模型即智能体(Model as Agent)理念训练,原生掌握边思考边使用工具的能力。

无需人类干预,可自主实现200-300轮连续工具调用与多轮思考。

测试时扩展(Test-Time Scaling)技术同时扩展思考Token和工具调用轮次,实现更强的智能体与推理性能。

还记得今年初DeepSeek R1开源免费对Kimi带来的巨大冲击,风光无限的Kimi瞬间黯然失色。

如今,Kimi再次站上了世界巅峰。

Kimi K2 Thinking重新定义AI智能体边界

传统AI模型需要人类逐步引导。

Kimi K2 Thinking突破这一限制。

它能够在数百个步骤中保持连贯的目标导向行为。

自主规划、执行、调整策略。

将模糊问题分解为清晰可执行的子任务。

这种能力源于端到端训练,使模型在思维链推理与函数调用之间自如切换。

可以看到,Kimi K2 Thinking在评估智能推理HLE with tools(人类的最后一次考试,跨学科的专家级问题)、智能搜索BrowseComp、Seal-0(智能搜索和浏览,真实世界最新信息收集)的基准测试中创造了新的世界记录。

图片

在编程任务的三个重要测试集上,也媲美顶尖闭源模型。

基准测试成绩揭示技术实力

Humanity's Last Exam(人类最后的考试)是涵盖100多个专业领域的终极封闭式学术测试。

这项测试包含数千道专家级问题。

在允许使用搜索、Python、网络浏览工具的同等条件下,Kimi K2 Thinking取得44.9%的成绩。

这是目前该测试的最佳记录。

人类最后的考试中人文类题目推理过程:

图片

可以看到,模型通过5轮搜索和推理,层层深入,最终得出答案。

官方的另一个案例显示,模型用23次交错的推理与工具调用,成功解决博士级数学问题。

图片

BrowseComp由OpenAI发布,专门评估AI 智能体网络浏览能力。

测试衡量AI在信息过载环境中的坚持性与创造力。

人类平均成绩29.2%。

Kimi K2 Thinking达到60.2%。超越OpenAI 5.3个百分点。

图片

这种能力使模型能够像人类研究员一样刨根问底。

执行思考→搜索→浏览网页→思考→编程的动态循环。

持续提出假设、验证证据、构建逻辑一致的答案。

编程能力在多个基准测试中获得验证。

SWE-Multilingual测试得分61.1%。SWE-Bench Verified测试得分71.3%。Terminal-Bench测试得分47.1%。

图片

模型在HTML、React及组件密集型前端任务中性能显著提升。

能将创意转化为功能齐全、响应式的产品。

在Agentic Coding场景中,模型在调用工具的同时思考,灵活融入software agents,处理复杂多步骤开发工作流。

官方演示了复刻真实可用的Word文字编辑器。

图片

以及创造华丽风格的体素艺术(voxel art)作品。

图片

通用能力实现全面跃迁

创意写作方面,Kimi K2 Thinking将粗略灵感转化为清晰动人的叙述。

写作兼具韵律感和深度。

能驾驭微妙文风差异,在长篇内容中保持风格连贯。

意象更生动,情感共鸣更强烈。

精准表达与丰富表现力融为一体。

学术与研究场景中,分析深度、信息准确性和逻辑结构显著提升。

图片

模型有条不紊地剖析复杂指令,以严谨方式拓展思路。

特别擅长处理学术论文、技术摘要和长篇报告。

个人与情感问题回应更显同理心,立场中正平和。比上一个版本强太多了。

K2 0905版本:

图片

新版K2 Thinking:

图片

思考深入周到,提供细致观点和可行建议。

语气脚踏实地,切实中肯,更富人情味。

原生INT4量化实现效率革命

大规模推理服务器上,低比特量化是降低延迟和GPU显存占用的有效方法。

思考模型产生极长解码长度,常规量化导致性能大幅下降。

Kimi K2 Thinking在训练后阶段采用量化感知训练(QAT)。

对MoE组件应用INT4纯权重量化。

实现原生INT4推理,生成速度提升约2倍。

INT4对推理硬件兼容性更强,对国产加速计算芯片更友好。

所有基准测试成绩均在INT4精度下取得。

模型总参数1万亿,激活参数320亿。上下文窗口256K。架构采用更多专家、更少head的设计。

Kimi K2 Thinking已在kimi.com常规对话模式中上线。

长思考开关位于工具箱中。

图片

API通过Kimi开放平台(platform.moonshot.cn)提供。

Turbo API速度达100 Token/s。

定价方面,标准版每百万Token输入4元,输出16元,缓存命中1元。

Turbo版每百万Token输入8元,输出58元,缓存命中1元。

Kimi K2 Thinking标志着开源模型与闭源模型差距进一步缩小。

通过边思考边行动的能力,模型在推理、搜索、编程等任务中展现专家级水平。

300轮连续工具调用为复杂问题解决提供新可能。

INT4量化确保高效部署与广泛硬件兼容。

API和开源权重使开发者能够灵活集成与定制。

模型代码和权重可在Hugging Face、ModelScope等平台下载,采用MIT协议。

免费试用:

https://www.kimi.com/

参考资料:

https://huggingface.co/moonshotai/Kimi-K2-Thinking

https://moonshotai.github.io/Kimi-K2/thinking.html

https://www.modelscope.cn/models/moonshotai/Kimi-K2-Thinking/summary

免责声明:本文来自算泥客户端,不代表超天才网的观点和立场。文章及图片来源网络,版权归作者所有,如有投诉请联系删除。

0 0 0
有话要说  人讨论    71 人阅读
发表

游客

这位投稿者太神秘了,什么都没留下~

超天才网©2017 www.supergenius.cn All Rights Reserved ICP备09005826号 京ICP证130304号

联系我们| 加入我们| 法律声明| 关于我们| 评论互动

超天才网©2013-2014 All Rights Reserved ICP备09005826号 京ICP证130304号

关注我们: