月之暗面(Moonshot AI)刚刚发布了Kimi K2 Thinking。
这是Kimi迄今能力最强的开源思考模型。
基于模型即智能体(Model as Agent)理念训练,原生掌握边思考边使用工具的能力。
无需人类干预,可自主实现200-300轮连续工具调用与多轮思考。
测试时扩展(Test-Time Scaling)技术同时扩展思考Token和工具调用轮次,实现更强的智能体与推理性能。
还记得今年初DeepSeek R1开源免费对Kimi带来的巨大冲击,风光无限的Kimi瞬间黯然失色。
如今,Kimi再次站上了世界巅峰。
Kimi K2 Thinking重新定义AI智能体边界
传统AI模型需要人类逐步引导。
Kimi K2 Thinking突破这一限制。
它能够在数百个步骤中保持连贯的目标导向行为。
自主规划、执行、调整策略。
将模糊问题分解为清晰可执行的子任务。
这种能力源于端到端训练,使模型在思维链推理与函数调用之间自如切换。
可以看到,Kimi K2 Thinking在评估智能推理HLE with tools(人类的最后一次考试,跨学科的专家级问题)、智能搜索BrowseComp、Seal-0(智能搜索和浏览,真实世界最新信息收集)的基准测试中创造了新的世界记录。
在编程任务的三个重要测试集上,也媲美顶尖闭源模型。
基准测试成绩揭示技术实力
Humanity's Last Exam(人类最后的考试)是涵盖100多个专业领域的终极封闭式学术测试。
这项测试包含数千道专家级问题。
在允许使用搜索、Python、网络浏览工具的同等条件下,Kimi K2 Thinking取得44.9%的成绩。
这是目前该测试的最佳记录。
人类最后的考试中人文类题目推理过程:
可以看到,模型通过5轮搜索和推理,层层深入,最终得出答案。
官方的另一个案例显示,模型用23次交错的推理与工具调用,成功解决博士级数学问题。
BrowseComp由OpenAI发布,专门评估AI 智能体网络浏览能力。
测试衡量AI在信息过载环境中的坚持性与创造力。
人类平均成绩29.2%。
Kimi K2 Thinking达到60.2%。超越OpenAI 5.3个百分点。
这种能力使模型能够像人类研究员一样刨根问底。
执行思考→搜索→浏览网页→思考→编程的动态循环。
持续提出假设、验证证据、构建逻辑一致的答案。
编程能力在多个基准测试中获得验证。
SWE-Multilingual测试得分61.1%。SWE-Bench Verified测试得分71.3%。Terminal-Bench测试得分47.1%。
模型在HTML、React及组件密集型前端任务中性能显著提升。
能将创意转化为功能齐全、响应式的产品。
在Agentic Coding场景中,模型在调用工具的同时思考,灵活融入software agents,处理复杂多步骤开发工作流。
官方演示了复刻真实可用的Word文字编辑器。
以及创造华丽风格的体素艺术(voxel art)作品。
通用能力实现全面跃迁
创意写作方面,Kimi K2 Thinking将粗略灵感转化为清晰动人的叙述。
写作兼具韵律感和深度。
能驾驭微妙文风差异,在长篇内容中保持风格连贯。
意象更生动,情感共鸣更强烈。
精准表达与丰富表现力融为一体。
学术与研究场景中,分析深度、信息准确性和逻辑结构显著提升。
模型有条不紊地剖析复杂指令,以严谨方式拓展思路。
特别擅长处理学术论文、技术摘要和长篇报告。
个人与情感问题回应更显同理心,立场中正平和。比上一个版本强太多了。
K2 0905版本:
新版K2 Thinking:
思考深入周到,提供细致观点和可行建议。
语气脚踏实地,切实中肯,更富人情味。
原生INT4量化实现效率革命
大规模推理服务器上,低比特量化是降低延迟和GPU显存占用的有效方法。
思考模型产生极长解码长度,常规量化导致性能大幅下降。
Kimi K2 Thinking在训练后阶段采用量化感知训练(QAT)。
对MoE组件应用INT4纯权重量化。
实现原生INT4推理,生成速度提升约2倍。
INT4对推理硬件兼容性更强,对国产加速计算芯片更友好。
所有基准测试成绩均在INT4精度下取得。
模型总参数1万亿,激活参数320亿。上下文窗口256K。架构采用更多专家、更少head的设计。
Kimi K2 Thinking已在kimi.com常规对话模式中上线。
长思考开关位于工具箱中。
API通过Kimi开放平台(platform.moonshot.cn)提供。
Turbo API速度达100 Token/s。
定价方面,标准版每百万Token输入4元,输出16元,缓存命中1元。
Turbo版每百万Token输入8元,输出58元,缓存命中1元。
Kimi K2 Thinking标志着开源模型与闭源模型差距进一步缩小。
通过边思考边行动的能力,模型在推理、搜索、编程等任务中展现专家级水平。
300轮连续工具调用为复杂问题解决提供新可能。
INT4量化确保高效部署与广泛硬件兼容。
API和开源权重使开发者能够灵活集成与定制。
模型代码和权重可在Hugging Face、ModelScope等平台下载,采用MIT协议。
免费试用:
https://www.kimi.com/
参考资料:
https://huggingface.co/moonshotai/Kimi-K2-Thinking
https://moonshotai.github.io/Kimi-K2/thinking.html
https://www.modelscope.cn/models/moonshotai/Kimi-K2-Thinking/summary
免责声明:本文来自算泥客户端,不代表超天才网的观点和立场。文章及图片来源网络,版权归作者所有,如有投诉请联系删除。