真想不到是快手。
KAT-Dev-72B-Exp是一个专门为软件工程师定制的,在SWE-Bench Verified的硬核编程能力测试里,拿到了74.6%的准确率。这个分数,直接登顶了所有开源代码模型的第一名,并且跟闭源GPT-5的74.9%成绩,就差了那么一丁点儿。
快手这家公司,印象里最深的是快手短视频APP,和可灵视频生成。
现在,AI被看作是快手突破天花板的发动机。今年,快手甚至专门成立了可灵AI事业部,把可灵、可图这些大模型业务都装了进去,让高级副总裁盖坤亲自带队。
快手在AI上的玩法,已经形成了一个“投钱搞技术-用技术变现-再把赚的钱投回去”的良性循环。
上个月,快手的快码团队已经发布了KAT编码大模型系列,当时就包含了开源的KAT-Dev-32B和不对外开放的KAT-Coder。
快手要在代码智能领域搞事情了。
KAT-Dev-72B-Exp,其实是快手另一个模型KAT-Coder的实验版本。这个模型,基于快手自研 SeamlessFlow 工业级强化学习框架,通过创新的数据平面架构实现了训练逻辑与 Agent 的完全解耦,成功支持多智能体和在线强化学习等复杂场景。
针对复杂 Agent 场景,团队创新性地引入 Trie Packing 机制,并对训练引擎进行了重构优化,使模型能够高效地在共享前缀轨迹上开展训练。
KAT-Dev-72B-Exp是个720亿参数的模型,专门为了磕软件工程里的各种硬骨头。它跟那些啥都想干的通用大模型不太一样,从根上就为代码任务做了很多特别设计。
SWE-Bench Verified测试集上,性能远超比它大得多的开源模型。
架构创新上,快手团队重写了模型的注意力内核。你可以把这理解为模型看代码的方式。KAT-Dev-72B-Exp这个优化过的“眼睛”,特别适合分析复杂的代码库。
他们还重新设计了训练引擎,专门优化了“共享前缀轨迹”。写代码的时候,很多地方的上下文是重复的。这个优化就是让模型在处理这些重复上下文时更高效,能更好地理解整个代码库的结构和文件之间的依赖关系。
在强化学习训练中,还用了一个叫“基于通过率的优势分布重塑”的技术。它会放大那些敢于尝试新方法的行为的奖励,同时压制那些总在安全区打转的行为,力求在稳定不出错和大胆创新之间找到一个完美的平衡点。
快手在探索端到端复杂强化学习领域,取得不少成果
强化学习训练,不像监督学习那样,只是看标准答案学东西。而是让模型自己去跟环境互动,在一次次试错中总结经验,变得越来越聪明。
前面提到的“共享前缀轨迹训练”和“优势分布重塑”就是强化学习里的关键技术。前者让学习过程更高效,后者让模型在学习中不会轻易放弃,敢于挑战难题。这种训练方式,让模型学到更多解决问题的逻辑和思路。
注意力机制的优化也是一大功臣。软件工程经常要处理非常长的上下文,比如分析一个横跨几百个文件的大项目。传统的Transformer架构在这种长文本面前,计算量会爆炸,内存也吃不消。快手团队重写了注意力内核,让模型在处理这种超长上下文时,既能保持效率,又能深刻理解代码之间的依赖关系,生成的代码才能前后呼应,逻辑一致。
此外,KAT系列模型的设计理念里,还有一个多智能体(Agent)协作系统。
KAT Coder就是由四个专门的Agent组成的:一个负责写代码,一个负责测试,一个负责重构优化,还有一个负责自动部署。
KAT-Dev-72B-Exp虽然是单个模型,但也吸收了这种理念,在内部集成了多种软件工程的能力。
它不只是一个会“说话”的模型,更是一个会“动手”的工程师。它能通过工具调用和开发环境进行真实的交互。
比如,它可以直接读取、编辑和创建项目文件,就像一个真人开发者一样操作文件系统。
<tool_call>
<function=str_replace_editor>
<parameter=command>view</parameter>
<parameter=path>/project/src/main.py</parameter>
</function>
</tool_call>
它还能执行命令行操作,比如运行测试脚本来验证自己的代码有没有问题。
<tool_call>
<function=bash>
<parameter=command>python -m pytest tests/</parameter>
</function>
</tool_call>
这种与环境交互的能力,是通过一种结构化的可扩展标记语言(XML)格式来实现的,保证了模型和工具之间的沟通清晰无误。
构建编程智能体,又多了一个强有力的开源工具。
参考资料:
https://www.streamlake.ai/product/kat-coder
https://huggingface.co/Kwaipilot/KAT-Dev-72B-Exp
https://x.com/KwaiAICoder/status/1976588769785692240
https://www.xugj520.cn/en/archives/kat-dev-72b-exp-code-generation.html
免责声明:本文来自算泥客户端,不代表超天才网的观点和立场。文章及图片来源网络,版权归作者所有,如有投诉请联系删除。