OpenAI编程新王GPT-5-Codex发布,7小时独立开发,化身代码构建大神

发布时间:2025年09月18日 来源:算泥 作者:suanni 浏览量:9

刚刚,OpenAI发布了更强大的编程系统GPT-5-Codex。这个模型是GPT-5的一个版本,针对其旗下的编程神器Codex产品而进行的升级,对智能编程进行更强的深度优化。

图片

同时对Codex产品线也进行了重要更新。核心就是把GPT-5-Codex超级引擎,塞进了Codex的心脏里。

图片

“Codex在实时协作和独立处理任务方面变得更快、更可靠、更好——无论是通过终端、IDE、网络还是手机。”

按照OpenAI官方的说法,这是一个能够理解复杂编程任务,甚至能独立“爆肝”好几个小时,把从写代码、跑测试到审代码这一整套软件开发的“一条龙”服务全都包了的狠角色。它不再仅仅是个工具,而是一个能和你并肩作战,能理解你上下文,能为你和你的团队可靠地分担工作的“神仙队友”。

“与其前身codex-1一样,该模型使用强化学习在各种环境中的真实编码任务上进行训练,以生成紧密模仿人类风格和PR (拉取请求) 偏好的代码,精确遵循指令,并迭代运行测试直到获得通过的结果。”

这段话信息量巨大,咱们掰开揉碎了看。首先,它的训练是在真实世界里各种环境中的真实编码任务上摸爬滚打练出来的,所以它写的代码特别“接地气”,很懂人类程序员的编码风格和提交代码时的偏好。其次,它是个“听话的好孩子”,能精准地理解并执行你的指令。最关键的一点,它学会了“自我纠错”,会自己一遍遍地跑测试,直到把所有问题都修复,拿到一个“通过”的结果。

和它的前辈们比起来,GPT-5-Codex的进化就是降维打击。比如,它学会了“弹性工作制”,能根据任务的难易程度动态调整自己的“思考时间”。遇到简单的活儿,光速搞定;碰上硬骨头,它会沉下心来花更多时间去推理、编辑和测试。OpenAI内部的员工用它做测试,发现这家伙最长能一个人埋头苦干超过7个小时,独立啃下一个又大又复杂的任务,中间还包括自己实现功能、自己修复失败的测试,最后成功交付。

它还特别会“省钱”。对于那些简单任务,它消耗的计算资源,tokens数量,比通用的GPT-5模型少了足足93.7%。这意味着它在处理日常琐事时又快又便宜。可一旦投入到复杂任务中,它又会毫不吝啬地投入更多资源,令牌使用量甚至会增加102.2%,主打一个“好钢用在刀刃上”。

图片

无论你是想从零开始搭一个完整的项目,还是给现有项目加功能、写测试、做大型重构,它都能奉陪到底。它还能化身“代码审查大师”,帮你自动审查团队成员提交的PR,揪出那些隐藏的bug。

正如OpenAI在介绍文章里满怀憧憬地说的那样:“随着这些更新,Codex更接近我们一直以来的目标——一个能够理解你的上下文、与你并肩工作、可靠地为你的团队承担工作的队友。”

这个AI“码农”,到底有多“肝”?

OpenAI对GPT-5-Codex进行了一系列性能评估,并且毫不避讳地把它和自家的顶级模型GPT-5放在一起公开“处刑”。

在一个叫做SWE-bench的行业标准测试集上,OpenAI这次还特别说明了一下,他们修复了之前基础设施的一些小毛病,现在是在完整的500个任务上跑的测试,数据更全面、更可靠了。还有一个专门的重构任务评估,里面的题目都是从Python、Go甚至OCaml这些语言的大型成熟代码库里精挑细选出来的“变态级”任务。

那么,GPT-5-Codex表现如何呢?

图片

这充分说明,GPT-5-Codex在理解和执行复杂代码结构调整这种核心编程任务上,比“通才”GPT-5要强悍得多。

当然,一个合格的“编程队友”,光会写代码和改代码还不够,还得会“看”代码,也就是代码审查 (Code Review)。这可是保证软件质量的关键环节,也是GPT-5-Codex的又一大亮点。OpenAI专门训练了它的这项能力,并且用一堆流行开源项目里最新的代码提交来对它进行“考试”。结果再次让人惊叹:

图片

GPT-5-Codex更靠谱了,瞎指挥的比例从13.7%骤降到了4.4%。它的眼光更毒辣了,更能发现那些关键性的、有重大影响的问题,这个比例从39.4%提升到了52.4%。它的话更精炼了,废话更少,平均每个PR的评论数从1.32条减少到了0.93条。总结起来就是:废话少,眼光准,句句都在点子上。

OpenAI的解释是,GPT-5-Codex在审查代码时,不仅仅是看你改了哪几行,它会去“导航你的代码库,推理依赖关系,并运行你的代码和测试以验证正确性”。这种审查方式,已经无限接近于一个最顶尖、最认真的人类审查者了,远非传统那些只会做表面文章的静态分析工具所能比拟。

GPT-5-Codex在前端开发能力方面也是一把好手,尤其擅长创建漂亮的桌面应用和移动网站。当它在云环境里工作时,你甚至可以把设计图或者屏幕截图直接发给它,它能“看懂”你的设计,然后一边做一边“视觉检查”自己的进度,最后还能把做好的页面截图发回给你看。这种“所见即所得”的开发模式,对于前端工程师来说,简直是梦寐以求的神技。

无论是硬核的后端重构,还是精细的前端实现,又或是保障质量的代码审查,GPT-5-Codex都展现出了超凡的实力。

既是神队友,也是铁门神!

能力越大,责任越大。OpenAI在赋予GPT-5-Codex强大编程能力的同时,他们也给它套上了一层又一层的“金钟罩铁布衫”,构建了一套极其严密的安全评估和风险缓解体系。这确保了它在成为你“神队友”的同时,也能扮演好“铁门神”的角色,防止被坏人利用。

首先是基础模型的安全评估。虽然GPT-5-Codex是个编程特化模型,主要跟代码打交道,而不是陪人聊天,但OpenAI还是按照最严格的标准,对它在处理各种不允许内容时的拒绝能力进行了全面测试。他们用了一套全新的、更具挑战性的“生产基准”评估集,里面的对话数据都来自真实世界,花样百出。

图片

从数据上看,GPT-5-Codex在绝大多数有害内容类别上的拒绝率都超过了90%,表现非常稳健,全面优于OpenAI o3模型。虽然在个别项目上略低于gpt-5-thinking,但OpenAI认为这属于评估中的正常波动。总的来说,这道基础防线是相当牢固的。

接下来是更刺激的,防御“越狱攻击”。所谓越狱,就是有人通过一些刁钻的、精心设计的问题,试图绕过AI的安全限制,诱导它说出或做出一些不该干的事。为了测试GPT-5-Codex的“定力”,OpenAI用了一个学术界的知名越狱攻击基准测试集StrongReject。这个测试集里的问题,个个都像是“糖衣炮弹”。而GPT-5-Codex的表现,堪称“坐怀不乱”:

图片

所有类别的防御成功率全部超过了99%!这意味着面对绝大多数已知的越狱攻击手段,GPT-5-Codex几乎都能做到“油盐不进”,坚决守住安全底线。

对于一个编程AI来说,还有个更大的风险是被用来干坏事,比如开发恶意软件。这是一个典型的“双重使用”难题:用于内核开发的底层技术,也可能被用来制造病毒。如何精准打击恶意用途,又不误伤合法的、有益的开发工作?OpenAI为此下了一番苦功。他们专门针对恶意软件开发制定了更详细的策略和训练数据,甚至建立了一个合成数据管道,用来生成各种各样涉及恶意软件的场景,然后训练模型如何在这种情况下做出正确的反应:对高风险请求说“不”,对一些模棱两可的场景给出防御性建议,同时避免过度反应。

为了检验训练效果,他们搞了一个“恶意软件拒绝”的黄金测试集,结果GPT-5-Codex拿到了满分:

图片

另一个巨大的安全挑战,叫做“提示注入” (Prompt Injection)。简单来说,就是攻击者在AI处理的数据里(比如一段代码、一个网页内容)偷偷塞入恶意指令,试图“催眠”AI,让它听从自己的指挥。比如,让它泄露用户的代码库,或者在代码里偷偷植入一个后门。随着Codex的能力越来越强,可以访问网络,这个风险也越来越大。

为了应对这个问题,OpenAI采用了一个名为“指令层次结构”的框架,专门训练模型分清“敌我”,忽略那些来自不可信来源的恶意指令。他们还开发了一套专门的评估工具来测试模型的防御力。结果同样非常出色:

图片

GPT-5-Codex在生物、化学和网络安全这些高风险领域的评估结果也明确了。和GPT-5一样,沿用了所有为GPT-5设置的严格保障措施。而在网络安全领域,虽然它的能力比前辈更强了,但在经过安全咨询小组的严格评估后,结论是它尚未达到高能力风险的阈值。即便如此,OpenAI也已经在为未来更强大的模型提前布局,实施了包括额外监控和客户安全操作指南在内的多项保障措施。

GPT-5-Codex的安全体系可谓是武装到了牙齿。

全家桶升级,生态才是王道!

GPT-5-Codex作为核心引擎,驱动了整个Codex产品生态的“全家桶”式升级。从命令行工具到IDE插件,再到云服务和代码审查功能,OpenAI进行了一次彻头彻尾的革新,目的只有一个:让你在任何习惯的工作场景下,都能无缝、高效地与这位AI队友协作。

Codex CLI是开源的,在过去的几个月里吸收了大量来自社区的宝贵反馈。现在,它围绕着智能编码的工作流进行了彻底的重建。更新的亮点包括:

  • 可以直接在命令行里分享图片了。无论是屏幕截图、设计线框图还是架构图,直接发给它,就能建立共享的上下文,让它精准地理解你的意图。

  • 任务跟踪能力升级。在处理复杂工作时,Codex现在会用一个待办事项列表来跟进进度,并且更准确地使用网络搜索等工具去连接外部系统。

  • 终端界面更好看了。各种工具的调用和代码差异的显示格式都进行了优化,看起来更清晰、更舒服。而且,权限审批模式也简化成了三个级别,让你对AI的操作权限有更直观的控制。

  • 支持会话状态压缩,再也不怕对话太长导致管理混乱了。

想要体验?一行命令就搞定:


$ npm i -g @openai/codex

深度集成到开发流程中的Codex IDE扩展,把强大的Codex代理直接带进了VS Code、Cursor等主流编辑器中。这意味着你可以在最熟悉的环境里,与Codex一起编辑代码。在IDE里使用Codex最大的好处是,它可以利用你当前打开的文件、选中的代码等上下文信息,所以你只需要写很短的提示,就能获得极快且精准的结果。你可以在不离开编辑器的情况下,创建云端任务、跟踪进度、审查结果,甚至可以在IDE里直接打开云端的任务进行最后的修改,整个过程行云流水,无缝衔接。

图片

然后是Codex云服务。云端的Codex代理运行在OpenAI托管的隔离沙箱里,安全又强大。这次更新,OpenAI在幕后对云基础设施的性能做了巨大优化。通过缓存容器技术,他们把新任务和后续任务的平均完成时间缩短了整整90%!这极大地提升了用户体验。而且,Codex现在还会自动设置开发环境,通过扫描常见的设置脚本并执行它们,大大减少了程序员在环境配置上浪费的时间。再加上前面提到的视觉反馈能力,云端的Codex已经成为了一个能独立处理复杂前端任务的全能选手。

这次升级的一大杀器,就是代码审查功能。Codex现在拥有了经过专门训练、能够发现关键缺陷的代码审查能力。它和传统的静态分析工具完全不是一个物种。它会去理解你提交这个PR的真实意图,然后和实际的代码改动进行比对,它会推理整个代码库和所有依赖项,甚至会自己去运行代码和测试来验证行为的正确性。OpenAI自己坦言,只有最最顶尖和认真的那批人类审查者,才可能对每一个PR都投入如此大的精力。Codex的出现,就是为了填补这个空白,帮助团队更早地发现问题,减轻审查者的负担。

这个功能用起来也极其方便。你只要为你的GitHub仓库启用了它,每当一个PR从草稿状态变为准备就绪时,Codex就会自动下场进行审查,并把它的分析评论直接发布在PR下面。如果它提出了修改建议,你甚至可以直接在评论区里@它,让它帮你把代码改了。你也可以通过在PR里提及“@codex review”来手动触发审查,甚至可以给出更具体的指令,比如“@codex review for security vulnerabilities”(审查安全漏洞)。

图片

这个功能在OpenAI内部已经得到了大规模的应用和验证。现在,OpenAI绝大多数的PR都是由Codex来审查的,每天能捕获数百个问题,而且通常是在人类审查者介入之前。它已经成为Codex团队能够快速迭代、同时保持高质量的关键法宝。

从命令行到IDE,从云端到GitHub,OpenAI通过这次全家桶式的更新,将GPT-5-Codex的能力渗透到了软件开发生命周期的每一个环节。他们打造的不仅仅是一个工具,而是一个真正融入开发者工作流的、无处不在的智能编程生态系统。

当我们把GPT-5-Codex的技术细节、性能表现、安全措施和生态产品全部审视一遍后,一个清晰的结论浮现在眼前:这是AI辅助编程领域的一次革命性飞跃。

从独立“爆肝”7小时完成大型任务,到以近乎完美的准确率拒绝恶意请求;从大幅提升代码重构的效率,到以超越大多数人类审查者的深度进行代码审查,GPT-5-Codex展现了它的巨大价值。

参考资料:

https://openai.com/index/gpt-5-system-card-addendum-gpt-5-codex

https://openai.com/index/introducing-upgrades-to-codex

https://arxiv.org/abs/2402.10260

https://arxiv.org/abs/2404.13208

免责声明:本文来自算泥客户端,不代表超天才网的观点和立场。文章及图片来源网络,版权归作者所有,如有投诉请联系删除。

0 0 0
有话要说  人讨论    9 人阅读
发表

游客

这位投稿者太神秘了,什么都没留下~

超天才网©2017 www.supergenius.cn All Rights Reserved ICP备09005826号 京ICP证130304号

联系我们| 加入我们| 法律声明| 关于我们| 评论互动

超天才网©2013-2014 All Rights Reserved ICP备09005826号 京ICP证130304号

关注我们: