OpenAI 2025 DevDay 发布会上,奥特曼放出三大杀手锏。
试图将所有应用纳入对话框的 Apps SDK;统一开发标准的 AgentKit;以及面向企业深度定制的 Codex。
奥特曼正在搭建一个以自家大模型为绝对核心、封闭且极具掌控力的软件生态。
普通用户,你现在可以直接在ChatGPT的聊天框里,和各种应用对话了。
这不是什么插件或者简单的链接跳转。
是你用说话的方式,让Canva帮你做个幻灯片,让Spotify给你推荐个歌单,或者让Zillow(美国房产信息平台)在地图上给你圈出几个符合预算的房子。
这些应用就好像活在你的聊天窗口里,听得懂你的话,直接给你一个可以交互的界面,地图,播放列表,或者幻灯片。一切都在聊天里发生。
这就是OpenAI刚刚发布的“聊天应用”功能。
第一批上线的合作伙伴名单很有分量:
Booking.com(缤客)
Canva(可画)
Coursera(在线课程平台)
Figma(在线设计工具)
Expedia(亿客行)
Spotify(声田)
还有前面提到的Zillow
这些应用覆盖了旅行,设计,学习,娱乐,生活服务等好几个领域。而且更多的应用正在接入:
比如,你旅途中要找一家酒店入住,对着ChatGPT说出你的入住需求,就自动给你匹配最近最令你满意的酒店,并通过Agentic Commerce Protocol(智能体商业协议)自动下单。
你正在看Coursera的课程视频,看到一半有个概念没搞懂,可以直接在旁边问ChatGPT,它能结合视频内容给你解释。
或者你跟朋友聊到周末聚会,顺口说一句“Spotify,来个周五派对歌单”,它就给你创建好了。
这改变了我们和软件交互的方式,从点击图标,到开口说话。
这也让ChatGPT的用户们,可以在一个“系统”里,用最自然的方式,完成创造和学习。
对于开发者来说,这意味着一个拥有超过8亿用户的巨大流量入口。你开发的应用,能在最恰当的时机,出现在用户面前。
很多开发者可能已经在摩拳擦掌了。想自己做一个这样的应用吗?
OpenAI把全套工具箱都给你准备好了,名字叫AgentKit。
过去你要是想开发一个Agent,过程相当痛苦。各种工具七零八落,流程复杂还没有版本控制,需要自己写各种连接器,评估流程全靠手动,调个提示词都得反复试验,好不容易把后端逻辑弄好了,光是写个前端界面就得花上好几个星期。
现在,AgentKit把这些麻烦事儿都打包解决了。
它提供了一整套工具,让你能像搭积木一样,可视化地构建,部署和优化你自己的Agent。
这里面有几个核心的大家伙。
第一个叫Agent Builder(智能体构建器)。
这是一个可视化的画布,你可以直接在上面用拖拽的方式,把各种逻辑节点和工具连接起来,组成一个完整的工作流。它支持预览运行,可以在线配置评估方案,还带完整的版本控制。
你可以从一张白纸开始,也可以用官方预设好的模板。
金融科技公司Ramp的团队就体验了一把,他们只用了几个小时,就从零开始做出了一个采购智能体。他们自己说,Agent Builder把过去需要几个月才能完成的复杂编排,自定义代码和手动优化工作,缩短到了几个小时。
更重要的是,这个可视化画布让产品,法务和工程团队能在同一个界面上沟通,迭代周期砍掉了70%,原本需要两个季度才能上线的项目,现在两个冲刺周期就搞定了。
第二个叫Connector Registry(连接器注册中心)。
企业里数据和工具的连接管理一直是个头疼的问题。这个注册中心就是为了解决这个问题的。管理员可以在一个统一的地方,管理所有数据和工具在OpenAI产品中的连接方式。不管是像Dropbox,谷歌云端硬盘,Sharepoint这些已经预设好的连接器,还是第三方的MCP工具,都能在这里统一管理。
第三个叫ChatKit(聊天套件)。
这是专门用来解决前端界面问题的。别小看一个聊天界面,要处理好流式响应,管理对话线程,展示模型的思考过程,设计出引人入胜的聊天内体验,其实非常复杂。
ChatKit把这些都封装好了,你只需要几行代码,就能把一个功能完备,外观还可以自定义的聊天机器人嵌入到你自己的网站或应用里。
HubSpot的客户支持智能体就是一个例子:
Canva的团队用它给自己的开发者社区做了个支持智能体,集成过程只花了一个小时,省了两周的前端开发时间。这个智能体能把枯燥的开发文档变成一个对话式的体验,让开发者更容易在Canva上构建应用。
日本的法律科技公司LegalOn也用ChatKit一天之内就开发出了一个人工智能智能体的用户界面,开发成本降低了80%。这个智能体能简化合规工作流程,帮客户节省大量时间。
除了这些,AgentKit还包含了很多其他公司的应用案例,比如Ramp,Albertsons,Evernote,Taboola等等,覆盖了从内部知识库,入职指南,到客户支持和研究智能体等各种场景。
有了建造的工具,还得有衡量和改进的方法。
一个可靠的,能上生产环境的智能体,离不开严格的性能评估。OpenAI去年就推出了Evals(评估平台),帮助开发者测试提示词和衡量模型行为。
现在,他们给Evals增加了四个新功能。
第一个是数据集(Datasets)。你可以从零开始快速构建智能体的评估集,并且通过自动评分和人工标注的方式,不断扩充它。
第二个是追踪评分(Trace grading)。你可以对智能体的整个工作流进行端到端的评估,并且通过自动评分来精确定位问题所在。
第三个是自动提示词优化(Automated prompt optimization)。系统可以根据人工标注和评分器的输出来自动生成更好的提示词。
第四个是支持第三方模型(Third-party model support)。你可以在OpenAI的Evals平台里,评估来自其他供应商的模型。
这些新功能已经显示出了威力。
比如投资公司Carlyle,利用评估平台,让他们在开发一个多智能体尽职调查框架时,开发时间缩短了50%以上,智能体的准确率提升了30%。
如果说Evals是体检和诊断,那么强化微调(Reinforcement fine-tuning,简称RFT)就是对症下药的深度治疗。
RFT能让开发者定制OpenAI的推理模型,目前在o4-mini模型上已经正式可用,在GPT-5模型上处于私测阶段。
这次,OpenAI又在RFT的测试版里加了两个新功能,专门用来进一步提升智能体的性能。
一个是自定义工具调用(Custom tool calls)。你可以训练模型在正确的时间,调用正确的工具,从而实现更好的推理能力。
另一个是自定义评分器(Custom graders)。你可以为你自己的应用场景,设定最重要的评估标准。
ChatKit和新的Evals功能已经对所有开发者开放。Agent Builder处于测试阶段,Connector Registry也开始向部分拥有全局管理控制台的API、ChatGPT企业版和教育版客户推出。
对于程序员这个群体,OpenAI还有一个专门的大杀器,Codex。
现在,Codex也正式通用了(Generally Available),并且带来了三个让工程团队用起来更顺手的新功能。
一个是新的Slack(一款企业协作软件)集成。
你可以在团队的频道或者某个对话串里,直接@Codex,就像@一个同事一样,给它分配任务或者问问题。它会自动从对话中抓取上下文,选择合适的环境,然后回复一个指向Codex云端完成任务的链接。你可以合并它的修改,继续迭代,或者把任务拉到本地电脑上接着干。
第二个是Codex SDK(软件开发工具包)。
OpenAI不光发布了为Codex量身定做的GPT-5-Codex模型,还把驱动Codex命令行工具的那个开源智能体实现也开放了出来。通过这个SDK,你只需要几行代码,就能把这个经过优化的智能体,集成到你自己的工程工作流,工具和应用里,获得顶级的性能,而且不需要额外的微调。
官方还给出了一个TypeScript的示例代码:
import { Codex } from "@openai/codex-sdk";
const agent = new Codex({});
const thread = await agent.startThread();
const result = await thread.run("Explore this repo");
console.log(result);
//resume thread
const result2 = await thread.run("Propose changes")
console.log(result2);
同时发布的还有一个新的GitHub Action,可以方便地把Codex集成到CI/CD(持续集成/持续部署)流程里。
第三个是新的管理员工具。
ChatGPT的管理员现在可以编辑或者删除工作空间里的Codex云环境了,比如清理掉一些敏感信息或者没用的环境。他们还可以为本地使用Codex命令行工具和IDE扩展强制设定更安全的默认值。新的分析仪表盘也能帮助管理员追踪Codex在各个终端的使用情况,以及它提供的代码审查质量。
Codex正变得越来越可靠和强大。
自今年五月份以研究预览版发布以来,Codex的日均使用量增长了超过10倍。GPT-5-Codex模型也成了OpenAI有史以来增长最快的模型之一,上线三周就处理了超过40万亿个token。
在OpenAI内部,几乎所有工程师都在使用Codex,他们每周合并的拉取请求(Pull Request)数量增加了70%,而且几乎每一个拉取请求都会由Codex自动审查,在问题进入生产环境之前就把它揪出来。
思科的工程师用Codex来加速审查复杂的拉取请求,审查时间最多减少了50%。
生鲜配送平台Instacart则把Codex SDK集成到了他们自己的后台编码智能体平台Olive里。工程师可以一键启动远程开发环境,让Codex来编辑和测试代码修改。Codex会自动清理掉像无用代码和过期实验这样的技术债,提高代码质量。它还承担了大量重复性的,有明确规则的修改工作,大大加快了工程速度。
从聊天应用,到构建智能体的套件,再到为程序员量身定做的编程伙伴,OpenAI正在一步步地把ChatGPT从一个聊天机器人,变成一个无所不包的平台,一个全新的操作系统。
ChatGPT正在成为人们工作,创造和学习的起点。
参考资料:
https://openai.com/index/introducing-apps-in-chatgpt/
https://openai.com/index/introducing-agentkit/
https://openai.com/index/codex-now-generally-available/
免责声明:本文来自算泥客户端,不代表超天才网的观点和立场。文章及图片来源网络,版权归作者所有,如有投诉请联系删除。