OpenAI要在聊天框里装下整个互联网，下一代操作系统就是ChatGPT？—

OpenAI要在聊天框里装下整个互联网，下一代操作系统就是ChatGPT？

发布时间:2025年10月09日来源：算泥作者：suani 浏览量：24

OpenAI 2025 DevDay 发布会上，奥特曼放出三大杀手锏。

试图将所有应用纳入对话框的 Apps SDK；统一开发标准的 AgentKit；以及面向企业深度定制的 Codex。

奥特曼正在搭建一个以自家大模型为绝对核心、封闭且极具掌控力的软件生态。

只需要一个聊天窗口就够了

普通用户，你现在可以直接在ChatGPT的聊天框里，和各种应用对话了。

这不是什么插件或者简单的链接跳转。

是你用说话的方式，让Canva帮你做个幻灯片，让Spotify给你推荐个歌单，或者让Zillow（美国房产信息平台）在地图上给你圈出几个符合预算的房子。

这些应用就好像活在你的聊天窗口里，听得懂你的话，直接给你一个可以交互的界面，地图，播放列表，或者幻灯片。一切都在聊天里发生。

这就是OpenAI刚刚发布的“聊天应用”功能。

第一批上线的合作伙伴名单很有分量：

Booking.com（缤客）

Canva（可画）

Coursera（在线课程平台）

Figma（在线设计工具）

Expedia（亿客行）

Spotify（声田）

还有前面提到的Zillow

这些应用覆盖了旅行，设计，学习，娱乐，生活服务等好几个领域。而且更多的应用正在接入：

比如，你旅途中要找一家酒店入住，对着ChatGPT说出你的入住需求，就自动给你匹配最近最令你满意的酒店，并通过Agentic Commerce Protocol⁠（智能体商业协议）自动下单。

你正在看Coursera的课程视频，看到一半有个概念没搞懂，可以直接在旁边问ChatGPT，它能结合视频内容给你解释。

或者你跟朋友聊到周末聚会，顺口说一句“Spotify，来个周五派对歌单”，它就给你创建好了。

这改变了我们和软件交互的方式，从点击图标，到开口说话。

这也让ChatGPT的用户们，可以在一个“系统”里，用最自然的方式，完成创造和学习。

对于开发者来说，这意味着一个拥有超过8亿用户的巨大流量入口。你开发的应用，能在最恰当的时机，出现在用户面前。

开发者怎么做出这样的聊天应用

很多开发者可能已经在摩拳擦掌了。想自己做一个这样的应用吗？

OpenAI把全套工具箱都给你准备好了，名字叫AgentKit。

过去你要是想开发一个Agent，过程相当痛苦。各种工具七零八落，流程复杂还没有版本控制，需要自己写各种连接器，评估流程全靠手动，调个提示词都得反复试验，好不容易把后端逻辑弄好了，光是写个前端界面就得花上好几个星期。

现在，AgentKit把这些麻烦事儿都打包解决了。

它提供了一整套工具，让你能像搭积木一样，可视化地构建，部署和优化你自己的Agent。

这里面有几个核心的大家伙。

第一个叫Agent Builder（智能体构建器）。

这是一个可视化的画布，你可以直接在上面用拖拽的方式，把各种逻辑节点和工具连接起来，组成一个完整的工作流。它支持预览运行，可以在线配置评估方案，还带完整的版本控制。

你可以从一张白纸开始，也可以用官方预设好的模板。

金融科技公司Ramp的团队就体验了一把，他们只用了几个小时，就从零开始做出了一个采购智能体。他们自己说，Agent Builder把过去需要几个月才能完成的复杂编排，自定义代码和手动优化工作，缩短到了几个小时。

更重要的是，这个可视化画布让产品，法务和工程团队能在同一个界面上沟通，迭代周期砍掉了70%，原本需要两个季度才能上线的项目，现在两个冲刺周期就搞定了。

第二个叫Connector Registry（连接器注册中心）。

企业里数据和工具的连接管理一直是个头疼的问题。这个注册中心就是为了解决这个问题的。管理员可以在一个统一的地方，管理所有数据和工具在OpenAI产品中的连接方式。不管是像Dropbox，谷歌云端硬盘，Sharepoint这些已经预设好的连接器，还是第三方的MCP工具，都能在这里统一管理。

第三个叫ChatKit（聊天套件）。

这是专门用来解决前端界面问题的。别小看一个聊天界面，要处理好流式响应，管理对话线程，展示模型的思考过程，设计出引人入胜的聊天内体验，其实非常复杂。

ChatKit把这些都封装好了，你只需要几行代码，就能把一个功能完备，外观还可以自定义的聊天机器人嵌入到你自己的网站或应用里。

HubSpot的客户支持智能体就是一个例子：

Canva的团队用它给自己的开发者社区做了个支持智能体，集成过程只花了一个小时，省了两周的前端开发时间。这个智能体能把枯燥的开发文档变成一个对话式的体验，让开发者更容易在Canva上构建应用。

日本的法律科技公司LegalOn也用ChatKit一天之内就开发出了一个人工智能智能体的用户界面，开发成本降低了80%。这个智能体能简化合规工作流程，帮客户节省大量时间。

除了这些，AgentKit还包含了很多其他公司的应用案例，比如Ramp，Albertsons，Evernote，Taboola等等，覆盖了从内部知识库，入职指南，到客户支持和研究智能体等各种场景。

企业级部署：让智能体更聪明，也更靠谱

有了建造的工具，还得有衡量和改进的方法。

一个可靠的，能上生产环境的智能体，离不开严格的性能评估。OpenAI去年就推出了Evals（评估平台），帮助开发者测试提示词和衡量模型行为。

现在，他们给Evals增加了四个新功能。

第一个是数据集（Datasets）。你可以从零开始快速构建智能体的评估集，并且通过自动评分和人工标注的方式，不断扩充它。

第二个是追踪评分（Trace grading）。你可以对智能体的整个工作流进行端到端的评估，并且通过自动评分来精确定位问题所在。

第三个是自动提示词优化（Automated prompt optimization）。系统可以根据人工标注和评分器的输出来自动生成更好的提示词。

第四个是支持第三方模型（Third-party model support）。你可以在OpenAI的Evals平台里，评估来自其他供应商的模型。

这些新功能已经显示出了威力。

比如投资公司Carlyle，利用评估平台，让他们在开发一个多智能体尽职调查框架时，开发时间缩短了50%以上，智能体的准确率提升了30%。

如果说Evals是体检和诊断，那么强化微调（Reinforcement fine-tuning，简称RFT）就是对症下药的深度治疗。

RFT能让开发者定制OpenAI的推理模型，目前在o4-mini模型上已经正式可用，在GPT-5模型上处于私测阶段。

这次，OpenAI又在RFT的测试版里加了两个新功能，专门用来进一步提升智能体的性能。

一个是自定义工具调用（Custom tool calls）。你可以训练模型在正确的时间，调用正确的工具，从而实现更好的推理能力。

另一个是自定义评分器（Custom graders）。你可以为你自己的应用场景，设定最重要的评估标准。

ChatKit和新的Evals功能已经对所有开发者开放。Agent Builder处于测试阶段，Connector Registry也开始向部分拥有全局管理控制台的API、ChatGPT企业版和教育版客户推出。

程序员的开发利器

对于程序员这个群体，OpenAI还有一个专门的大杀器，Codex。

现在，Codex也正式通用了（Generally Available），并且带来了三个让工程团队用起来更顺手的新功能。

一个是新的Slack（一款企业协作软件）集成。

你可以在团队的频道或者某个对话串里，直接@Codex，就像@一个同事一样，给它分配任务或者问问题。它会自动从对话中抓取上下文，选择合适的环境，然后回复一个指向Codex云端完成任务的链接。你可以合并它的修改，继续迭代，或者把任务拉到本地电脑上接着干。

第二个是Codex SDK（软件开发工具包）。

OpenAI不光发布了为Codex量身定做的GPT-5-Codex模型，还把驱动Codex命令行工具的那个开源智能体实现也开放了出来。通过这个SDK，你只需要几行代码，就能把这个经过优化的智能体，集成到你自己的工程工作流，工具和应用里，获得顶级的性能，而且不需要额外的微调。

官方还给出了一个TypeScript的示例代码：

import { Codex } from "@openai/codex-sdk";const agent = new Codex({});const thread = await agent.startThread();const result = await thread.run("Explore this repo");console.log(result);//resume threadconst result2 = await thread.run("Propose changes")console.log(result2);

同时发布的还有一个新的GitHub Action，可以方便地把Codex集成到CI/CD（持续集成/持续部署）流程里。

第三个是新的管理员工具。

ChatGPT的管理员现在可以编辑或者删除工作空间里的Codex云环境了，比如清理掉一些敏感信息或者没用的环境。他们还可以为本地使用Codex命令行工具和IDE扩展强制设定更安全的默认值。新的分析仪表盘也能帮助管理员追踪Codex在各个终端的使用情况，以及它提供的代码审查质量。

Codex正变得越来越可靠和强大。

自今年五月份以研究预览版发布以来，Codex的日均使用量增长了超过10倍。GPT-5-Codex模型也成了OpenAI有史以来增长最快的模型之一，上线三周就处理了超过40万亿个token。

在OpenAI内部，几乎所有工程师都在使用Codex，他们每周合并的拉取请求（Pull Request）数量增加了70%，而且几乎每一个拉取请求都会由Codex自动审查，在问题进入生产环境之前就把它揪出来。

思科的工程师用Codex来加速审查复杂的拉取请求，审查时间最多减少了50%。

生鲜配送平台Instacart则把Codex SDK集成到了他们自己的后台编码智能体平台Olive里。工程师可以一键启动远程开发环境，让Codex来编辑和测试代码修改。Codex会自动清理掉像无用代码和过期实验这样的技术债，提高代码质量。它还承担了大量重复性的，有明确规则的修改工作，大大加快了工程速度。

从聊天应用，到构建智能体的套件，再到为程序员量身定做的编程伙伴，OpenAI正在一步步地把ChatGPT从一个聊天机器人，变成一个无所不包的平台，一个全新的操作系统。

ChatGPT正在成为人们工作，创造和学习的起点。

参考资料：

https://openai.com/index/introducing-apps-in-chatgpt/

https://openai.com/index/introducing-agentkit/

https://openai.com/index/codex-now-generally-available/

免责声明：本文来自算泥客户端，不代表超天才网的观点和立场。文章及图片来源网络，版权归作者所有，如有投诉请联系删除。