OpenAI 在开发 GPT-5 过程中遭遇的种种困境,预示着整个行业 AI 进展的放缓。研究人员相信,强化学习领域的进步将有助于克服这一障碍。
• GPT-5 将展现出超越其前辈的实质性改进,但其性能上的提升将无法与早期 GPT 系列模型的性能飞跃相提并论。
• 今年,OpenAI 遭遇了一系列技术难题,使其 o3 及其他模型的研发一度陷入困境。
• 研究主管 Mark Chen 与一位副手之间的分歧在内部通讯工具 Slack 上被公之于众。
去年 12 月,OpenAI 公布了一项测试结果,在整个行业掀起波澜。结果显示,当投入更多时间和计算能力进行处理时,其人工智能在各项任务上的表现会更出色。这一结果似乎在暗示,ChatGPT 用户即将被新 AI 的强大能力所震撼。
但这份狂喜并未持续太久。
据两位参与开发的内部人士透露,当 OpenAI 的研究人员将这款新 AI 转化为一个名为 o3 的聊天版本,以便响应 ChatGPT 用户的指令时,公司此前公布的性能增益基本上烟消云散了。
这一事件恰恰是 OpenAI 今年以来所面临技术挑战的一个缩影,这些挑战不仅威胁着其 AI 技术的进步速度,甚至可能影响其轰动一时的 ChatGPT 业务。
不过,其研究人员已经找到了通过在全行业兴起的技术来保持 AI 进步的方法。
据使用过或熟悉该公司内部评估的人士透露,OpenAI 目前即将发布其下一代旗舰 AI 模型 GPT-5。该模型在完成实用的计算机编程和数学任务等方面,相较于现有模型有了显著提升。
例如,其中一位知情人士表示,当新模型编写应用程序代码时,它能更好地添加功能,使应用更易于使用、界面也更美观。
这位人士还说,GPT-5 在驱动 AI 智能体(AI agent)方面也比其前辈更胜一筹,这些 AI 智能体能在极少的人工监督下处理复杂任务。 例如,它能遵循复杂的指令,比如根据一系列规则来判断自动化客服 AI 智能体何时应该批准退款。
这位人士补充道,以前的模型需要通过学习多个棘手的客户案例(即所谓的“边缘案例”)才能处理这类退款请求。
其中一位知情人士表示,**这次的改进将无法与早期 GPT 系列模型之间的性能飞跃相提并论,比如 2020 年的 GPT-3 到 2023 年的 GPT-4 之间的巨大提升。**OpenAI 在过去 12 个月里经历的性能增益放缓表明,至少在 AI 能力方面,该公司可能难以大幅领先其最大的竞争对手。
然而,OpenAI 当前的模型通过驱动聊天机器人和其他应用程序已经创造了巨大的商业价值,因此任何改进,哪怕是渐进式的,都将增加客户需求。这些改进也可能给新投资者带来信心,支持该公司在未来三年半内烧掉 450 亿美元的计划,用于租赁昂贵的服务器来开发和运行其产品。
最新的进展也有助于解释,为何 OpenAI 的高管们在最近几周向一些投资者表示,他们相信公司能够实现“GPT-8”。
这些言论与首席执行官 Sam Altman 的公开表态一致,他认为利用现有的技术知识,OpenAI 可以实现创造出能力接近或等同于最聪明人类的 AI 的目标。这项技术也被称为通用人工智能(AGI)。
尽管距离 AGI 还很遥远,但即将推出的 GPT-5 模型除了在编码和推理方面更出色外,可能还具备其他吸引人的特质。据一位了解情况的微软员工透露微软(Microsoft)——拥有 OpenAI 知识产权的独家授权——的一些领导告诉员工,他们对该模型的测试表明,它能在不大幅增加计算能力消耗的情况下,生成更高质量的代码和其他基于文本的答案。
这位人士说,这部分是因为它比以前的模型更能判断出哪些任务需要相对更多或更少的计算资源。
在劲敌 Anthropic 去年在开发和向软件开发者及 Cursor 等编程助手销售此类模型方面取得领先后,提升 AI 自动化编程任务的能力成为了 OpenAI 的一个优先事项,根据 OpenAI 的内部评估。OpenAI 的员工认为,自动化编程不仅对公司的业务至关重要,而且对于自动化 AI 研究人员自身的工作也至关重要。
OpenAI 的进展并非一帆风顺,其研究人员和管理层今年都面临着新的压力。
尽管微软通过合同在 2030 年前拥有相关权利,但一些高级研究人员仍然抵制将他们的发明成果交给 OpenAI 最大的外部股东——微软。
这两家公司有着紧密的财务关系,但双方在合作协议的条款上一直存在争议,随着 OpenAI 试图重组其营利性部门以便最终上市,双方都在寻求对方做出让步。
据两位与谈判人员交谈过的人士透露,微软与 OpenAI 之间的讨论正朝着积极的方向发展。尽管许多谈判要点仍悬而未决,但其他一些似乎已经尘埃落定。例如,据其中一位知情人士称,作为重组的一部分,微软很可能获得 OpenAI 营利性部门约 33% 的股权。
最近,Meta Platforms 已经从 OpenAI 挖走了十多名研究人员,其中一些人曾参与公司近期用于改进技术的方法研究。 Meta 以堪比顶级足球明星的薪酬方案成功吸引了他们。
人员流失及为此进行的员工重组给 OpenAI 的高层带来了压力。上周,OpenAI 研究副总裁 Jerry Tworek 在公司内部的 Slack 应用上向他的上司、研究主管 Mark Chen 抱怨了一项团队变动,而这一交流对许多其他同事都是可见的。
Tworek 表示他需要休假一周来重新评估情况,但后来他最终没有休假。
公司在业务上的进展掩盖了内部对其能否持续改进 AI 并保持领先于谷歌、埃隆·马斯克的 xAI 和 Anthropic 等资金雄厚的竞争对手的担忧。
在今年开始之前,问题已经酝酿了数月。在 2024 年下半年的大部分时间里,OpenAI 都在开发一个内部代号为“Orion”(猎户座)的模型,该模型原计划成为 GPT-5。据参与该项目的人士透露,Orion 的目标是实现比当年 5 月发布的现任旗舰模型 GPT-4o 更大的性能飞跃。
但 Orion 项目最终未能产出更优的模型,公司不得不在今年 2 月将其作为 GPT-4.5 发布。 此后,它便淡出了人们的视线。
失败的部分原因在于预训练的局限性。预训练是模型开发的第一阶段,模型在此阶段处理来自网络和其他来源的数据,以便建立概念之间的联系。
据两位知情人士透露,OpenAI 不仅面临着高质量网络数据日益枯竭的问题,研究人员还发现,他们对模型进行的调整在模型规模较小时有效,但随着模型规模的扩大却失效了。
“据一位参与开发的人士透露,就在今年 6 月,技术问题意味着 OpenAI 正在开发的模型中,没有一个看起来足够好到可以被命名为 GPT-5。”
OpenAI 的研究人员还面临其他问题。
去年,该公司还开发了推理模型,这些模型在获得更多计算能力来处理答案时表现更佳。这些模型源于 2023 年末一项名为 Q* 的突破,该突破曾在其研究人员中引起震动,因为它能解决从未见过的数学问题。到 2024 年,推理模型似乎帮助公司克服了预训练期间性能增益放缓的问题。
去年秋天,OpenAI 将第一个主要的推理模型转化为 o1,这是一个可以出售给应用开发者并用于驱动 ChatGPT 内部对话的版本。
这次发布为 OpenAI 在 AI 领域赢得了新的影响力,并为开发依赖推理模型以在极少人工监督下处理任务的 AI 智能体奠定了基础。
据一位参与开发的人士透露,在 2024 年底之前,OpenAI 使用了与 o1 基础相同的大语言模型 GPT-4o,创建了下一个推理模型 o3。
这位人士表示,尽管它们血缘相同,但 o3 的父模型——也被称为“教师模型”——在理解各种科学及其他领域方面,相较于 o1 的父模型取得了非凡的进步。
据两位参与其中的人士透露,改进的原因之一是 OpenAI 决定使用更多的英伟达芯片服务器来开发 o3 的父模型,这实际上是给了它更多的处理能力来理解困难的概念。 另一位人士说,另一个原因是研究人员赋予了它搜索网络或从代码库中提取信息的能力,这也帮助它超越了 o1 的父模型。
o3 的父模型,与 o1 的父模型类似,也受益于强化学习。在这种方法中,人类专家在生物学、软件工程和医学等领域提出难题和答案,然后要求模型针对这些问题生成数千个自己的回答。
随后,OpenAI 用那些与人类专家得出相同答案的回答来训练模型。(这些由 AI 生成的回答也被称为合成数据。)
当 OpenAI 公开分享该模型在专门测试中的优异表现结果时,它登上了世界各地的新闻头条,并在社交媒体上引发了病毒式热潮。但随后,现实的考验来临了。
据参与开发的知情人士称,当 OpenAI 将 o3 的父模型转换为一个聊天的版本——也称为“学生模型”,允许人们向它提问任何问题时,其性能增益显著下降,以至于表现并不比 o1 好多少。
他们表示,当 OpenAI 创建一个公司可以通过应用程序编程接口(API)购买的模型版本时,也出现了同样的问题。
其中一位人士解释说,原因之一在于该模型理解概念的独特方式,这可能与人类的交流方式不同。创建聊天版本实际上是把这个原始的、天才级别的模型“降维”了,因为它被迫用人类的语言而不是它自己的语言进行交流。 推理模型在 ChatGPT 中“思考”如何解决问题时偶尔显示的“乱码”就反映了这种交流上的差异。
据另一位参与者称,公司也没有足够重视训练模型如何以聊天方式与人类良好沟通。
尽管性能有所下降,OpenAI 今年公开发布的 o3 推理模型还是帮助了核聚变和病原体检测等领域的科学家提出了新的假设和实验方案以供测试。
尽管如此,大语言模型和基于聊天的推理模型的进展并未达到 OpenAI 领导和研究人员的预期。o 系列模型似乎也让 ChatGPT 的用户感到困惑,因此 Altman 告诉员工,公司决定回归使用 GPT 的命名惯例。
据一位曾参与开发的人士透露,就在今年 6 月,技术问题意味着 OpenAI 正在开发的模型中,没有一个看起来足够好到可以被命名为 GPT-5。
但 OpenAI 仍有锦囊妙计:据一位熟悉这项工作的人士说,他们一直在开发一种被研究人员称为“通用验证器”的工具,该工具能自动化地确保模型在强化学习(RL)过程中产生高质量的答案。
这个过程本质上是让一个大语言模型承担检查和评分另一个模型答案的工作,它会利用各种来源来研究和核实这些答案。
今年夏天早些时候,在 OpenAI 的一个模型赢得了一场艰难的数学竞赛后,公司高级研究员 Alexander Wei 在 X 上表示,他们一直使用的强化学习方法是“通用的”,这意味着它也可以验证更主观类别(如创意写作)答案的质量。
这些进步似乎帮助了 OpenAI 开发 GPT-5,该模型在软件编程等更容易验证的领域(正确答案可以轻松核对)和创意写作等更主观的领域都显示出了改进。
包括 xAI 和谷歌在内的行业其他公司,也加倍投入将强化学习作为一种有前途的技术来改进 AI 模型。领导 OpenAI 强化学习团队的 Tworek 最近公开评论表示,他同意 OpenAI 模型背后的强化学习系统实际上就是构成通用人工智能(AGI)的观点。
当 OpenAI 发布 GPT-5 时,它将承载极高的期望。上周,Altman 在与喜剧演员 Theo Von 的播客节目中进一步点燃了人们对 GPT-5 能力的期待,他解释了该模型如何轻松地回答了一个他自己都无法理解的问题。
“GPT-5 在几乎所有方面都比我们更聪明,”他说。
免责声明:本文来自宝玉AI客户端,不代表超天才网的观点和立场。文章及图片来源网络,版权归作者所有,如有投诉请联系删除。