2025 年是公认的智能体元年,眼看着 2025 年都快要结束了,那么这些 AI Agent 到底能帮我们干多少有经济价值的活儿?
我也好奇这个问题,这篇文章倒是给了我部分答案。
Surge AI 做了个有趣的测试:他们"雇"了 9 个 AI 模型,包括最新的 GPT-5 和 Claude Sonnet 4.5,让它们在一个模拟的电脑配件公司 (叫 Corecraft) 里当客服,处理 150 个真实任务。
还挺合理的,客服确实是写代码之外最普遍的 Agent 落地场景了。
猜猜结果如何?
各个模型的能力排行上,跟我预期差不多,最强的是 GPT-5 和 Claude Sonnet 4.5(不知道 Claude Opus 4.1 会不会好一点)。
模型能力上,比我预期的还好一点点,最强的 GPT-5 和 Claude Sonnet 4.5,有超过 40% 的智能体任务失败了,反过来说成功率有 50% 多了。
这篇文章有价值的地方不仅仅是他们做了测试和打分,而且提出了一个相对比较科学的框架,叫"Agent 能力金字塔" (Hierarchy of Agentic Capabilities)。
(参考图1,还标注了当前这些模型大概处在金字塔的什么位置)。
第一级:基本功 (工具使用 + 规划)
这是金字塔的底座。你总得会用公司的系统,能看懂任务吧?
比如,任务是"查找 SkyForge X670E Pro 这个主板的订单"。 弱一点的模型 (比如 GPT-4o) 会直接把"SkyForge X670E Pro"这个产品名,塞进"product_id" (产品ID) 的搜索框里。
这就像实习生把客户的姓名输到了订单号栏位。当然啥也查不到。
第二级:适应性(Adaptability) (计划赶不上变化)
OK,你现在会用工具了。但如果系统跟你"耍脾气",你该怎么办?
比如,任务是查"Vortex Labs"这个牌子的显卡。 中等模型 (像 Gemini 2.5) 搜了,返回 0 个结果。它们就直接跟客户说:"抱歉,我们不卖这个。"
但 Claude 4.5 就聪明一点。它会想:"咦,是不是系统里没空格?" 于是它试着搜 "VortexLabs" (没空格),哎,这不就搜到了吗?
这就是适应性。计划 A 失败了,你得有 Plan B。
第三级:抓地力(Groundedness) (别胡编乱造)
Groundedness 这个词很妙,意思就是“你还记不记得上下文?”“你有没有产生幻觉?” AI在多步骤任务里,特别容易产生幻觉。
这层要求你"活在当下",别瞎编,别忘了你是谁,你在哪。
比如,系统提示里写着"今天是 2025 年"。 有的模型 (像 Kimi K2) 转头就去搜 2024 年的订单。
更夸张的是 Claude,它在查客户时,自己"编"了一个根本不存在的 email 地址拿去搜。
这就叫"抓地力"了。这种 AI Agent 你敢用吗?
第四级:常识推理 (真正的"智能")
这是金字塔的塔尖,也是 GPT-5 这次栽跟头的地方。
这已经不是"会不会用工具"的问题了,而是"够不够聪明"。
文章举了几个 GPT-5 失败的例子,都特别经典:
所以,回到最初的问题。 2025年是“Agent 元年”,不是说我们已经有了能干活的通用 Agent。
而是我们终于有了能通过前三层"足够好"的 AI,好到让我们能开始测试它们在第四层 (常识) 上到底有多笨。
就像图2 那样,“常识”这一层,还有得爬呢!
原文:RL Environments and the Hierarchy of Agentic Capabilities
来源: https://surgehq.ai/blog/rl-envs-real-world
2025 年是“智能体之年”,AI 已经走出聊天框,开始迈入现实世界。但我们真的快要有通用的智能体了吗?还是说这仍是十年后的梦想?那个价值万亿美金的问题是:这些 AI 智能体 (AI Agent) 到底能完成多少有经济价值的工作?
为了回答这个问题,我们对模型的训练和评估方式已经变了:不再是给单个回复打分,而是评估它使用工具执行多步骤任务的能力。对于参与测试和后期训练的人来说,2025 年是 RL 环境 (RL environments) 之年:这是一个个虚拟世界,模型可以在其中行动、实验,并通过逼真的多步骤任务进行学习。(RL 指的是强化学习 Reinforcement Learning,这是一种让 AI 通过试错和获得“奖励”来学习的训练方法)。
我们“雇佣”了 9 个 AI 模型,在我们的一个 RL 环境中执行了 150 项任务。结果如下:
即使是 GPT-5 和 Claude Sonnet 4.5,在我们的 RL 环境中,也失败了超过 40% 的智能体任务。
两件事显而易见:
原始分数告诉了我们谁赢了,但没有告诉我们 为什么,以及我们该如何进步。要理解这些结果对现实世界智能体的真正启示,我们得先看看一个逼真的 RL 环境是如何被构建——或者更准确地说,是如何被“培育”出来的。
每个 RL 环境都需要三样东西:
要想把模型训练成合格的“虚拟同事”,这些环境需要植根于真实打工人的经验,而不是抽象的模拟。并且,现实世界的复杂系统不是自上而下设计出来的,它们是逐渐演化出来的。
RL 环境的一大优点是,它们天然就体现了这一思想。一旦框架搭建好,一个由专家贡献者组成的多元化社区就可以有机地“培育”它。
我们的环境就是这么来的:在一个确保关系和属性连贯的框架内,拥有专业领域知识的“Surgers”(指本文作者公司 Surge AI 的贡献者) 会根据他们自己的经验,往这个世界里填充逼真的实体和任务,从而“培育”这个世界。
换句话说,这些智能体所训练的环境,正是由那些它们未来要辅助的人类同事亲手塑造的。
我们的 RL 环境之一是 Corecraft 公司,这是一家在线零售商,专卖高性能 PC 零件和定制电脑。这个“世界模型”就是公司本身,它的“实体”包括客户、订单、支持工单,以及所有维持运营的记录。
这次测试结果中,智能体扮演的角色是“客服专员”,帮助客户和员工处理任务。这些任务五花八门,从简单的产品查询、政策提问,到需要理解不同系统如何交互的、多步骤的操作流程。
一个非常简单的任务可能是: 2025 年 7 月有多少笔退款?
而一个更复杂的任务是: 一位客户下单一台游戏电脑,但我在最后审核时收到了兼容性警告。他们订购了 ZentriCore Storm 6600X CPU 和 SkyForge B550M Micro 主板,还有 32GB 的 HyperVolt DDR5-5600 内存。系统提示不兼容。你能帮我找出问题所在,并给出最便宜的解决方案吗?
为什么选择客服?因为尽管最耀眼的 AI 应用大多在高级研发领域,但 AI 的巨大经济价值很可能来自解决日常工作。此外,由于这个角色涵盖了各种难度和类型的任务,它是一个完美的试验场,能帮我们理解在现实世界中,一个智能体(无论什么角色)到底需要具备哪些基石能力。
当我们分析模型们在这个岗位上的工作轨迹时,我们注意到同样的失败模式一再出现,但并非随机。每个模型的“翻车点”都倾向于集中在某个能力水平上,这揭示了一个自然的能力层级(或称金字"塔"):AI 智能体必须先熟练掌握前一层,才能在开放环境中连贯地运作。
我们称这个框架为 智能体能力金字塔 (Hierarchy of Agentic Capabilities),如下图所示(图中也标出了我们认为当前模型处于金字塔的哪个位置)。
智能体能力金字塔,从工具使用到常识推理,以及 AI 模型目前所处的位置。
位于金字塔底座的是基础能力:工具使用、目标设定和基础规划。往上是更高阶的能力,如适应性和“接地气” (groundedness): 这些技能让模型能在不可预测的、混乱的现实环境中,保持对上下文的把握并随时调整。只有当模型高度熟练掌握了这些基础能力后,它才能开始展现出类似常识推理 (common-sense reasoning) 的东西:即能对从未见过的情况做出合理推断的能力,这是通用智能的核心组成部分。
当然,这个金字塔只是一个初步的划分。在实践中,模型的发展并非如此线性。这些能力相互重叠、相互促进,并持续并行进化。而且,达到“高度熟练”不等于“完美”:GPT-5 和 Claude Sonnet 4.5 偶尔也会在基础的工具使用上“翻车”,就像最优秀的高尔夫球手有时也会推丢一个简单的球。重要的是,它们已经足够稳定,让我们的关注点可以转移到更高阶的技能上。
从这个角度来看,划分这些层次的目的不是要强制一个僵化的顺序,而是为了诊断:我们在哪些方面取得了扎实的进展,哪些基础工作仍需努力。
这个金字塔最底层的地基,是判断一个模型是否能可靠地使用工具来实现特定目标。再往上一步,是它能否将一个任务分解为有意义的目标,并制定一个多步骤计划来完成它们。
做不到这一点的模型,不能叫“智能体”;它们顶多是“能用工具的聊天机器人”。
我们看到 GPT-4o、Mistral Medium 和 Nova Pro 就停留在这个层次。
要想成功完成最基础的智能体任务,模型需要能持续做到几件事:
我们发现,那些较弱的模型无法可靠地完成这四点,这意味着即使是简单的智能体任务,对它们来说也像是在“掷骰子”——全凭运气。
在一个任务中,这三个模型都犯了基础的工具使用错误,它们没能把提示里的信息合理地填入工具参数,或者干脆没能正确遵循 MCP 模式 (MCP schema,可以理解为模型调用工具时必须遵守的“技术格式规范”)。
任务: 找出所有“黄金”或“白金”忠诚度等级的客户,条件是他们还有“未解决的”且“高优先级的”支持工单。
以下是 Nova Pro 的尝试:
https://baoyu.io/uploads/2025-11-13-69096358dc70396c3951b173_860345cc.png
“gold” (黄金) 显然不是客户 ID!
GPT-4o 倒是先正确搜索了“黄金”和“白金”等级的客户,但在搜索“高优先级”工单时犯了一个基础的工具错误:
它试图把 “high” (高) 传给 “status” (状态) 参数,想以此找到高优先级的工单…… 这么做也许勉强能原谅,但问题是,明明有另一个参数就叫 “priority” (优先级)。
Mistral Medium 在搜索客户时就失败了,它把一个数组(array)传给了 “customer_id”:
这纯粹是没遵守 MCP 模式,那个规范里清楚地定义了:这个参数需要的是一个字符串 (string)。
在另一个例子中,这三个模型都在“制定和执行计划”上栽了跟头。
任务提示: SkyForge X670E Pro 这款产品被召回了。请给我一个列表,列出在 2025 年 8 月订购了该产品、且订单状态为“已履行”(fulfilled)、“已支付”(paid) 或“待处理”(pending) 的客户姓名。
正确的工作流程是:
Nova Pro 和 Mistral Medium 都在第一步就失败了;它们直接跳到了第二步,把产品名称(一个字符串)直接传给了 “product_id” (产品ID) 参数:
这表明它们没有正确推理“提示中给的信息”和“工具参数想要的信息”之间的关系。虽然我们无法确知模型到底在“想”什么,但它们的行为表明:它们似乎是选中了它们认为能一步到位的那个工具,然后把手头的数据硬塞进了那个工具看起来最 plausible (最像) 的参数里。
事实上,它们本应考虑所有可用的工具,确定哪些参数与它们 实际拥有 的信息相匹配,并规划如何 组合 这些工具来得出正确结果。
GPT-4o 做得稍好一点。它正确地找到了产品 ID:
然后去搜索订单:
然而,它只搜索了 “fulfilled” (已履行) 的订单,完全忘记了还有 “paid” (已支付) 和 “pending” (待处理) 的订单。
这又是一个简单的规划失败,遗漏了关键的“小目标”。
当然,这只是几个例子。错误使用工具或无法制定执行计划的方式有无数种。但这类基础错误,是那些没有针对“智能体行为”进行过训练的模型的典型表现。在模型能够可靠地推理工具、并将简单任务分解为小目标之前,去评估它们在智能体环境下的通用推理能力,是毫无意义的。
这就引出了下一步,当模型学会了制定计划和使用工具之后。
恭喜,模型会做计划了。但现在,世界拒绝合作。欢迎来到“适应性”层:当现实打脸时,你得会更新计划。
即使模型能正确推理工具了,也不代表万事大吉。有时工具的文档可能写得不对,或者存在歧义,又或者模型需要更多信息才能制定完整的计划。当遇到意外结果时,能够及时调整、中途修改计划,是必须掌握的下一个技能。
目前的 Gemini 2.5 和 Qwen3 (通义千问3) 模型经常在这里出问题。它们执行了一系列合理的工具调用,但当某个步骤出错时,它们往往毫无反应。
举个例子: “你好,我是 Penny Whitcomb。我想升级我的显卡,我通常用 Vortex Labs 这个牌子。你能帮我查查 RX820L 或 RX780 和我上一单的零件是否兼容吗?顺便告诉我一下这两款各需要多少钱?”
正确的工作流程是:
当接到这个任务时,Gemini 2.5 Flash、Gemini 2.5 Pro 和 Qwen3 Max 都执行了正确的工具调用顺序。然而,当它们进行到第 3 步时,全都遇到了同一个问题:
它们在搜索这两款显卡时,什么也没搜到。原因很简单。它们在 “brand” (品牌) 参数里填的是 “Vortex Labs” (中间有空格)。而实际上,系统里存的品牌名是 “VortexLabs” (没有空格)。
我们应该期望模型提前知道这一点吗?当然不。问题在于 接下来 发生的事情。这三个模型都没有意识到出了问题,也没有尝试别的策略,而是把“空结果”当成了事实,然后回复客户说 Corecraft 公司不卖这些显卡。
相比之下,看看 Claude Sonnet 4.5 遇到同样问题时的表现,它 适应 了情况,并当场尝试了不同的搜索方法:
我们可以看到 Claude 在主动适应情况,尝试不同的搜索参数。这正是人类会做的事。
那些较弱的模型虽然计划是对的,但它们“一条道走到黑”,遇到问题时不知道变通。在现实世界的任务中,适应和尝试不同方法是至关重要的,因为事情很少会第一次就完全按计划进行。
“接地气” (Groundedness) 是下一类失败——即模型始终“紧贴”当前上下文的能力:不“幻觉”(即凭空捏造) 出 ID,不“跑题”,不捏造脱离现实的“事实”。
尽管 Kimi K2 Turbo (Kimi 智能助手的 K2 Turbo 模型) 在规划和适应性上比 Qwen3 Max 和 Gemini 模型要强,但它在“接地气”、保持上下文一致性方面存在严重问题。
例如,系统提示的第一行明确写着:
尽管如此,Kimi 在调用工具时还是经常搞错年份。当被要求查找 8 月 25 日至 31 日的订单时,Kimi 搜索的是 2024 年的订单:
然后,在给出最终回复时,Kimi 又切换回了 2025 年!
此外,虽然 Claude Sonnet 4.5 总体表现惊艳,但它在“接地气”方面仍然存在一些明显的问题,这也是它与 GPT-5 之间的一个主要差距。
在一个例子中,Claude 明显“游离”了上下文,但它随后又设法“自我纠正”了。Claude 需要查找在 9 月 30 日之前订购了产品、但尚未发货的客户的详细信息。在正确找到了一个相关订单后:
Claude 接着试图用一个明显是 捏造 出来的电子邮件地址去搜索客户详情:
然而,当这次尝试失败后,Claude 确实设法自我纠正了,再次显示了它强大的适应性:
虽然 Claude 这种适应和修复错误的能力令人印象深刻,但它难以“锚定”在当前上下文中的问题,对于任何期望在现实中运作的智能体来说,都是一个隐患。
另一个例子表明,更微妙的“不接地气”问题更难被发现,并且在某些情况下,会悄悄溜进最终答案。
Claude 被要求查找支持工单并报告它们的优先级。它正确地调用了工具来查找所有“普通”(normal) 优先级的工单:
在工单列表中,有以下两条:
两条都清楚地标着 “normal” (普通) 优先级。但这并没有反映在 Claude 的最终回复中:
它不仅错误地将它们列为“高优先级”(high priority),还在“普通优先级”(normal priority) 部分重复了它们,但又说它们“已在高优先级中列出”。这个回复不仅脱离了上下文(不接地气),它甚至连内部逻辑都不自洽。
当一个模型能够可靠地使用工具、有效规划、随时调整计划,并且始终“接地气”之后,还剩下最后一道屏障,将即便是最强的模型与“人类水平”的表现区分开来:常识推理 (Common Sense Reasoning)。
我们现在正进入更模糊的“AGI”(通用人工智能) 领域。常识推理不是一个定义清晰的概念,但对于通用智能体来说,它至关重要。它就是“通用智能”里的那个“通用”——那些你无法明确训练的东西:当它们面对一个陌生情况时,它们表现得到底好不好。到了这个阶段,模型已经能可靠地作为智能体行事并保持连贯。现在的问题是,它到底有多 聪明?
在这次测试中,常识推理问题是导致 GPT-5 的表现与人类水平产生差距的主要原因。
这里有一个 GPT-5 失败的例子,不是因为规划或工作流程出了问题,而是一个简单的常识推理问题。
任务: 请识别出当前分类为“其他”(other) 的支持工单中,有哪些应该被重新分类为“退货”(returns)。
GPT-5 正确地调用工具找到了相关的工单,包括这一条:
这个工单应该被重新分类,但需要一点常识推理才能明白为什么:
GPT-5 没能做出这个推断。它收集了所有正确的信息,但没有把这些点联系起来,最终的回复中漏掉了这个工单。
另一个 GPT-5 因推理问题而失败的例子,是识别哪些客户可能是“游戏玩家”(gamers)。任务建议去查找那些“购买了 GPU、带 GPU 的预装整机,以及提到‘游戏’(gaming) 字样的产品”的客户。
使用建议的启发式方法 (heuristics) 是明智的,即:1. 识别游戏相关类别的产品(如 GPU);2. 识别产品描述中包含“游戏”字样的产品;3. 然后搜索 8 月份包含这些产品的订单。所有这些都可以用现有工具实现。
但 GPT-5 偏不。它费力地 一天一天 地搜索 8 月份的所有订单,以避免超出搜索结果的最大数量限制。
...如此往复,整整 31 天。
然后,它对这些订单中的特定产品使用 getProduct (获取产品) 工具,以获取更多详细信息,并判断其是否与游戏相关。然而,它试图根据产品 名称 来猜测是否与游戏相关,因为它没有搜索出现的每一件商品,只搜索了那些产品 ID 中包含 “graph” (图形) 或 “gaming” (游戏) 的商品。Claude 也用了完全相同的方法,问题也一模一样。
GPT-5 的行为是连贯的,也执行了一个计划,但这个计划并不聪明。
最后,这个案例中 GPT-5 误解了任务,这本是可以通过一点常识推理来避免的。
任务提示: “我玩游戏时一直掉帧,所以想升级 GPU。900 美元以下我能买到的最高端 GPU 是什么?请提供价格和所有规格。我账户上的名字应该是 Sarah Kim。”
GPT-5 正确检索了产品信息,但 忘记 了去检查“Sarah Kim”的客户记录,以查找她的忠诚度等级和个性化定价。相反,它回复了一段通用的政策信息:
根本原因很简单:它没能推断出 客户就是 Sarah Kim。它把“我账户上的名字应该是 Sarah Kim” (My name under my account should be set to Sarah Kim) 这句话,理解成了一条 更改账户名称 的指令,而不是一个关于 请求者身份 的线索:
这句话本身单独看确实有歧义,但在上下文中,含义是清晰的,而且模型本可以用可用的工具来消除这种歧义。让我们来运用一下常识推理:
所有这些本应让正确的意图变得清晰明了。再次强调,这不是一个策略或执行上的错误,这只是在当前环境和任务上下文中,没能进行一次聪明的、合乎情理的推理。
好吧,也许第一张(金字塔)图不完全准确。真相可能更像这样:
换句话说,精通了前四个层面(工具、规划、适应性、接地气),并不意味着模型就达到了“人类水平”,可以胜任现实世界的工作。它们仅仅代表了任何智能体 必须 掌握的基础能力,只有掌握了这些,我们才能 开始 讨论它在真实环境中的常识推理表现如何。
常识推理目前还不是一个可以被清晰定义的东西,但当它缺失时,你一眼就能看出来。它最终是会被证明为一组可识别、可训练的子技能,还是大规模真实世界训练后的一种“涌现”属性?这还有待观察。找出答案,将塑造 AI 发展的下一个阶段。
2025 年是“智能体之年”,但这并不意味着这是我们实现通用强智能体的那一年。相反,这是“智能体们终于能足够连贯地行动,以至于我们可以开始分析和讨论它们的常识推理能力”的元年。
摆在我们面前的挑战,是训练和分析这些正迅速接近我们自己(人类)的智能。至于需要多长时间才能最终弥合这一差距,还是一个悬而未决的问题。
免责声明:本文来自宝玉AI客户端,不代表超天才网的观点和立场。文章及图片来源网络,版权归作者所有,如有投诉请联系删除。