麦肯锡调研了 50 个一线 AI 智能体的项目总结出来的六条经验 宝玉AI 2025年09月24日 10:57 美国

发布时间:2025年09月24日 来源:宝玉AI 作者:宝玉AI 浏览量:26

导读

麦肯锡调研了50个基于AI智能体(AI Agent)的真实项目,深入分析了它们最常见的失败之处,并将其提炼为以下 6 个关键因素——这对于每一位 AI 工程师都至关重要:

1. 重要的不是智能体,而是整体流程

别光想着做出让人眼前一亮的智能体(Agent),那些看起来很酷的“小玩具”未必真的实用。实际工作中,我们要做的是设计一个完整的系统,而不是炫耀技术。

2. 智能体不是万能解药

并不是所有任务都适合用智能体去解决。像那些变化少、可预测的简单任务,直接用传统规则或机器学习(ML)就行了。如果强行用上大语言模型(LLM),反而会增加复杂性。

智能体真正适合的是那些杂乱无章、变化极大的工作流程,比如从复杂的财务报表里提取信息,这才是真正体现智能体价值的地方。

3. 别制造“AI垃圾”(AI Slop)

别沉迷于表面光鲜的演示Demo,而是要像培养新员工一样认真对待你的智能体。为智能体制定清晰的岗位职责,不断进行培训、测试和改进。这种长期发展的眼光,远比秀几个酷炫的演示更重要。

4. 盯紧每个环节,而不是只看最终结果

如果你在没有充分监控的情况下盲目扩大智能体规模,很可能发生隐秘的灾难。你需要清晰地追踪工作流中的每个环节,这样团队才能及时发现错误,迅速修正逻辑,防止系统彻底崩溃。

要知道,出错是一定的。但只要跟踪到位,你就能准确找到问题在哪,下一次不再犯同样的错。

5. 能复用就别重复造轮子

很多公司经常在开发一次性的智能体,浪费大量资源。聪明的做法是把智能体的功能拆成模块,比如数据导入(ingest)、信息提取(extract)、验证(verify)、分析(analyze)等。这些模块可以在不同的场景反复使用。

麦肯锡的研究发现,这种复用策略能帮你省掉30%–50%的重复工作,效果绝不是开玩笑。

6. 人类依然不可或缺,但角色正在改变

智能体擅长解析数据、自动化和规模化执行任务,但人类的价值在于判断力、处理特殊情况和创造性地解决问题。

未来的竞争并不是“人类 VS 智能体”,而是“人类 + 智能体”的完美组合。

以上六点,都是很多公司在开发AI智能体时容易犯的错误。这些陷阱一旦踩中,可能会严重损害企业的名誉和资源投入。
但现在你已经知道如何避免了。


以下为完整内容

图片


AI 智能体元年:来自一线实践者的六条经验

作者:Lareina Yee, Michael Chui, Roger Roberts

成功部署 AI 智能体(Agentic AI)绝非易事。我们从实践中总结了宝贵经验,告诉你如何把这件事做对。

AI 智能体革命已经开启一年,一个教训也愈发清晰:想把它做好,必须下苦功。

通过 AI 智能体实现企业转型,有望带来前所未有的生产力提升。虽然有些公司已经尝到了甜头,但更多企业却发现,他们的投入迟迟不见回报。在某些情况下,他们甚至不得不“开倒车”——在智能体搞砸的地方,重新把人招回来。

这些磕磕绊绊是任何新技术发展过程中的必经之路,我们在其他技术创新中也见过类似的模式。为了总结早期的经验教训,我们最近深入研究了麦肯锡内部主导的 50 多个 AI 智能体项目,以及市场上的几十个其他案例。我们将分析结果提炼为六条经验,希望能帮助领导者们成功地从 AI 智能体中捕获价值。

1. 重要的不是智能体,而是整体流程

要想用 AI 智能体创造商业价值,就必须改变工作流程。然而,很多公司常常过度关注智能体本身或某个工具。这必然导致一个结果:造出了看起来很酷的智能体,却无法真正改善整体工作流,最终价值寥寥。

那些致力于从根本上 重构整个工作流程[1] 的项目,更有可能取得成功。所谓工作流程,指的是涉及人员、流程和技术的所有环节。 理解智能体如何在每个环节中提供帮助,才是通往价值的正确路径。人类员工依然是工作的核心,但人类员工将拥有新的智能体、工具和自动化系统来辅助他们。

重新设计工作流程的一个重要起点,是梳理现有流程并找出用户的核心痛点。 这一步至关重要,它能帮助我们设计出真正减少重复劳动、让智能体与人类高效协作的系统。这种协作可以通过学习循环和反馈机制实现,形成一个自我强化的闭环。智能体用得越多,就会变得越聪明、越契合业务需求。

以一家另类法律服务提供商为例,该公司正致力于合同审查流程的现代化。他们所处领域的法律推理在不断演变,新的判例法、司法管辖区的细微差异以及政策解读层出不穷,这使得将专业知识固化为代码变得极具挑战。

为了适应这种天然的变化,团队设计的智能体系统可以在工作流程中不断学习。例如,用户在文档编辑器中的每一次修改都会被记录和分类。这为工程师和数据科学家提供了丰富的反馈流,他们可以利用这些反馈来“教导”智能体,调整提示词(prompt)逻辑,并丰富知识库。久而久之,智能体便能将新的专业知识内化。

关注流程而非智能体本身,能让团队在恰当的节点部署最合适的技术。这在重构复杂的多步骤工作流时尤其重要。例如,保险公司通常有庞大的调查流程(如理赔处理和承保),每一步都涉及不同类型的活动和认知任务。公司可以通过周密部署,将基于规则的系统、分析型 AI、生成式 AI 和 AI 智能体等多种技术巧妙地组合起来,并用一个统一的编排框架(如开源的 AutoGen、CrewAI 和 LangGraph)来支撑。在这种模式下,智能体扮演着编排者和整合者的角色,调用各种工具,并将其他系统的输出整合到自己的上下文中。它们就像“胶水”,将整个工作流程粘合在一起,用更少的人工干预,交付真正的成果。

图片

复杂的工作流程应该为每个任务选择最佳工具。

2. 智能体并非万能解药

AI 智能体(AI Agent)功能强大,但并非所有任务都适合用它来解决。很多时候,领导者们没有仔细审视需要完成的工作,也没有思考智能体是否是最佳选择。

为了避免投资浪费或不必要的复杂性,企业领导者可以像组建一支高绩效团队那样来评估智能体的角色。关键问题是:“需要完成的工作是什么?每个潜在的团队成员——或者说智能体——各自有什么天赋,如何协同工作以实现目标?” 许多业务问题完全可以用更简单的自动化方法解决,比如基于规则的自动化、预测性分析或简单的大语言模型(LLM)提示,这些方法通常比开箱即用的智能体更可靠。

在匆忙上马智能体方案之前,领导者应该先评估任务的性质。具体来说,就是要明确:这个流程的标准化程度应该有多高?需要处理多大的变数?哪些部分最适合交给智能体来做?

从某种程度上说,这些问题很直观。例如,变化少、标准化程度高的工作流程,如投资者开户或监管信息披露,通常受到严格管控,遵循可预测的逻辑。在这种情况下,使用基于非确定性的大语言模型(LLM)的智能体,可能弊大于利,只会增加复杂性和不确定性。

相比之下,变化大、标准化程度低的工作流程,则能从智能体中获益匪-浅。例如,一家金融服务公司部署了智能体来提取复杂的财务信息,大大减少了人工验证的需求,并简化了工作流程。这些任务需要信息聚合、交叉验证和合规性分析——而这些正是智能体大显身手的领域。

最重要的一点是,不要陷入“用或不用智能体”的二元思维。有些智能体擅长完成特定任务,有些能帮助人类更好地工作,而在许多情况下,其他技术可能才是更合适的选择。关键在于,要弄清楚哪种工具或智能体最适合哪项任务,人类如何与它们最有效地协作,以及如何将人、智能体和工具组合起来,以实现最大产出。

3. 别制造“AI垃圾”:重视评估,建立用户信任

在部署 AI 智能体时,团队最常遇到的陷阱之一是:系统在演示(Demo)中看起来惊艳全场,但实际负责这项工作的用户却被它搞得头疼不已。 我们经常听到用户抱怨“AI 垃圾”(AI Slop),即智能体输出的低质量内容。用户很快就会对智能体失去信任,导致采用率极低。自动化带来的任何效率提升,都很容易被信任的丧失和质量的下降所抵消。

这个反复出现的问题给我们带来了一个来之不易的教训:公司应该像培养员工一样,大力投入智能体的开发。 正如一位企业领导者所说:“引入一个智能体,更像是招聘一位新员工,而不是部署一套软件。” 智能体应该有明确的岗位职责,需要“入职培训”,并获得持续的反馈,这样它们才能不断进步,变得更有效率。

开发高效的智能体是一项极具挑战性的工作。它需要利用领域专家的知识来创建评估体系(evals),并将最佳实践以足够精细的粒度固化下来。这种固化过程既是智能体的“培训手册”,也是它的“绩效测试”,确保其表现符合预期。

这些最佳实践可能存在于标准操作流程(SOP)中,也可能只是专家们心照不宣的默会知识。在固化这些实践时,关键是要关注那些区分顶尖员工与普通员工的核心要素。对于销售代表来说,这可能包括他们如何引导对话、处理异议以及匹配客户的沟通风格。

至关重要的是,专家必须持续参与,长期测试智能体的表现。在这个领域,绝不能“上线就完事”。这种对评估的承诺,要求专家们亲手为给定的输入,标注出期望的(甚至不期望的)输出。对于复杂的智能体,这样的标注有时可能需要成千上万条。通过这种方式,团队可以评估智能体的准确率,并进行必要的修正。

一家全球性银行在改造其“了解你的客户”(Know-Your-Customer)和信贷风险分析流程时,就深刻贯彻了这一方法。每当智能体对合规性的建议与人类的判断不符时,团队就会找出逻辑上的差距,优化决策标准,然后重新进行测试。

例如,在某个案例中,智能体最初的分析过于笼统。团队提供了这一反馈,然后开发并部署了额外的智能体,以确保分析的深度能提供恰当粒度的有用见解。他们使用的一种方法是,连续多次追问智能体“为什么”。这种方法确保了智能体的优异表现,也使得人类员工更愿意接受它的输出结果。

4. 盯紧每个环节,而不只是最终结果

当只与少数几个 AI 智能体打交道时,审查它们的工作、发现错误还相对容易。但当公司推广成百上千个智能体时,这项任务就变得极具挑战性。更糟糕的是,许多公司只追踪最终结果。因此,一旦出错——而随着规模化,出错是必然的——就很难准确找出问题到底出在哪里。

智能体的表现应该在工作流的每一步都得到验证。 将监控和评估嵌入到工作流程中,可以让团队及早发现错误,优化逻辑,并持续改进性能,即使在智能体部署后也是如此。

例如,在某个文档审查流程中,一家另类法律服务提供商的产品团队观察到,当系统遇到一批新案件时,准确率突然下降。但由于他们在构建智能体工作流时,内置了可观测性工具来追踪流程的每一步,团队迅速定位了问题所在:某些用户群体提交的数据质量较低,导致了错误的解读和糟糕的下游推荐。

基于这一洞察,团队改进了数据收集实践,向上游相关方提供了文档格式化指南,并调整了系统的解析逻辑。智能体的性能很快就恢复了。

5. 能复用就别重复造轮子

在急于推进 AI 智能体的过程中,公司常常为每个识别出的任务都创建一个独立的智能体。这会导致严重的冗余和浪费,因为许多不同的任务实际上共享着大量相同的动作(例如,数据导入、信息提取、搜索和分析),同一个智能体本可以完成。

决定在构建可复用智能体上投入多少资源(而不是只做一个执行单一任务的智能体),类似于一个经典的 IT 架构问题:公司既要快速构建,又不能锁定那些会限制未来能力的选择。如何找到这种平衡,往往需要大量的判断和分析。

一个好的起点是识别那些重复出现的任务。公司可以开发能够轻松在不同工作流中复用的智能体和智能体组件,并让开发者可以方便地调用它们。这包括开发一套集中的[2]、经过验证的服务(如 LLM 可观测性工具或预先批准的提示词)和资产(如应用模式、可复用代码和培训材料),并确保它们易于查找和使用。将这些能力整合到一个统一的平台至关重要。根据我们的经验,这几乎可以减少 30% 到 50% 的非必要重复工作。

6. 人类依然不可或缺,但角色正在改变

随着 AI 智能体的不断普及,关于人类将扮演何种角色的问题引发了广泛焦虑——一方面是对工作保障的担忧,另一方面是对生产力提升的过高期望。这导致了关于人类在当今许多工作岗位中角色的巨大分歧。

需要明确的是:智能体将能完成大量工作,但人类仍将是劳动力中不可或缺的一部分 ,尽管智能体和人类所做工作的类型都会随着时间而改变。例如,人类需要监督模型的准确性、确保合规性、运用判断力以及处理边缘案例。正如我们前面讨论的,智能体并非总是最佳答案,因此人类与机器学习(ML)等其他工具的配合仍然是必需的。然而,在某个特定工作流中所需的人员数量,很可能会在经过智能体改造后发生变化,并且通常会减少。企业领导者必须像管理任何变革项目一样,来管理这些转型,并深思熟虑地分配培训和评估智能体所需的工作。

我们经验中的另一大教训是,公司应有意识地重新设计工作,让人员和智能体能够良好协作。 如果缺乏这种关注,即使最先进的智能体项目也可能面临“静默失败”、错误累积和用户抵制。

以前面提到的那家另类法律服务提供商为例,他们希望在法律分析工作流中使用智能体。在设计流程时,团队花时间确定了在何处、何时以及如何整合人类的输入。例如,智能体能够以极高的准确率整理核心索赔项和金额,但考虑到这些信息对整个案件的核心重要性,律师必须进行复核和批准

同样,智能体能够为案件推荐工作方案,但考虑到决策的重要性,人类不仅要审查,还要调整建议。智能体还被编程来高亮显示边缘案例和异常情况,帮助律师形成更全面的看法。而在流程的最后,仍然需要有人用自己的执照和资历来签署文件,为法律决定承担责任。

这种人机协作设计的一个重要部分,是开发简洁的可视化用户界面,让人们能轻松地与智能体互动。例如,一家财险公司开发了交互式视觉元素(如边界框、高亮和自动滚动),帮助审查员快速验证 AI 生成的摘要。当人们点击某条见解时,应用程序会直接滚动到正确的页面并高亮显示相应的文本。这种对用户体验的关注节省了时间,减少了反复猜测,并建立了对系统的信心,最终带来了接近 95% 的用户接受度。


AI 智能体的世界正在飞速发展,我们可以预见未来将学到更多。但除非公司在推进智能体项目时,从思想上和实践上都抱持着学习的心态,否则他们很可能会重蹈覆辙,减慢自己的发展步伐。

这篇文章对您有多大的相关性和实用性?
关于作者

Lareina Yee[3] 是麦肯锡全球研究院的董事,也是麦肯锡湾区办公室的资深合伙人。Michael Chui[4] 是该办公室的资深研究员,Roger Roberts[5] 是该办公室的合伙人;Stephen Xu 是多伦多办公室的产品管理高级总监。

作者谨向 Alex Singla, Alexander Sukharevsky, Alberto Mario Pirovano, Allen Chen, Ani Aghababyan, Antonio Castro, Carlo Giovine, Medha Bankhwal, Rickard Ström,以及麦肯锡致力于推动 AI 创新与实验的中心——QuantumBlack Labs[6] 的全体产品团队,为本文做出的贡献表示感谢。


本文由纽约办公室的编辑总监 Barr Seitz 编辑。

如需申请演示或与 QuantumBlack Labs(我们的软件开发与研发中心)的专家进行后续交流,请联系 helloqb@mckinsey.com[7]


来源:https://www.mckinsey.com/capabilities/quantumblack/our-insights/one-year-of-agentic-ai-six-lessons-from-the-people-doing-the-work

引用链接

[1] 重构整个工作流程:https://www.mcksey.com/capabilities/quantumblack/our-insights/seizing-the-agentic-ai-advantage
[2]开发一套集中的:https://www.mcksey.com/capabilities/mcksey-digital/our-insights/overcoming-two-issues-that-are-sinking-gen-ai-programs
[3]Lareina Yee:https://www.mckinsey.com/our-people/lareina-yee
[4]Michael Chui:https://www.mckinsey.com/our-people/michael-chui
[5]Roger Roberts:https://www.mckinsey.com/our-people/roger-roberts
[6]QuantumBlack Labs:https://www.mckinsey.com/capabilities/quantumblack/labs
[7]helloqb@mckinsey.com:mailto:helloqb@mckinsey.com

免责声明:本文来自宝玉AI客户端,不代表超天才网的观点和立场。文章及图片来源网络,版权归作者所有,如有投诉请联系删除。

0 0 0
有话要说  人讨论    26 人阅读
发表

游客

这位投稿者太神秘了,什么都没留下~

超天才网©2017 www.supergenius.cn All Rights Reserved ICP备09005826号 京ICP证130304号

联系我们| 加入我们| 法律声明| 关于我们| 评论互动

超天才网©2013-2014 All Rights Reserved ICP备09005826号 京ICP证130304号

关注我们: