AI已经开始自己设计算法，并且超越顶尖人类专家，人类还能做什么？—

AI已经开始自己设计算法，并且超越顶尖人类专家，人类还能做什么？

发布时间:2025年10月27日来源：乌鸦智能说作者：智能乌鸦浏览量：16

AI已经开始为自己设计算法，而且发现了比顶尖人类专家更优的算法。

这不是科幻，而是正在发生的事实。

刚刚，谷歌DeepMind团体的一篇论文登上Nature。

团队基于元学习（meta-learning）策略让一群agents在多样的环境中自由探索强化学习规则。然后在多样的基准测试平台中（比如Atari、ProcGen等）进行比较，结果AI发现的强化学习规则超越任何人工设计的规则，并且展示很强的通用性。

无独有偶，我们今天重点介绍的是另一个开源项目的论文。

加州大学伯克利分校的研究员发布的一篇论文《门口的野蛮人：人工智能如何颠覆系统研究》，也同样展现出AI正在通过自己加速实现自我进化。

在计算机系统研究领域，一种称之为AI驱动的系统研究（AI-Driven Research for Systems, ADRS）的新范式，正在迭代地生成、评估并完善算法方案。

在多个真实场景的案例中，ADRS发现的算法，性能远超世界一流研究者设计的方案，例如将运行效率提升了5倍，或将成本降低了26%。

这一切的核心，在于AI改变了研究的本质过程。

传统的研究模式中，研究人员面对一个特定任务，需要提出假说、设计方案、验证方案。其中，设计与验证环节占据了大量时间。而AI驱动的方法，将这个过程自动化为两个核心步骤：大规模生成多样化的解决方案，然后验证并筛选出真正能解决问题的方案。

这个模式成功的关键，在于一个绝对可靠的验证器。它必须能准确判断一个解决方案的好坏。

在很多领域，构建这样的验证器非常困难。比如，验证AI生成的程序是否完全正确，或者验证一个对复杂问题的文字回答是否无懈可击，都极具挑战。

计算机系统研究领域，尤其是专注于性能优化的方向，恰好是这种新范式的完美试验场。

这里的验证过程天然可靠。一个新算法好不好，比如一个新的调度算法、路由协议或资源管理器，可以直接在真实系统或高保真模拟器中实现出来。然后，研究人员只需在预设的负载下运行它，测量其性能指标，比如吞吐量、延迟、成本等。数据不会说谎，结果一目了然。

这种得天独厚的优势，让系统研究成为了AI大展拳脚的舞台。

AI正在重塑系统研究的流程

一个典型的系统性能研究，过程漫长，往往耗时数周甚至数月。

它通常分为五个阶段：

问题表述：定义要解决的问题，比如提升系统吞吐量。
评估框架搭建：开发或使用一个能实现并评估解决方案的框架，可能是系统本身，也可能是一个模拟器。
解决方案设计：人工设计新的算法或策略。
评估与迭代：在框架中实现方案，对比基线，如果不理想，回到上一步重新设计。
论文撰写：获得理想结果后，记录并发表。

根据对30多名系统研究生的调查，其中最耗时的迭代循环，也就是（3）解决方案设计和（4）评估，占据了整个研究过程约40%的时间。

ADRS方法，正是将这最核心、最耗时的40%进行了自动化。

它通过一个自动化的循环，来替代研究人员进行算法的探索和优化。这个循环由五个组件构成：

提示生成器：根据研究人员输入的问题描述、上下文、甚至之前的失败案例，创建用于生成新算法的提示。
解决方案生成器：将提示交给大语言模型（LLM），如GPT-4o或Gemini，生成新的算法代码。
评估器：拿到新算法后，在模拟器或真实系统中运行，根据性能给出一个分数，甚至定性的反馈。
存储：一个数据库，存放所有被生成过的解决方案、它们的得分以及评估反馈。
解决方案选择器：从数据库中挑选出一批有潜力的、或具有多样性的方案，反馈给提示生成器，用于启发下一轮的算法生成。

这五个组件形成了一个闭环，AI在其中不断自我进化。研究人员则从繁琐的算法设计和调试中解放出来，成为一个更高层次的引导者。他们定义问题，提供初始方向，并从AI生成的众多方案中提炼洞见，形成一个强大的人机协作研究模式。

目前，已经有多个开源或闭源的ADRS框架，如谷歌DeepMind的AlphaEvolve、开源的OpenEvolve以及LLM4AD等。

研究团队的案例研究，主要基于OpenEvolve框架展开。

AI发现的算法比人类专家更强

为了验证ADRS的实际能力，研究人员在网络、数据库、分布式系统等多个领域，开展了11项系统任务的案例研究。所有研究均由不同的学生在2025年夏季并行进行，他们使用了不同的参数配置，因此，这里展示的结果，应被视为ADRS能力的下限。

随着研究人员对如何高效使用这些框架的理解加深，以及框架和模型自身的进化，未来的结果只会更令人震撼。

研究人员重点介绍四个最具代表性的案例。

案例一：在云上省钱，AI比顶会论文更懂行

公共云上有一种叫竞价实例的服务器，比普通服务器便宜60%到90%，但它可能随时被云厂商收回。这就带来一个挑战：对于一个有截止日期的计算任务，如何尽可能多地使用这种便宜但不稳定的服务器，来最大化省钱，同时又保证任务不会延期？

这个问题是顶级学术会议NSDI'24一篇杰出论文的研究核心，该论文提出了当时最先进的（SOTA）策略，名为Uniform Progress。

研究人员使用OpenEvolve，让AI来挑战这个人类SOTA方案。

AI的进化过程很有趣。它从一个简单的贪心策略开始，在400次迭代中不断学习。在早期，它学会了用一个滑动窗口来观察近期的服务器稳定性。迭代到180次左右，它引入了基于稳定性的自适应安全边界。到350次迭代，它学会了动态调整这个边界。

最终，在第389次迭代时，AI发现了一个人类专家没有明确提出的策略：选择性等待。

人类设计的Uniform Progress策略有个弱点，当任务进度落后时，它会不顾一切地使用任何可用的竞价实例，哪怕这个实例只能用几秒钟。这会导致频繁切换，浪费大量时间在任务重启上，研究人员称之为转换陷阱。

AI进化出的策略更聪明。它会判断，当竞价实例看起来不稳定，且任务离截止日期还有足够缓冲时，它会选择等待，跳过这些质量不高的机会，去抓更稳定的时机。

结果，AI设计的算法在满足所有截止日期的前提下，平均比人类SOTA方案多节省了7%的成本，在某些场景下节省高达16.7%。

研究人员进一步将问题扩展到更复杂的多区域场景，这个场景之前没有已知的解决方案。AI同样不负众望，设计出的策略比一个精心设计的人类基线方案，多节省了26%的成本。

整个过程耗时5小时，成本不到20美元。

案例二：给大模型推理排兵布阵，AI把效率提升5倍

专家混合（MoE）是当前非常流行的大模型架构。它的推理负载均衡是一个难题：如何将成千上万个专家模块，合理地分配到不同的GPU上，让每个GPU的计算负载尽可能均衡。

研究人员让OpenEvolve来解决这个问题。初始方案来自一个开源实现，它使用简单的循环和贪心算法进行分配，重新平衡一次专家需要540毫秒。

研究人员还有一个未公开的、来自前沿实验室的参考实现作为基线。它使用了一种巧妙的蛇形放置启发式算法，通过高效的张量操作替代了缓慢的循环，将重新平衡时间缩短到了19.6毫秒，性能提升了27倍。

AI的进化过程再次展现了它的学习能力。它独立发现了类似蛇形放置的交错技术，学会了用张量重塑来替代Python循环。考虑到研究的基线方案并未公开，模型在训练数据中接触到它的可能性微乎其微。

更令人惊讶的是，AI在重新发现的基础上，还进行了微创新，比如改进了排序逻辑和更具自适应性的重塑策略。

最终，AI生成的算法在负载均衡效果上与研究的高级基线持平，但将重新平衡的运行时间，从19.6毫秒进一步压缩到了3.7毫秒。

这比研究人员实验室精心设计的内部方案，还要快5倍。

整个进化过程耗时约5小时，成本不到10美元。

案例三：SQL查询中LLM推理的优化，将运行时间减少3倍

该案例研究针对关系分析中的高成本问题。

SQL查询对整个表调用大型语言模型，每行触发单独推理操作，导致大规模应用时成本过高。

研究目标是通过重新排序表的行和字段来最大化前缀缓存命中率(PHR)，从而降低推理时间和成本。

由于n行m列表表有n!×(m!n)种可能排序，穷举搜索不可行，需要设计高效的重排序算法。

研究团队使用OpenEvolve框架演化重排序策略，运行100次迭代。

演化过程始于贪婪递归分组算法(GGR)，该算法虽PHR表现良好但存在重复计数和深度递归问题。

AI经过多次迭代优化，最终演化出的策略实现了与GGR相似的PHR，同时将运行时间减少3倍。

主要优化包括：维护懒更新的全局频率映射避免重复数据遍历；用直接属性映射替代慢速Pandas查找，将核心循环从高成本Pandas调用简化为O(Nrows×Ncols)的Python操作；应用局部启发式方法进行每行排序，通过最大化与前一行连续性并按值长度平方加权来重排字段。

这些优化显著提高了算法效率，同时保持了较高的缓存命中率，为大规模SQL查询中的LLM推理提供了实用解决方案。

案例四：优化事务调度，减少34%整体执行时间

该案例研究针对事务处理系统中的性能瓶颈：共享数据冲突导致的事务调度问题。

研究目标是寻找高效的事务调度顺序，最小化整体执行时间(makespan)，提高系统吞吐量。

研究考虑了在线和离线两种设置：在线设置中事务顺序一旦确定不可更改，且调度算法需满足O(n)时间复杂度；离线设置适用于确定性数据库调度批量事务，无先前研究结果。

研究团队使用OpenEvolve框架探索解决方案，运行100次迭代。

在线设置下，最佳策略是现有的最短完成时间优先(SMF)算法，OpenEvolve能够从随机调度基线重新发现该算法。

离线设置下，OpenEvolve发现了一种新算法，比SMF减少34%的makespan，表明框架可快速探索不同问题变体。

离线算法包含三部分：首先按写入次数和长度对事务排序构建初始序列；然后运行完整贪心算法，尝试将每个事务放在每个可能位置；最后执行配对交换爬山算法并尝试几个随机调度作为安全网。该算法扩展了SMF的贪心直觉，时间复杂度为O(n²)。

这一结果不仅证明了基于冲突成本调度的有效性，也展示了OpenEvolve在辅助研究人员针对不同问题约束快速开发解决方案方面的潜力。

人类研究员的新角色：从造船者到领航员

ADRS的兴起，预示着系统研究社区将迎来深刻的变革。当AI越来越多地承担算法发现和优化的核心角色，人类研究员的角色也必须随之进化。

研究人员不再需要是那个在细节中反复打磨算法的工匠。

研究的重点将转向更高层次的智力活动：问题的定义、创意的构思，以及战略方向的指引。

在这个新模式中，研究人员更像是一位拥有强大AI研究助手的导师。研究的工作是：

定义有意义、有价值的研究问题。
为AI的探索提供创造性的起点和边界。
从AI生成的大量解决方案中，提炼出深刻的洞见和普适的规律。

这将创造一个强大的良性循环：研究人员利用AI改进计算机系统，而更高效的系统又可以反过来加速AI自身的发展，最终形成一个研究发现的复合加速引擎。

为了更好地迎接这一转变，研究人员基于实践，总结了一些利用ADRS框架的最佳实践。

在提示设计上，问题表述必须清晰具体，提供足够的上下文，用示例来引导AI，并通过迭代不断优化提示。

在评估器构建上，评估指标必须与研究目标强相关，评估场景必须全面以防过拟合，反馈信息不仅要给分数，还要给出定性优劣，并且评估过程本身必须高效。

在进化策略上，需要平衡对新领域的探索和对已知优质解的利用，并根据搜索进展自适应地调整策略。

这一切都指向一个未来：研究人员将时间投入到工作中更具创造性和满足感的部分。

AI正在接管算法设计，但这并非研究的终结，而是一个全新的开始。

参考资料：

https://github.com/UCB-ADRS/ADRS

https://www.nature.com/articles/s41586-025-09761-x#Sec3

https://github.com/google-deepmind/disco_rl

免责声明：本文来自乌鸦智能说客户端，不代表超天才网的观点和立场。文章及图片来源网络，版权归作者所有，如有投诉请联系删除。

有话要说人讨论 16 人阅读

发表

匿名

游客

这位投稿者太神秘了，什么都没留下~

登录