AI已经开始自己设计算法,并且超越顶尖人类专家,人类还能做什么?

发布时间:2025年10月27日 来源:乌鸦智能说 作者:智能乌鸦 浏览量:16

AI已经开始为自己设计算法,而且发现了比顶尖人类专家更优的算法。

这不是科幻,而是正在发生的事实。

刚刚,谷歌DeepMind团体的一篇论文登上Nature。

图片

团队基于元学习(meta-learning)策略让一群agents在多样的环境中自由探索强化学习规则。然后在多样的基准测试平台中(比如Atari、ProcGen等)进行比较,结果AI发现的强化学习规则超越任何人工设计的规则,并且展示很强的通用性。

无独有偶,我们今天重点介绍的是另一个开源项目的论文。

图片

加州大学伯克利分校的研究员发布的一篇论文《门口的野蛮人:人工智能如何颠覆系统研究》,也同样展现出AI正在通过自己加速实现自我进化。

在计算机系统研究领域,一种称之为AI驱动的系统研究(AI-Driven Research for Systems, ADRS)的新范式,正在迭代地生成、评估并完善算法方案。

在多个真实场景的案例中,ADRS发现的算法,性能远超世界一流研究者设计的方案,例如将运行效率提升了5倍,或将成本降低了26%。

这一切的核心,在于AI改变了研究的本质过程。

传统的研究模式中,研究人员面对一个特定任务,需要提出假说、设计方案、验证方案。其中,设计与验证环节占据了大量时间。而AI驱动的方法,将这个过程自动化为两个核心步骤:大规模生成多样化的解决方案,然后验证并筛选出真正能解决问题的方案。

这个模式成功的关键,在于一个绝对可靠的验证器。它必须能准确判断一个解决方案的好坏。

在很多领域,构建这样的验证器非常困难。比如,验证AI生成的程序是否完全正确,或者验证一个对复杂问题的文字回答是否无懈可击,都极具挑战。

计算机系统研究领域,尤其是专注于性能优化的方向,恰好是这种新范式的完美试验场。

这里的验证过程天然可靠。一个新算法好不好,比如一个新的调度算法、路由协议或资源管理器,可以直接在真实系统或高保真模拟器中实现出来。然后,研究人员只需在预设的负载下运行它,测量其性能指标,比如吞吐量、延迟、成本等。数据不会说谎,结果一目了然。

这种得天独厚的优势,让系统研究成为了AI大展拳脚的舞台。

AI正在重塑系统研究的流程

一个典型的系统性能研究,过程漫长,往往耗时数周甚至数月。

它通常分为五个阶段:

  1. 问题表述:定义要解决的问题,比如提升系统吞吐量。

  2. 评估框架搭建:开发或使用一个能实现并评估解决方案的框架,可能是系统本身,也可能是一个模拟器。

  3. 解决方案设计:人工设计新的算法或策略。

  4. 评估与迭代:在框架中实现方案,对比基线,如果不理想,回到上一步重新设计。

  5. 论文撰写:获得理想结果后,记录并发表。

图片

根据对30多名系统研究生的调查,其中最耗时的迭代循环,也就是(3)解决方案设计和(4)评估,占据了整个研究过程约40%的时间。

ADRS方法,正是将这最核心、最耗时的40%进行了自动化。

它通过一个自动化的循环,来替代研究人员进行算法的探索和优化。这个循环由五个组件构成:

  • 提示生成器:根据研究人员输入的问题描述、上下文、甚至之前的失败案例,创建用于生成新算法的提示。

  • 解决方案生成器:将提示交给大语言模型(LLM),如GPT-4o或Gemini,生成新的算法代码。

  • 评估器:拿到新算法后,在模拟器或真实系统中运行,根据性能给出一个分数,甚至定性的反馈。

  • 存储:一个数据库,存放所有被生成过的解决方案、它们的得分以及评估反馈。

  • 解决方案选择器:从数据库中挑选出一批有潜力的、或具有多样性的方案,反馈给提示生成器,用于启发下一轮的算法生成。

图片

这五个组件形成了一个闭环,AI在其中不断自我进化。研究人员则从繁琐的算法设计和调试中解放出来,成为一个更高层次的引导者。他们定义问题,提供初始方向,并从AI生成的众多方案中提炼洞见,形成一个强大的人机协作研究模式。

目前,已经有多个开源或闭源的ADRS框架,如谷歌DeepMind的AlphaEvolve、开源的OpenEvolve以及LLM4AD等。

研究团队的案例研究,主要基于OpenEvolve框架展开。

AI发现的算法比人类专家更强

为了验证ADRS的实际能力,研究人员在网络、数据库、分布式系统等多个领域,开展了11项系统任务的案例研究。所有研究均由不同的学生在2025年夏季并行进行,他们使用了不同的参数配置,因此,这里展示的结果,应被视为ADRS能力的下限。

随着研究人员对如何高效使用这些框架的理解加深,以及框架和模型自身的进化,未来的结果只会更令人震撼。

研究人员重点介绍四个最具代表性的案例。

案例一:在云上省钱,AI比顶会论文更懂行

公共云上有一种叫竞价实例的服务器,比普通服务器便宜60%到90%,但它可能随时被云厂商收回。这就带来一个挑战:对于一个有截止日期的计算任务,如何尽可能多地使用这种便宜但不稳定的服务器,来最大化省钱,同时又保证任务不会延期?

这个问题是顶级学术会议NSDI'24一篇杰出论文的研究核心,该论文提出了当时最先进的(SOTA)策略,名为Uniform Progress。

研究人员使用OpenEvolve,让AI来挑战这个人类SOTA方案。

AI的进化过程很有趣。它从一个简单的贪心策略开始,在400次迭代中不断学习。在早期,它学会了用一个滑动窗口来观察近期的服务器稳定性。迭代到180次左右,它引入了基于稳定性的自适应安全边界。到350次迭代,它学会了动态调整这个边界。

最终,在第389次迭代时,AI发现了一个人类专家没有明确提出的策略:选择性等待。

人类设计的Uniform Progress策略有个弱点,当任务进度落后时,它会不顾一切地使用任何可用的竞价实例,哪怕这个实例只能用几秒钟。这会导致频繁切换,浪费大量时间在任务重启上,研究人员称之为转换陷阱。

AI进化出的策略更聪明。它会判断,当竞价实例看起来不稳定,且任务离截止日期还有足够缓冲时,它会选择等待,跳过这些质量不高的机会,去抓更稳定的时机。

图片

结果,AI设计的算法在满足所有截止日期的前提下,平均比人类SOTA方案多节省了7%的成本,在某些场景下节省高达16.7%。

研究人员进一步将问题扩展到更复杂的多区域场景,这个场景之前没有已知的解决方案。AI同样不负众望,设计出的策略比一个精心设计的人类基线方案,多节省了26%的成本。

整个过程耗时5小时,成本不到20美元。

案例二:给大模型推理排兵布阵,AI把效率提升5倍

专家混合(MoE)是当前非常流行的大模型架构。它的推理负载均衡是一个难题:如何将成千上万个专家模块,合理地分配到不同的GPU上,让每个GPU的计算负载尽可能均衡。

研究人员让OpenEvolve来解决这个问题。初始方案来自一个开源实现,它使用简单的循环和贪心算法进行分配,重新平衡一次专家需要540毫秒。

研究人员还有一个未公开的、来自前沿实验室的参考实现作为基线。它使用了一种巧妙的蛇形放置启发式算法,通过高效的张量操作替代了缓慢的循环,将重新平衡时间缩短到了19.6毫秒,性能提升了27倍。

AI的进化过程再次展现了它的学习能力。它独立发现了类似蛇形放置的交错技术,学会了用张量重塑来替代Python循环。考虑到研究的基线方案并未公开,模型在训练数据中接触到它的可能性微乎其微。

图片

更令人惊讶的是,AI在重新发现的基础上,还进行了微创新,比如改进了排序逻辑和更具自适应性的重塑策略。

最终,AI生成的算法在负载均衡效果上与研究的高级基线持平,但将重新平衡的运行时间,从19.6毫秒进一步压缩到了3.7毫秒。

这比研究人员实验室精心设计的内部方案,还要快5倍。

整个进化过程耗时约5小时,成本不到10美元。

案例三:SQL查询中LLM推理的优化,将运行时间减少3倍

该案例研究针对关系分析中的高成本问题。

SQL查询对整个表调用大型语言模型,每行触发单独推理操作,导致大规模应用时成本过高。

研究目标是通过重新排序表的行和字段来最大化前缀缓存命中率(PHR),从而降低推理时间和成本。

由于n行m列表表有n!×(m!n)种可能排序,穷举搜索不可行,需要设计高效的重排序算法。

研究团队使用OpenEvolve框架演化重排序策略,运行100次迭代。

演化过程始于贪婪递归分组算法(GGR),该算法虽PHR表现良好但存在重复计数和深度递归问题。

AI经过多次迭代优化,最终演化出的策略实现了与GGR相似的PHR,同时将运行时间减少3倍。

图片

主要优化包括:维护懒更新的全局频率映射避免重复数据遍历;用直接属性映射替代慢速Pandas查找,将核心循环从高成本Pandas调用简化为O(Nrows×Ncols)的Python操作;应用局部启发式方法进行每行排序,通过最大化与前一行连续性并按值长度平方加权来重排字段。

这些优化显著提高了算法效率,同时保持了较高的缓存命中率,为大规模SQL查询中的LLM推理提供了实用解决方案。

案例四:优化事务调度,减少34%整体执行时间

该案例研究针对事务处理系统中的性能瓶颈:共享数据冲突导致的事务调度问题。

研究目标是寻找高效的事务调度顺序,最小化整体执行时间(makespan),提高系统吞吐量。

研究考虑了在线和离线两种设置:在线设置中事务顺序一旦确定不可更改,且调度算法需满足O(n)时间复杂度;离线设置适用于确定性数据库调度批量事务,无先前研究结果。

研究团队使用OpenEvolve框架探索解决方案,运行100次迭代。

在线设置下,最佳策略是现有的最短完成时间优先(SMF)算法,OpenEvolve能够从随机调度基线重新发现该算法。

离线设置下,OpenEvolve发现了一种新算法,比SMF减少34%的makespan,表明框架可快速探索不同问题变体。

离线算法包含三部分:首先按写入次数和长度对事务排序构建初始序列;然后运行完整贪心算法,尝试将每个事务放在每个可能位置;最后执行配对交换爬山算法并尝试几个随机调度作为安全网。该算法扩展了SMF的贪心直觉,时间复杂度为O(n²)。

这一结果不仅证明了基于冲突成本调度的有效性,也展示了OpenEvolve在辅助研究人员针对不同问题约束快速开发解决方案方面的潜力。

人类研究员的新角色:从造船者到领航员

ADRS的兴起,预示着系统研究社区将迎来深刻的变革。当AI越来越多地承担算法发现和优化的核心角色,人类研究员的角色也必须随之进化。

研究人员不再需要是那个在细节中反复打磨算法的工匠。

研究的重点将转向更高层次的智力活动:问题的定义、创意的构思,以及战略方向的指引。

在这个新模式中,研究人员更像是一位拥有强大AI研究助手的导师。研究的工作是:

  • 定义有意义、有价值的研究问题。

  • 为AI的探索提供创造性的起点和边界。

  • 从AI生成的大量解决方案中,提炼出深刻的洞见和普适的规律。

这将创造一个强大的良性循环:研究人员利用AI改进计算机系统,而更高效的系统又可以反过来加速AI自身的发展,最终形成一个研究发现的复合加速引擎。

为了更好地迎接这一转变,研究人员基于实践,总结了一些利用ADRS框架的最佳实践。

在提示设计上,问题表述必须清晰具体,提供足够的上下文,用示例来引导AI,并通过迭代不断优化提示。

在评估器构建上,评估指标必须与研究目标强相关,评估场景必须全面以防过拟合,反馈信息不仅要给分数,还要给出定性优劣,并且评估过程本身必须高效。

在进化策略上,需要平衡对新领域的探索和对已知优质解的利用,并根据搜索进展自适应地调整策略。

这一切都指向一个未来:研究人员将时间投入到工作中更具创造性和满足感的部分。

AI正在接管算法设计,但这并非研究的终结,而是一个全新的开始。

参考资料:

https://github.com/UCB-ADRS/ADRS

https://www.nature.com/articles/s41586-025-09761-x#Sec3

https://github.com/google-deepmind/disco_rl

免责声明:本文来自乌鸦智能说客户端,不代表超天才网的观点和立场。文章及图片来源网络,版权归作者所有,如有投诉请联系删除。

0 0 0
有话要说  人讨论    16 人阅读
发表

游客

这位投稿者太神秘了,什么都没留下~

超天才网©2017 www.supergenius.cn All Rights Reserved ICP备09005826号 京ICP证130304号

联系我们| 加入我们| 法律声明| 关于我们| 评论互动

超天才网©2013-2014 All Rights Reserved ICP备09005826号 京ICP证130304号

关注我们: