AI已经开始为自己设计算法,而且发现了比顶尖人类专家更优的算法。
这不是科幻,而是正在发生的事实。
刚刚,谷歌DeepMind团体的一篇论文登上Nature。
团队基于元学习(meta-learning)策略让一群agents在多样的环境中自由探索强化学习规则。然后在多样的基准测试平台中(比如Atari、ProcGen等)进行比较,结果AI发现的强化学习规则超越任何人工设计的规则,并且展示很强的通用性。
无独有偶,我们今天重点介绍的是另一个开源项目的论文。
加州大学伯克利分校的研究员发布的一篇论文《门口的野蛮人:人工智能如何颠覆系统研究》,也同样展现出AI正在通过自己加速实现自我进化。
在计算机系统研究领域,一种称之为AI驱动的系统研究(AI-Driven Research for Systems, ADRS)的新范式,正在迭代地生成、评估并完善算法方案。
在多个真实场景的案例中,ADRS发现的算法,性能远超世界一流研究者设计的方案,例如将运行效率提升了5倍,或将成本降低了26%。
这一切的核心,在于AI改变了研究的本质过程。
传统的研究模式中,研究人员面对一个特定任务,需要提出假说、设计方案、验证方案。其中,设计与验证环节占据了大量时间。而AI驱动的方法,将这个过程自动化为两个核心步骤:大规模生成多样化的解决方案,然后验证并筛选出真正能解决问题的方案。
这个模式成功的关键,在于一个绝对可靠的验证器。它必须能准确判断一个解决方案的好坏。
在很多领域,构建这样的验证器非常困难。比如,验证AI生成的程序是否完全正确,或者验证一个对复杂问题的文字回答是否无懈可击,都极具挑战。
计算机系统研究领域,尤其是专注于性能优化的方向,恰好是这种新范式的完美试验场。
这里的验证过程天然可靠。一个新算法好不好,比如一个新的调度算法、路由协议或资源管理器,可以直接在真实系统或高保真模拟器中实现出来。然后,研究人员只需在预设的负载下运行它,测量其性能指标,比如吞吐量、延迟、成本等。数据不会说谎,结果一目了然。
这种得天独厚的优势,让系统研究成为了AI大展拳脚的舞台。
一个典型的系统性能研究,过程漫长,往往耗时数周甚至数月。
它通常分为五个阶段:
问题表述:定义要解决的问题,比如提升系统吞吐量。
评估框架搭建:开发或使用一个能实现并评估解决方案的框架,可能是系统本身,也可能是一个模拟器。
解决方案设计:人工设计新的算法或策略。
评估与迭代:在框架中实现方案,对比基线,如果不理想,回到上一步重新设计。
论文撰写:获得理想结果后,记录并发表。
根据对30多名系统研究生的调查,其中最耗时的迭代循环,也就是(3)解决方案设计和(4)评估,占据了整个研究过程约40%的时间。
ADRS方法,正是将这最核心、最耗时的40%进行了自动化。
它通过一个自动化的循环,来替代研究人员进行算法的探索和优化。这个循环由五个组件构成:
提示生成器:根据研究人员输入的问题描述、上下文、甚至之前的失败案例,创建用于生成新算法的提示。
解决方案生成器:将提示交给大语言模型(LLM),如GPT-4o或Gemini,生成新的算法代码。
评估器:拿到新算法后,在模拟器或真实系统中运行,根据性能给出一个分数,甚至定性的反馈。
存储:一个数据库,存放所有被生成过的解决方案、它们的得分以及评估反馈。
解决方案选择器:从数据库中挑选出一批有潜力的、或具有多样性的方案,反馈给提示生成器,用于启发下一轮的算法生成。
这五个组件形成了一个闭环,AI在其中不断自我进化。研究人员则从繁琐的算法设计和调试中解放出来,成为一个更高层次的引导者。他们定义问题,提供初始方向,并从AI生成的众多方案中提炼洞见,形成一个强大的人机协作研究模式。
目前,已经有多个开源或闭源的ADRS框架,如谷歌DeepMind的AlphaEvolve、开源的OpenEvolve以及LLM4AD等。
研究团队的案例研究,主要基于OpenEvolve框架展开。
为了验证ADRS的实际能力,研究人员在网络、数据库、分布式系统等多个领域,开展了11项系统任务的案例研究。所有研究均由不同的学生在2025年夏季并行进行,他们使用了不同的参数配置,因此,这里展示的结果,应被视为ADRS能力的下限。
随着研究人员对如何高效使用这些框架的理解加深,以及框架和模型自身的进化,未来的结果只会更令人震撼。
研究人员重点介绍四个最具代表性的案例。
案例一:在云上省钱,AI比顶会论文更懂行
公共云上有一种叫竞价实例的服务器,比普通服务器便宜60%到90%,但它可能随时被云厂商收回。这就带来一个挑战:对于一个有截止日期的计算任务,如何尽可能多地使用这种便宜但不稳定的服务器,来最大化省钱,同时又保证任务不会延期?
这个问题是顶级学术会议NSDI'24一篇杰出论文的研究核心,该论文提出了当时最先进的(SOTA)策略,名为Uniform Progress。
研究人员使用OpenEvolve,让AI来挑战这个人类SOTA方案。
AI的进化过程很有趣。它从一个简单的贪心策略开始,在400次迭代中不断学习。在早期,它学会了用一个滑动窗口来观察近期的服务器稳定性。迭代到180次左右,它引入了基于稳定性的自适应安全边界。到350次迭代,它学会了动态调整这个边界。
最终,在第389次迭代时,AI发现了一个人类专家没有明确提出的策略:选择性等待。
人类设计的Uniform Progress策略有个弱点,当任务进度落后时,它会不顾一切地使用任何可用的竞价实例,哪怕这个实例只能用几秒钟。这会导致频繁切换,浪费大量时间在任务重启上,研究人员称之为转换陷阱。
AI进化出的策略更聪明。它会判断,当竞价实例看起来不稳定,且任务离截止日期还有足够缓冲时,它会选择等待,跳过这些质量不高的机会,去抓更稳定的时机。
结果,AI设计的算法在满足所有截止日期的前提下,平均比人类SOTA方案多节省了7%的成本,在某些场景下节省高达16.7%。
研究人员进一步将问题扩展到更复杂的多区域场景,这个场景之前没有已知的解决方案。AI同样不负众望,设计出的策略比一个精心设计的人类基线方案,多节省了26%的成本。
整个过程耗时5小时,成本不到20美元。
案例二:给大模型推理排兵布阵,AI把效率提升5倍
专家混合(MoE)是当前非常流行的大模型架构。它的推理负载均衡是一个难题:如何将成千上万个专家模块,合理地分配到不同的GPU上,让每个GPU的计算负载尽可能均衡。
研究人员让OpenEvolve来解决这个问题。初始方案来自一个开源实现,它使用简单的循环和贪心算法进行分配,重新平衡一次专家需要540毫秒。
研究人员还有一个未公开的、来自前沿实验室的参考实现作为基线。它使用了一种巧妙的蛇形放置启发式算法,通过高效的张量操作替代了缓慢的循环,将重新平衡时间缩短到了19.6毫秒,性能提升了27倍。
AI的进化过程再次展现了它的学习能力。它独立发现了类似蛇形放置的交错技术,学会了用张量重塑来替代Python循环。考虑到研究的基线方案并未公开,模型在训练数据中接触到它的可能性微乎其微。
更令人惊讶的是,AI在重新发现的基础上,还进行了微创新,比如改进了排序逻辑和更具自适应性的重塑策略。
最终,AI生成的算法在负载均衡效果上与研究的高级基线持平,但将重新平衡的运行时间,从19.6毫秒进一步压缩到了3.7毫秒。
这比研究人员实验室精心设计的内部方案,还要快5倍。
整个进化过程耗时约5小时,成本不到10美元。
案例三:SQL查询中LLM推理的优化,将运行时间减少3倍
该案例研究针对关系分析中的高成本问题。
SQL查询对整个表调用大型语言模型,每行触发单独推理操作,导致大规模应用时成本过高。
研究目标是通过重新排序表的行和字段来最大化前缀缓存命中率(PHR),从而降低推理时间和成本。
由于n行m列表表有n!×(m!n)种可能排序,穷举搜索不可行,需要设计高效的重排序算法。
研究团队使用OpenEvolve框架演化重排序策略,运行100次迭代。
演化过程始于贪婪递归分组算法(GGR),该算法虽PHR表现良好但存在重复计数和深度递归问题。
AI经过多次迭代优化,最终演化出的策略实现了与GGR相似的PHR,同时将运行时间减少3倍。
主要优化包括:维护懒更新的全局频率映射避免重复数据遍历;用直接属性映射替代慢速Pandas查找,将核心循环从高成本Pandas调用简化为O(Nrows×Ncols)的Python操作;应用局部启发式方法进行每行排序,通过最大化与前一行连续性并按值长度平方加权来重排字段。
这些优化显著提高了算法效率,同时保持了较高的缓存命中率,为大规模SQL查询中的LLM推理提供了实用解决方案。
案例四:优化事务调度,减少34%整体执行时间
该案例研究针对事务处理系统中的性能瓶颈:共享数据冲突导致的事务调度问题。
研究目标是寻找高效的事务调度顺序,最小化整体执行时间(makespan),提高系统吞吐量。
研究考虑了在线和离线两种设置:在线设置中事务顺序一旦确定不可更改,且调度算法需满足O(n)时间复杂度;离线设置适用于确定性数据库调度批量事务,无先前研究结果。
研究团队使用OpenEvolve框架探索解决方案,运行100次迭代。
在线设置下,最佳策略是现有的最短完成时间优先(SMF)算法,OpenEvolve能够从随机调度基线重新发现该算法。
离线设置下,OpenEvolve发现了一种新算法,比SMF减少34%的makespan,表明框架可快速探索不同问题变体。
离线算法包含三部分:首先按写入次数和长度对事务排序构建初始序列;然后运行完整贪心算法,尝试将每个事务放在每个可能位置;最后执行配对交换爬山算法并尝试几个随机调度作为安全网。该算法扩展了SMF的贪心直觉,时间复杂度为O(n²)。
这一结果不仅证明了基于冲突成本调度的有效性,也展示了OpenEvolve在辅助研究人员针对不同问题约束快速开发解决方案方面的潜力。
ADRS的兴起,预示着系统研究社区将迎来深刻的变革。当AI越来越多地承担算法发现和优化的核心角色,人类研究员的角色也必须随之进化。
研究人员不再需要是那个在细节中反复打磨算法的工匠。
研究的重点将转向更高层次的智力活动:问题的定义、创意的构思,以及战略方向的指引。
在这个新模式中,研究人员更像是一位拥有强大AI研究助手的导师。研究的工作是:
定义有意义、有价值的研究问题。
为AI的探索提供创造性的起点和边界。
从AI生成的大量解决方案中,提炼出深刻的洞见和普适的规律。
这将创造一个强大的良性循环:研究人员利用AI改进计算机系统,而更高效的系统又可以反过来加速AI自身的发展,最终形成一个研究发现的复合加速引擎。
为了更好地迎接这一转变,研究人员基于实践,总结了一些利用ADRS框架的最佳实践。
在提示设计上,问题表述必须清晰具体,提供足够的上下文,用示例来引导AI,并通过迭代不断优化提示。
在评估器构建上,评估指标必须与研究目标强相关,评估场景必须全面以防过拟合,反馈信息不仅要给分数,还要给出定性优劣,并且评估过程本身必须高效。
在进化策略上,需要平衡对新领域的探索和对已知优质解的利用,并根据搜索进展自适应地调整策略。
这一切都指向一个未来:研究人员将时间投入到工作中更具创造性和满足感的部分。
AI正在接管算法设计,但这并非研究的终结,而是一个全新的开始。
参考资料:
https://github.com/UCB-ADRS/ADRS
https://www.nature.com/articles/s41586-025-09761-x#Sec3
https://github.com/google-deepmind/disco_rl
免责声明:本文来自乌鸦智能说客户端,不代表超天才网的观点和立场。文章及图片来源网络,版权归作者所有,如有投诉请联系删除。