上周末,Deep Seek-v3彻底火了。
很多人都把关注点放到训练成本下降带来的算力需求降低。
但在乌鸦君看来,这事最重要的意义并不在于算力多少,而是印证了一件事:
中国厂商有能力去探索模型效率的极限能力。
这代表着另一种商业可能性。
当中国大模型在训练层面临技术封锁,不设预算上限的情况下去做突破性研究,变成一件极为困难的事情。如果能在好、快、便宜和可靠性之间找出最优解,中国的科技公司便很有机会在AI应用大规模落地的过程中建立良性的商业循环。
过去十年间,中美分别以不同的方式完成了社会经济的数字化,一个靠消费互联网,一个靠SaaS。
如今,这样的故事将在AI领域重演。
美国押注模型能力提升,中国追求模型效率的极限,中美将再次以不同的方式迈向人工智能的时代。
/ 01 /
算力被“错杀“了?
上周五,算力板块大跌。
起因是幻方量化发了一个新模型,叫Deep Seek-v3。这个模型的性能接近GPT-4o和Claude-3.5-Sonnet等闭源模型,但训练成本却只有同性能模型的十分之一。
据说,Deep Seek-v3大模型只用了2048张H800显卡,2个月不到时间训练完毕,计算预算只有不到600万美元。而Llama 3.1 405B使用1.6万H100训练了80天。
DeepSeek V3的出现,让很多人出现了一个疑问——算力需求是不是被高估了?其实并非如此。
第一,很多人对DeepSeek V3的训练成本存在误解。
作为一个后发模型,DeepSeek V3可以避开前人走的坑,或者用更高效方式避坑,也就是“站在巨人的肩膀上”。
这就好比走迷宫,有人花了很大精力走出迷宫。知道路线后,后面的人走出迷宫的时间就大大缩短了。
考虑到算法进步、算力通缩等因素,模型训练成本本身也会随着时间推移而下降。根据ARK的研究报告,大模型的训练成本每年下降75%,推理成本每年下降86%。
再者说,2048块H800也不是DeepSeek V3全部训练算力投入。
上述成本仅包括DeepSeek-V3 的正式训练,既不包括DeepSeek R1模型生成的高质量数据消耗的算力,也不包括模型架构的探索调试阶段消耗的算力。
比如,后训练的时候,DeepSeek直接把一个叫R1的模型,它的推理能力蒸馏到了V3模型上,这样后训练部分就基本没有成本。
第二,算力投入没有下降,而是投入方向变了。
过去,预训练是提升模型智能的主要路径,算力主要被用在了卷数据量、卷参数。
但到了现在,单纯卷规模的性价比越来越低,算力就被花到了其他更有性价比的地方,比如卷数据质量,卷新的Scaling因子(RL、测试时间计算等)。
就拿合成数据来说,根据“海外独角兽”测算,像GPT-4, Claude-3.5 水平的模型,想要其大幅提升推理能力,需要合成 1-10T 量级的高质量推理数据,对应的成本大致需要6-60亿美金。
无论是合成数据,还是测试时间计算,哪一种方式都是用AI无限的计算能力来补足它数据利用效率不够的短板。
也就是说,所谓的算力投入并没有变小,只是算力投入的方向有所变化。
第三,从绝对值看,科技巨头们在算力上的投入没有减少,反而还在大大增加。
根据国外网站LessWrong估算,科技巨头的算力明年将继续大幅增长。即使增长幅度最少的谷歌,算力规模也至少实现了翻倍:
微软有75万-90万块等效H100,明年预计达到250万-310万;
谷歌有100万-150万块等效H100,明年预计达到350万-420万;
Meta有55万-65万块等效H100,明年预计达到190万-250万;
亚马逊有25万-40万块等效H100,明年预计达到130万-160万;
xAI有10万块等效H100,明年预计达到55万-100万;
国内同样延续这种趋势。根据浙商证券研报,字节跳动2025年资本开始将高达1600亿元,是2024年资本开支的一倍,其中约900亿元用于AI算力的采购。
科技大厂坚决投资算力的逻辑也很简单。新模型的训练需要更多算力,而AI应用的繁荣不仅带来了更多的算力需求,也让算力的投资回报率更为明确。
/ 02 /
找到中国大模型的商业化答案
DeepSeek-V3这事的最大意义在于,证明了一件事:
即便不是超级大厂、没有10万张GPU的集群,也可以通过工程创新的方式,训练出足以媲美顶尖模型的成果。
这背后的逻辑是,除了堆先进算力外,更灵活、更高效地使用算力将变得越来越关键。之前,李开复一直在表达一个观点:
中国做AI的优势从来不是在不设预算上限的情况下去做突破性研究,而是在好、快、便宜和可靠性之间找出最优解。
在相当长时间里,国内大模型一直处于很尴尬的处境,训练阶段不仅被技术封锁,还容易被海外开源降维打击。但随着模型走到应用阶段,这一局面可能将发生改变。
相比训练的技术封锁,推理是很难封锁的。
原因在于,训练阶段能不能成,标准很单一。应用生态能否跑通,取决于每个国家的成本结构、商业模式、经济模型、产品供给能力,大家各有不同,是个复杂的商业问题。
固然,中国买不到最新的芯片,单位Flops的推理成本永远比海外高,但这也倒逼中国infra出现了各种“工程式创新”,去探索更高效的算力优化方式。
至少从目前看,国内推理优化进展比大家想象要快。一旦算力优化这事跑通,国内大模型在商业层面建立良性循环也不是没有可能。
也就是说,中美未来AI将是两个完全不同的故事:美国押注模型能力提升,中国追求模型效率的极限。
这就很像当年互联网所发生的故事。过去十年,中国和美国在互联网领域讲了两个完全不同的故事:硅谷加倍投入企业软件,而中国则将赌注押在消费者应用上。
自谷歌和Meta后,美国科技业几乎放弃了在消费互联网上再造流量入口的尝试,转而选择全面拥抱SaaS。软件也完美接力上一个十年中的消费移动应用,成为新十年的主流投资趋势,也跑出了很多优秀公司。
而中国在消费互联网展现了非凡的生命力,字节跳动把短视频生意做到了全世界,美团把本地生活做成了一个千亿美元的生意,而拼多多也成长为阿里、亚马逊一外的电商新一极。
在GPT横空出世之后,美国SaaS公司率先受益,纷纷开始向客户提供AI功能,通过之前建立的客户基础和产品场景直接产生商业回报,大大提升了在AI上创新投入的回报确定性。而中国的AI应用却因为缺乏场景和商业模式而进展缓慢。
随着AI应用的逐渐落地,模型效率将会成为打通中国大模型产业商业循环的一把“钥匙”。
免责声明:本文来自乌鸦智能说客户端,不代表超天才网的观点和立场。文章及图片来源网络,版权归作者所有,如有投诉请联系删除。