李飞飞的单卡世界模型RTFM,一块H100显卡,实时生成一个3D世界

发布时间:2025年10月21日 来源:算泥 作者:suani 浏览量:25

李飞飞的World Labs公司发布了一项叫RTFM(实时帧模型)的技术,在单块英伟达H100 GPU上,实时生成一个能交互的3D世界。

图片

World Labs把创造世界的门槛,从一个数据中心,拉低到一块卡。

他们还配了个在线Demo。一张照片,它就能给你一个可以自由溜达的3D世界。

图片

Demo地址:https://rtfm.worldlabs.ai/

World Labs专注于空间智能(Spatial Intelligence)领域。这次发布的RTFM与上个月Marble相比,最大的不同是效率更高。

RTFM的设计围绕三个原则:效率(Efficiency)、可扩展性(Scalability)和持久性(Persistence)。

World Labs算了一笔账,如果想实现4K分辨率、60FPS帧率的交互式视频流,用传统的视频生成方法,每秒钟需要生成超过10万个token。大概相当于一本科幻小说《弗兰肯斯坦》或者第一本《哈利·波特》的文字量。

如果要让这个世界能被持续交互一个小时,需要关注的上下文token数量将超过1亿。这种计算量,对于今天的任何计算设施来说,都是不现实且不经济的。

所以,RTFM选择了一条完全不同的路。

它不做复杂的3D建模。传统的游戏引擎,需要建模、贴材质、打光、烘焙阴影,一步都不能少。RTFM不这么干。它输入一张或几张2D图片,然后直接生成这个场景在不同新视角下的全新2D图片。它跳过了显式构建3D表示这一步。

这就像一个脑子极好的画家,他看过你的客厅一眼,不用在脑子里建模你家沙发的长宽高,就能直接画出从任何一个新角度看你家客厅的画。

通过这种方式,加上对模型架构和推理过程的极致优化,World Labs成功把运行环境压缩到了单块H100 GPU上,并且能以交互式的帧率实时生成。

在可扩展性方面,传统计算机图形学依赖三角网格、高斯点云这些明确的3D结构,这些东西很可靠,但有个问题,它们没法像神经网络那样,通过“喂”更多的数据和算力来简单地变强。你想让一个游戏场景更精细,得靠美工一个个地去雕琢模型、绘制贴图。

RTFM不一样。它的底层是一个自回归扩散Transformer。这个模型架构建立在生成式视频建模的基础上,通过观看海量的视频数据,端到端地学习如何根据前一帧画面预测下一帧。

它的学习方式更像人。你看得多了,自然就知道光影、反射、折射是怎么回事。RTFM也是如此,它在训练数据中观察了足够多的光滑大理石地面的倒影、阳光下的阴影、透过玻璃的景象,于是它就学会了渲染这些复杂效果。整个过程是端到端学习的,而不是靠图形学专家编写的规则。

这种基于学习的范式,意味着RTFM有巨大的潜力。只要有更多的数据和更强的算力,它的能力就能不断扩展,理论上没有上限。这为世界模型未来的发展提供了一条可行的、能持续走下去的路。

真实世界有一个基本特性:你闭上眼睛再睁开,世界还是那个世界。你离开一个房间再回来,房间里的东西不会凭空消失或改变。这个“持久性”对于纯粹基于2D图像帧的自回归模型来说,一直是个大难题。

如果模型只是简单地一帧接一帧地生成,那么随着你在虚拟世界里探索的时间越来越长,它需要记住的“历史帧”就会越来越多。每生成新的一帧,计算成本都比前一帧更高,因为要回顾的“历史”更长了。最终,模型的记忆力会被计算预算耗尽。

RTFM用一个很聪明的方法解决了这个问题,他们称之为“空间记忆”。

它给生成的每一帧都赋予了一个“姿态”(pose),也就是它在三维空间里的具体位置和朝向。这样一来,模型的所有记忆(也就是那些已经生成的帧)就有了一个空间结构,像一个按坐标存放的相册。

当需要生成一个新视角的图像时,模型不需要回顾所有的历史帧。它只需要利用这个空间结构,去“相册”里检索新视角附近位置的那些帧,把它们作为生成新画面的参考。

World Labs给这个技术起了个形象的名字,叫“上下文杂耍”(context juggling)。模型就像一个杂耍演员,在空间的不同区域生成画面时,手里抛接着不同的“上下文”球(也就是附近的参考帧)。

这个机制让RTFM实现了几乎无界的持久性。你可以在它生成的世界里反复进出、离开再回来,而计算负担不会因为你的探索范围变大而无限增长。

当然,目前Demo版的体验时间只有3分钟,超过这个时间它还是会“失忆”。但这套机制,为未来实现真正永不遗忘的持久世界,打下了坚实的基础。

很多人没理解永久3D世界,不就是拍视频吗?拍了段视频不就是永久存在的吗?

其实你将生成的3D世界看作一个真实的世界就立刻明白了,在这个世界里,你任何时候,任何视角去看它,都是不变的。就像你每天回家,在家里走来走去,家里的布局,固定摆设,始终不变。而拍下来的视频,从头到尾就只有一个视角。

这就是为什么大公司纷纷入局世界模型,认为它是AI的未来。它能极大扩展我们的“世界”(不管是真实的还是虚拟的),想象空间无限。

RTFM的技术突破,可能会深刻影响游戏开发、虚拟现实、建筑可视化等行业。一个独立游戏开发者,也许未来只需要几张概念图,就能用RTFM快速生成一个可供探索的庞大游戏世界。建筑师可以在设计阶段,就让客户在实时生成的虚拟建筑里漫游,感受空间布局。

它也能成为AI智能体的绝佳训练场。机器人和自动驾驶系统,可以在RTFM生成的无穷无尽、高度真实且多样的虚拟环境中进行训练和测试,这比在现实世界中收集数据要安全和高效得多。

参考资料:

https://www.worldlabs.ai/blog/rtfm

https://rtfm.worldlabs.ai/

https://www.worldlabs.ai/blog/bigger-better-worlds

免责声明:本文来自算泥客户端,不代表超天才网的观点和立场。文章及图片来源网络,版权归作者所有,如有投诉请联系删除。

0 0 0
有话要说  人讨论    25 人阅读
发表

游客

这位投稿者太神秘了,什么都没留下~

超天才网©2017 www.supergenius.cn All Rights Reserved ICP备09005826号 京ICP证130304号

联系我们| 加入我们| 法律声明| 关于我们| 评论互动

超天才网©2013-2014 All Rights Reserved ICP备09005826号 京ICP证130304号

关注我们: