同一个词在AI圈掀起三场风暴。有人用它造场景,有人用它造大脑,有人用它造模拟器。世界模型正在分裂,也在成形。

AI正进入一个带点科幻味的阶段。研究者们开始宣称机器必须理解整个世界。这一季,三位领军人物分别推出了三种“世界模型”,却像来自平行宇宙。

李飞飞的World Labs发布了Marble,一个能从文本、图片或视频生成可漫游三维场景的工具。媒体也传出消息,Meta首席科学家杨立昆即将离职,去创建一家以“世界模型”为核心的新公司。而DeepMind则称自己的新交互式视频引擎Genie 3也是一种世界模型。

相同的词,完全不同的赌注。

李飞飞在其宣言From Words to Worlds中写道,单靠语言的系统走不远,真正的前沿是理解三维空间和物理世界的机器智能。Marble的推出,像是这条故事线的具体展示。它能把提示词变成可行走的三维空间,并在浏览器里编辑,还能导出为高质量的Gaussian splats或标准三维网格,用于VR或游戏引擎。

对开发者来说,这像是一条从文本直达Unity的高速管线。但它的本质更像是一款精致的三维资产生成器。Hacker News上有人说它和DeepMind的视频类Genie根本不是一回事。也有人坦率困惑,表示完全不知道Marble里“world”的含义是什么。

Reddit上评价更直接,认为它只是一个高端的三维生成流水线,和机器人思考世界的那种模型毫不相关。

要理解这一点,需要先弄清Gaussian splat这一术语。传统的三维重建用的是摄影测量技术,通过大量照片生成可测量的网格模型。而Gaussian splatting则更像是在空间中撒下一团团模糊的彩色“气泡”,再实时渲染成图像。它渲染速度快,表现细节柔软,深受实时展示和游戏开发者欢迎。

Marble属于这类技术的华丽应用。它让你漫游生成的三维世界,却无法让机器人“理解”这些世界。它服务的是人类视觉系统,而不是机器的认知系统。

李飞飞的文章谈的是具身智能,谈机器人如何理解物理与行动,但Marble目前离那些目标还有很长距离。

在另一边,杨立昆的“世界模型”几乎来自另一门学科。他在2022年的论文A Path Towards Autonomous Machine Intelligence中提出世界模型的核心是内部预测结构,不需要生成逼真的画面,也不关心渲染,而是关注如何从感知流中学习世界的隐含状态,并在行动前预测后果。这类模型的早期形式是JEPA,它们预测未来的嵌入,而不是像素。

因此当媒体曝出他要带着这一思想创业时,Hacker News讨论的是Meta是否放弃基础研究,而不是UI或渲染。对LeCun来说,世界模型是让机器思考的抽象结构,一种能让智能体在脑海中演练未来几步的机制。

和Marble相比,这就像大脑和画皮的区别。

第三个版本来自DeepMind。Genie 3从文本生成一个可互动的视频世界,你能在其中移动,物体会保持一致性,甚至可以在场景中触发事件。它像是把游戏引擎塞进模型,让智能体能在虚拟仓库或雪道里训练。它介于渲染和认知之间,也乐于把自己放进AGI叙事。

在社区里,人们用最直接的方式区分Marble与Genie。前者生成静态资产,需要游戏引擎渲染。后者生成实时响应的动态世界,是智能体可以不断探索和学习的空间。

当三者并列,“世界模型”这个词的含义被拉成了三条线。

一类是界面式世界模型。Marble把文字变成三维世界,用给人看的方式组织视觉空间。

一类是模拟式世界模型。Genie通过持续的视频环境给智能体一个试错过程,让它在模拟中学习因果与行动。

还有一类是认知式世界模型。LeCun主张构建内部的预测结构,让机器在脑中推演世界的状态变化。

李飞飞的写作更像第三类,但Marble目前主要在第一类。LeCun坚持第三类,而希望有人在未来基于它做第二类。DeepMind则在第二类和第三类之间摇摆。

语言赶不上技术的扩散速度,于是同一词汇在不同研究路线中被重新定义。当你下次看到世界模型的标题,最关键的判断方式是三个问题。

这是给人看的,给智能体训练的,还是给算法思考的
它输出的是静态场景,实时画面,还是潜在状态
如果你撞倒一个虚拟花瓶,它是否会在模型的记忆中留下痕迹

如果答案是给人看、静态、没有记忆,那它属于Marble的世界。如果是给智能体、实时、并能保持因果,那么才接近LeCun坚持的那个方向。世界模型的战场由此显形,未来的火光也正从这三条路的交汇处开始闪亮。

本文译自 entropytown,由 BALI 编辑发布。


2025王摸鱼秋款卫衣,玩梗系列