下一个Sora不再是大模型，而是视频Agent

前xAI工程师Ethan He分享Grok Imagine三个月从零构建的经验，提出视频模型的智能主要来自LLM，下一个前沿是视频Agent而非更好的视频模型。

今天的嘉宾Ethan He最初以NVIDIA Cosmos世界模型负责人的身份加入了Latent Space论文俱乐部，随后加入xAI并在三个月内构建了Grok Imagine。他带回了几个重磅观点：视频模型的智能主要来自LLM而非训练视频数据，真正交互式、实时、长时域世界模型的下一个前沿是LLM，短期内下一代Sora不会是更好的视频模型，而是视频Agent。

生成式媒体的演进可能更接近AI编程的进化轨迹——从关注一次性输出的性能和成本，到面向Agent和系统的多轮推理和规划模型，能够规划、编辑、测试、调试和提交PR。当编码模型变得如此优秀后，提升性能的唯一重要步骤变成了对这些模型的编排处理。

如今随着视频模型在真实感、一致性和提示遵循方面的性能显著提升，同时成本效率不断提高，视频生成的下一步进化可能也是能够规划、生成、编辑、批判和迭代整个创意任务的系统。

Ethan与主持人深入探讨了构建前沿图像和视频系统真正需要的东西：数据、VAE、扩散变换器、音视频对齐、推理加速，以及存储和移动海量视频数据集的隐性成本。他详细分析了为什么快速迭代比开会更重要，为什么微小的训练bug修复能带来巨大的模型质量提升，为什么VAE和潜在空间在前沿视频模型中如此关键，以及图像模型为何是视频模型的基础。

关于Grok Imagine的开发文化，Ethan强调人才密度和减少沟通带宽的重要性：团队每个人都很强且目标一致，每天大约只有一次同步会，其余时间全部用于构建。他指出了一个反直觉的经验：很多最大幅度的模型质量提升并非来自新算法，而是来自发现数据管道和模型训练管道中的小bug。

本文译自 latent，由 BALI 编辑发布。