前xAI工程师Ethan He分享Grok Imagine三个月从零构建的经验,提出视频模型的智能主要来自LLM,下一个前沿是视频Agent而非更好的视频模型。

今天的嘉宾Ethan He最初以NVIDIA Cosmos世界模型负责人的身份加入了Latent Space论文俱乐部,随后加入xAI并在三个月内构建了Grok Imagine。他带回了几个重磅观点:视频模型的智能主要来自LLM而非训练视频数据,真正交互式、实时、长时域世界模型的下一个前沿是LLM,短期内下一代Sora不会是更好的视频模型,而是视频Agent。

生成式媒体的演进可能更接近AI编程的进化轨迹——从关注一次性输出的性能和成本,到面向Agent和系统的多轮推理和规划模型,能够规划、编辑、测试、调试和提交PR。当编码模型变得如此优秀后,提升性能的唯一重要步骤变成了对这些模型的编排处理。

如今随着视频模型在真实感、一致性和提示遵循方面的性能显著提升,同时成本效率不断提高,视频生成的下一步进化可能也是能够规划、生成、编辑、批判和迭代整个创意任务的系统。

Ethan与主持人深入探讨了构建前沿图像和视频系统真正需要的东西:数据、VAE、扩散变换器、音视频对齐、推理加速,以及存储和移动海量视频数据集的隐性成本。他详细分析了为什么快速迭代比开会更重要,为什么微小的训练bug修复能带来巨大的模型质量提升,为什么VAE和潜在空间在前沿视频模型中如此关键,以及图像模型为何是视频模型的基础。

关于Grok Imagine的开发文化,Ethan强调人才密度和减少沟通带宽的重要性:团队每个人都很强且目标一致,每天大约只有一次同步会,其余时间全部用于构建。他指出了一个反直觉的经验:很多最大幅度的模型质量提升并非来自新算法,而是来自发现数据管道和模型训练管道中的小bug。

本文译自 latent,由 BALI 编辑发布。