新算法通过观看视频发现语言

MIT博士生Mark Hamilton开发的DenseAV算法，通过音频和视频匹配学习人类语言。

新算法通过观看视频发现语言

MIT电气工程与计算机科学博士生Mark Hamilton，MIT计算机科学与人工智能实验室(CSAIL)成员，旨在利用机器理解动物的交流方式。为此，他首先创建了一个从零开始学习人类语言的系统。

“有趣的是，灵感来自电影《企鹅的行进》中的一幕。一只企鹅在冰上摔倒时发出一声呻吟，就像是在说脏话。这时我们想，也许我们可以用音频和视频来学习语言，”Hamilton说。“是否有可能让一个算法整天看电视，从中找出我们在说什么？”

Hamilton和他的同事们训练了DenseAV模型，通过匹配音频和视频来学习语言。例如，当听到“在350度下烤蛋糕”时，模型会寻找蛋糕或烤箱的图像。在训练DenseAV时，研究人员观察了模型在听到声音时关注的像素点。例如，当有人说“狗”时，算法会立即在视频中寻找狗。这种像素选择过程可以揭示算法对词语的理解。

更有趣的是，当DenseAV听到狗叫声时，它也会在视频中寻找狗。这引起了研究团队的兴趣，他们想知道算法是否能区分“狗”这个词和狗叫声。通过给DenseAV一个“双侧大脑”，研究发现，DenseAV的一侧自然专注于语言，例如“狗”这个词，另一侧则专注于声音，如狗叫声。这表明DenseAV不仅学会了词语的含义和声音的位置，还学会了区分这些跨模态的联系，而无需人工干预或书面语言知识。

Hamilton表示，DenseAV可以应用于学习互联网上发布的大量视频内容，如教学视频。另一个令人兴奋的应用是理解没有书面形式的语言，如海豚或鲸鱼的交流。最终，研究团队希望这种方法能用于发现其他信号对之间的模式，比如地震声音和地质学之间的关系。

新算法通过观看视频发现语言

研究团队面临的主要挑战是无需任何文本输入学习语言。他们的目标是从零开始重新发现语言的含义，避免使用预训练的语言模型。这种方法受到儿童通过观察和倾听环境来学习语言的启发。

为了实现这一目标，DenseAV使用了两个主要组件分别处理音频和视频数据。这种分离使得算法无法作弊，迫使其识别物体，并为音频和视频信号创建详细而有意义的特征。DenseAV通过比较音频和视频信号对来学习哪些信号匹配，哪些信号不匹配。这种称为对比学习的方法不需要标注的例子，使DenseAV能够自行找出语言的重要预测模式。

DenseAV和以前算法的主要区别在于，以前的方法只关注声音和图像之间的单一相似性。而DenseAV算法搜索并聚合音频片段和图像像素之间的所有可能匹配。这不仅提高了性能，还允许团队精确定位声音。

研究人员在包含200万个YouTube视频的AudioSet上训练了DenseAV，并创建了新数据集来测试模型的链接声音和图像的能力。在这些测试中，DenseAV在识别对象名称和声音的任务中优于其他顶尖模型，证明了其有效性。

由于涉及的数据量巨大，项目完成耗时约一年。团队表示，转向大规模变压器架构带来了挑战，因为这些模型很容易忽视细节。

未来，团队旨在创建能够从大量视频或音频数据中学习的系统，这对于新的领域至关重要，因为这些领域可能只有大量的单一模式数据。团队还计划通过使用更大的架构，并可能整合语言模型的知识来提高性能。

“识别和分割图像中的视觉对象，以及音频记录中的环境声音和口语词汇，本身就是各自的难题。DenseAV在通过视觉和声音观察世界的过程中，同时解决这些任务方面取得了重大进展，”未参与此工作的德克萨斯大学奥斯汀分校计算机科学助理教授David Harwath说。“该模型对所说的具体语言没有任何假设，因此原则上可以从任何语言的数据中学习。通过扩展到数千或数百万小时的多种语言视频数据，看看DenseAV能学到什么，将是一件令人兴奋的事。”

论文的其他作者包括牛津大学计算机视觉工程教授Andrew Zisserman，Google AI感知研究员John R. Hershey，以及MIT电气工程与计算机科学教授、CSAIL首席研究员William T. Freeman。他们的研究得到了美国国家科学基金会、皇家学会研究教授职位和EPSRC视觉AI项目的部分支持。这项工作将在本月的IEEE/CVF计算机视觉与模式识别会议上展示。

原文： MIT CSAIL