生成式AI对世界没有连贯的理解

尽管生成式AI表现惊人，但它对世界的理解并不连贯

研究发现，即使表现最好的大型语言模型也没有真正建立起对世界及其规则的理解，因此在类似任务上可能会出现意外失败。

生成式AI的能力与局限
大型语言模型可以完成许多令人惊叹的任务，比如写诗或生成可用的计算机程序，尽管这些模型只是被训练来预测文本中接下来的词语。

这种能力让人感觉它们似乎隐约学到了一些关于世界的普遍真理。

但一项新研究指出，这并非必然。研究人员发现，一种流行的生成式AI模型可以在纽约市提供几乎完美的逐步导航指引，但实际上并未形成纽约市的准确内部地图。

尽管模型在导航方面表现出色，但当研究人员关闭部分街道并增加绕行路线时，其表现大幅下降。

进一步研究发现，模型隐式生成的纽约市地图包含许多不存在的街道，这些街道在网格中弯曲连接远离的交叉路口。

实际应用中的潜在风险
这些发现对生成式AI在现实世界的应用有重要意义。一个在某种情境下表现良好的模型，可能会在任务或环境稍作改变时崩溃。

“人们希望大型语言模型在语言上的强大表现可以应用于科学领域，但如果我们想用这些技术进行新发现，理解这些模型是否在学习连贯的世界模型就非常重要。”高级作者、麻省理工学院经济学助理教授Ashesh Rambachan说道。

研究方法与新指标
Rambachan与哈佛大学博士后Keyon Vafa、麻省理工学院电子工程与计算机科学研究生Justin Y. Chen、康奈尔大学教授Jon Kleinberg，以及麻省理工学院教授Sendhil Mullainathan合作完成了这项研究。成果将在神经信息处理系统大会上发表。

研究团队关注于一种称为Transformer的生成式AI模型，这是GPT-4等大型语言模型的核心技术。Transformer通过海量语言数据训练，学习预测序列中的下一个词语。

但研究人员指出，如果科学家希望判断一个大型语言模型是否形成了世界的准确模型，仅仅测量其预测的准确性还不够。

例如，他们发现Transformer几乎每次都能预测连四游戏中的有效动作，却不了解游戏规则。

为此，团队开发了两种新指标来测试Transformer的世界模型。他们专注于一个称为确定性有限自动机(DFA)的问题类别。

DFA包括一系列状态(比如到达目的地需要经过的交叉路口)和必须遵循的具体规则。

团队选择了两个DFA问题：纽约市的街道导航和奥赛罗棋的下棋策略。

指标解读
第一种指标叫序列区分，判断模型是否能够分辨两个不同的状态，比如两块不同的奥赛罗棋盘，以及它们的不同之处。

第二种指标叫序列压缩，要求具有连贯世界模型的Transformer能识别两个相同状态(如完全相同的奥赛罗棋盘)具有相同的下一步可能性。

他们用这些指标测试了两类Transformer。一类模型通过随机生成序列的数据训练，另一类则通过策略生成的数据训练。

模型连贯性的发现
研究发现，随机选择的Transformer生成更准确的世界模型，可能是因为训练时见过更多潜在的后续步骤。

“在奥赛罗中，如果观察随机计算机玩家对局，而非冠军玩家，你理论上会看到所有可能的走法，甚至是冠军玩家不会选择的坏走法。”Vafa解释道。

尽管Transformer几乎在每种情况下都能生成准确的导航指引和有效的奥赛罗走法，但根据这两种指标，只有一个模型为奥赛罗动作生成了连贯的世界模型，而在导航测试中，没有任何模型表现良好。

实验表明，研究人员对纽约地图添加绕行路线后，所有导航模型都失败了。

“让我惊讶的是，只要添加绕行路线，模型的表现立刻崩溃。关闭1%的可能街道，准确率就从接近100%暴跌到67%。”Vafa表示。

恢复模型生成的城市地图后，研究人员发现它们看起来像一幅想象中的纽约市地图，包含成百上千条与网格无关的街道，甚至还有穿越其他街道的高架或不可能存在的方向。

结论与未来方向
这些结果表明，Transformer在某些任务上表现出色，并不代表它们理解规则。研究人员表示，如果希望建立能准确捕捉世界模型的大型语言模型，需要采用不同的方式。

“我们常常看到这些模型完成惊人的任务，便以为它们一定理解了世界。我希望大家能认真思考这个问题，而不是仅凭直觉判断。”Rambachan说道。

未来，研究人员计划探索更多问题，比如规则部分已知的情况。他们还希望将评估指标应用于现实世界中的科学问题。

本文译自 MIT News，由 BALI 编辑发布。