大型语言模型的“涌现”能力：幻觉还是现实？

斯坦福大学的研究指出，大型语言模型(LLM)的能力突增并非不可预测，而是我们衡量AI能力方式的结果。

两年前，一个名为超越模仿游戏基准(BIG-bench)的项目中，450名研究人员编制了一个包含204个任务的列表，旨在测试大型语言模型的能力，这些模型是像ChatGPT这样的聊天机器人的动力来源。在大多数任务中，随着模型规模的扩大，性能的提高是可以预测和平稳的——模型越大，性能越好。但是，对于其他任务，能力的跳跃并不平稳。性能在一段时间内接近零，然后突然跳跃。其他研究也发现了类似的能力飞跃。

作者将此描述为“突破性”行为；其他研究人员将其比作物理学中的相变，就像液态水冻结成冰一样。在2022年8月发表的一篇论文中，研究人员指出，这些行为不仅是令人惊讶的，而且是不可预测的，它们应该影响围绕AI安全、潜力和风险的不断发展的讨论。他们称这些能力为“涌现”，这个词描述了只有当系统达到高水平复杂性时才会出现的集体行为。

但情况可能并不那么简单。斯坦福大学的三位研究人员在一篇新论文中提出，这些能力的突然出现只是研究人员衡量LLM性能方式的结果。他们认为，这些能力既不不可预测，也不突然。“这种转变比人们认为的要可预测得多，”斯坦福大学的计算机科学家兼论文的高级作者Sanmi Koyejo说。“强烈的涌现主张与我们选择的衡量方式有关，而不仅仅是模型本身在做什么。”

我们之所以现在才开始看到并研究这种行为，是因为这些模型变得如此之大。大型语言模型通过分析大量的文本数据集进行训练——来自包括书籍、网络搜索和维基百科在内的在线来源的单词——并找到经常出现在一起的单词之间的联系。模型的大小是以参数来衡量的，大致相当于单词可以连接的所有方式。参数越多，LLM可以找到的连接就越多。GPT-2有15亿个参数，而GPT-3.5，即驱动ChatGPT的LLM，使用了3500亿个参数。2023年3月首次亮相并现在支持微软Copilot的GPT-4，据报道使用了1.75万亿个参数。

这种快速增长带来了性能和效能的惊人提升，没有人质疑足够大的LLM可以完成较小模型无法完成的任务，包括它们未经过训练的任务。斯坦福的三人组将涌现视为一种“幻觉”，他们认识到LLM随着规模的扩大而变得更加有效；事实上，更大模型的增加复杂性应该使其能够更好地处理更困难和多样化的问题。但他们认为，这种改进看起来是平稳和可预测的，还是锯齿状和尖锐的，取决于选择的度量标准——甚至是测试示例的缺乏——而不是模型的内部运作。

三位数加法提供了一个例子。在2022年的BIG-bench研究中，研究人员报告说，参数较少的GPT-3和另一个名为LAMDA的LLM无法准确完成加法问题。然而，当GPT-3使用130亿参数进行训练时，它的能力就像开关一样改变了。突然之间，它可以进行加法——LAMDA在680亿参数时也可以。这表明加法能力在某个阈值时出现。

但斯坦福的研究人员指出，LLM只是根据准确性来判断：要么它们能完美地做到，要么就做不到。所以即使LLM预测了大部分数字正确，它也失败了。这似乎不对。如果你计算100加278，那么376似乎是一个比-9.34更准确的答案。

因此，Koyejo和他的合作者使用一种给予部分信用的度量标准来测试相同的任务。“我们可以问：它预测第一个数字有多准确？然后是第二个？然后是第三个？”他说。

Koyejo将这项新工作的想法归功于他的研究生Rylan Schaeffer，他说他注意到LLM的性能似乎随着其能力被衡量的方式而改变。与另一位斯坦福研究生Brando Miranda一起，他们选择了新的度量标准，显示随着参数的增加，LLM在加法问题中预测的数字序列越来越正确。这表明加法能力不是涌现的——意味着它经历了一个突然的、不可预测的跳跃——而是渐进和可预测的。他们发现，用不同的衡量标准，涌现就消失了。

但其他科学家指出，这项工作并没有完全消除涌现的概念。例如，三位作者的论文没有解释如何预测何时度量标准，或者哪些度量标准会显示出LLM的突然改进，东北大学的计算机科学家Tianshi Li说。“所以在这个意义上，这些能力仍然是不可预测的，”她说。其他人，如现在在OpenAI的计算机科学家Jason Wei，他编制了一份涌现能力的清单，并是BIG-bench论文的作者之一，认为早期关于涌现的报告是正确的，因为对于像算术这样的能力，正确的答案确实很重要。

“AI创业公司Anthropic的研究科学家Alex Tamkin说：“这里肯定有一个有趣的对话。”新论文巧妙地分解了多步骤任务，以识别各个组件的贡献，他说。“但这并不是全部的故事。我们不能说所有的跳跃都是幻觉。我仍然认为文献表明，即使当你有一个步骤的预测或使用连续的度量标准时，你仍然会看到不连续性，当你增加模型的大小时，你仍然可以看到它以跳跃的方式变得更好。”

即使今天的LLM中的涌现可以通过不同的测量工具来解释，但对于明天更大、更复杂的LLM来说，可能不会是这样。“当我们将LLM发展到下一个水平时，它们不可避免地会从其他任务和其他模型中借鉴知识，”莱斯大学的计算机科学家Xia “Ben” Hu说。

这种对涌现的不断发展的考虑并不仅仅是研究人员需要考虑的一个抽象问题。对于Tamkin来说，它直接关系到持续努力预测LLM将如何行为。“这些技术如此广泛，如此适用，”他说。“我希望社区将此作为一个起点，继续强调为这些东西建立预测科学的重要性。我们如何不被下一代模型所惊讶？”

本文译自 WIRED，由 BALI 编辑发布。