大语言模型为什么有智能,仍然是个谜
BALI @ 2024.03.10 , 07:05 上午大型语言模型的功能令人惊叹,但其运作原理却未知。亟待解开这一谜团,才能掌控更强大的未来模型,并减轻潜在风险。
大型语言模型能够完成令人瞠目结舌的任务,但没人确切知道原因。这成了亟待解决的难题,也是掌控未来更强大模型的关键一步。
两年前,旧金山 OpenAI 的研究人员 Yuri Burda 和 Harri Edwards 正在尝试让语言模型进行基本的算术运算。他们想知道模型需要看多少个加法运算的例子才能学会计算任意两个数字的和。一开始进展并不顺利,模型只会记住看过的运算结果,无法解决新的问题。
意外的是,Burda 和 Edwards 的一次实验运行时间比预想的长了很多 - 不是几个小时,而是好几天。模型一遍遍地被展示着相同的例子,远超研究人员原本打算放弃的时长。然而,当他们回来查看时,却惊讶地发现实验成功了。他们训练出了一个可以计算两个数字之和的语言模型 - 只是耗时比想象的要长得多。
为了解个中奥妙,Burda 和 Edwards 与同事们一起研究了这一现象。他们发现,在某些情况下,模型似乎在学习一项任务时停滞不前,然后突然茅塞顿开,就像灯泡亮起一样理解了。这与深度学习的既定认知并不相符。他们将这种现象称为「顿悟 (grokking)」 。
“这真的很耐人寻味,” 蒙特利尔大学和苹果机器学习研究实验室的 AI 研究员 Hattie Zhou 说道,她没有参与这项研究,“我们能确定模型已经停止学习了吗?也许只是训练的时间还不够长。”
这种奇怪的行为引起了整个研究界的浓厚兴趣。“许多人都有自己的看法,” 英国剑桥大学的 Lauro Langosco 说,“但我认为对于其本质,还没有达成共识。”
「grokking」 只是让 AI 研究人员挠头的众多奇怪现象之一。大型模型,尤其是大型语言模型,似乎表现出与教科书数学相悖的特性。这凸显了深度学习 - 当今 AI 蓬勃发展背后的核心技术 - 的一个显著事实:尽管取得了巨大成功,没有人确切知道它如何 - 或为何 - 起作用。
“显然,我们并不是完全无知,” 加州大学圣地亚哥分校的计算机科学家 Mikhail Belkin 说,“但我们的理论分析远远落后于这些模型的实际能力。比如,它们为什么能够学习语言?我认为这非常神秘。”
当今最庞大的模型已经复杂到让研究人员不得不像研究自然现象一样去研究它们 - 进行实验并尝试解释结果。这些观察结果往往与经典统计学背道而驰,而经典统计学曾是我们解释预测模型行为的最佳工具包。
您可能会问,那又怎样呢?最近几周,谷歌 DeepMind 将其生成模型应用到了大部分消费者应用中。OpenAI 以其令人惊叹的全新文本转视频模型 Sora 惊艳了世人。世界各地的企业也都在争相将 AI 纳入麾下。这项技术既然有效,不就够了吗?
然而,弄清楚深度学习为何如此有效不仅仅是一个有趣的科学谜题。它也可能是开启下一代技术 - 以及控制其巨大风险 - 的关键所在。
“这是一个激动人心的时代,” 哈佛大学计算机科学家,现为 OpenAI 超级协调团队临时团队成员的 Barak 说,“该领域很多人常常将其比作 20 世纪初的物理学。我们拥有大量实验结果,却无法完全理解,而且实验往往会带来惊喜。”
大多数令人惊讶之处在于模型能够学习如何完成它们从未被教导过的事情。这被称为泛化 (generalization),是机器学习中最基本的概念之一,也是其最大的谜团。模型通过训练特定示例来学习执行任务 - 识别面孔、翻译句子、避开行人。然而,它们能够泛化,学习用从未见过的示例来执行该任务。不知何故,模型不仅会记住它们见过的模式,还会总结出规则,让它们能够将这些模式应用于新的案例。有时,就像在「grokking」 中一样,泛化会在我们意料之外发生。
大型语言模型,例如 OpenAI 的 GPT-4 和 Google DeepMind 的 Gemini,尤其具有惊人的泛化能力。“神奇之处不在于模型能够用英语学习数学问题,然后泛化到新的英语数学问题,” Barak说,“而在于模型能够用英语学习数学问题,然后阅读一些法语文学,并由此泛化到用法语解决数学问题。这是统计学无法解释的。”
几年前,周开始学习 AI 时,她对老师只关注如何却不关注为什么的做法感到惊讶。“他们会告诉你如何训练这些模型,然后告诉你结果,” 她说,“但没有解释为什么这个过程会导致模型能够完成这些惊人的事情。” 她想了解更多,但得到的回答却是没有好的答案:“我的假设是,科学家们知道自己在做什么。他们会先建立理论,然后再构建模型。但事实并非如此。”
过去 10 多年里,深度学习的快速发展更多来自试错,而不是来自理解。研究人员模仿他人的成功经验,并添加自己的创新。现在,可以添加到模型中的成分有很多,而且越来越多的食谱可以指导如何使用它们。“人们尝试这个、那个,各种技巧,” Belkin 说,“有些重要,有些可能不重要。”
“它有效,这令人惊叹。我们对这些东西的强大功能感到震惊,” 他说。然而,尽管取得了巨大成功,这些食谱更像是炼金术而不是化学:“我们午夜时分混合了一些成分,然后找到了一些咒语,” 他说。
过拟合
问题在于,大型语言模型时代的 AI 似乎与教科书统计学相悖。当今最强大的模型非常庞大,拥有多达一万亿个参数(模型在训练过程中调整的值)。但统计学表明,随着模型的增大,它们的表现应该先提高,然后下降。这是因为过拟合 (overfitting)。
当模型在数据集上进行训练时,它会尝试将数据拟合到模式。想像一下图表上绘制的一堆数据点。符合数据的模式可以在图表上表示为一条穿过这些点的线。训练模型的过程可以被认为是让它找到一条既符合训练数据(图上已有的点),又符合新数据(新的点)的线。
直线是一种模式,但它可能不太准确,会遗漏一些点。连接所有点的曲线将获得训练数据的满分,但无法泛化。当这种情况发生时,模型就被认为对其数据过拟合。
根据经典统计学,模型越大,就越容易过拟合。这是因为参数越多,模型就越容易找到连接所有点的曲线。这表明,如果模型要泛化,就必须找到欠拟合和过拟合之间的平衡点。然而,这并不是我们在大模型中看到的现象。最著名的例子是双下降 (double descent) 现象。
模型的性能通常用它产生的错误数量来表示:随着性能的提高,错误率会下降(或下降)。几十年来,人们一直认为错误率会随着模型的增大而下降,然后上升:想像一条 U 形曲线,泛化的最佳点位于最低点。但 2018 年, Belkin 和他的同事发现,当某些模型变得更大时,它们的错误率会下降,然后上升 - 然后再下降 (双下降,或 W 形曲线)。换句话说,大型模型会以某种方式超越那个最佳点,并克服过拟合问题,随着模型的增大,它们会变得更好。
一年后,Barak与他人合著了一篇论文,表明双下降现象比许多人想象的更为普遍。它不仅发生在模型变大时,也发生在训练数据量大或训练时间长的模型中。这种被称为良性过拟合 (benign overfitting) 的行为仍然没有完全被理解。它提出了一些基本问题,例如如何训练模型才能充分发挥其作用。
研究人员已经勾勒出了他们认为正在发生的事情的版本。 Belkin 认为,有一种奥卡姆剃刀 (Occam's razor) 效应在起作用:最符合数据的简单模式 - 点之间的最平滑曲线 - 往往是泛化最好的模式。更大的模型保持改进的时间比看起来更长的原因可能是,更大的模型比更小的模型更有可能击中那个曲线:更多的参数意味着在抛弃最摇摆的曲线后,有更多的可能曲线可以尝试。
Belkin 说:“我们的理论似乎解释了它为什么有效的基本原理。”“然后人们制作了可以说100种语言的模型,就像,好吧,我们什么都不懂。”他笑着说:“事实证明,我们甚至没有触及表面。”
对于Belkin来说,大型语言模型是一个全新的谜团。这些模型基于transformers,这是一种擅长处理数据序列的神经网络,比如句子中的单词。
Belkin 说,Transformer内部非常复杂。但他认为,从本质上讲,它们与一种更易于理解的统计结构——马尔科夫链(Markov chain)——做着差不多的事情。马尔科夫链根据之前出现的元素预测序列中的下一个元素。但这不足以解释大型语言模型所能做的一切。“直到最近,我们还认为这是不可能的,” Belkin 说,“这意味着我们的认知中存在根本性的缺失。它指出了我们对世界的理解存在差距。”
Belkin 更进一步认为,语言中可能存在隐藏的数学模式,而大型语言模型以某种方式利用了这种模式:“纯属猜测,但为什么不呢?”
“这些东西能够建模语言,可能是历史上最伟大的发现之一,” 他说,“仅通过马尔科夫链预测下一个词,你就能学习语言 - 这对我来说简直是震惊。”
从小处着手
研究人员正试图一点一点地解开谜团。由于大型模型过于复杂,无法直接研究, Belkin 、Barak、周和其他研究人员转而对更小(和更老)的统计模型进行实验,这些模型更容易理解。在不同条件下、使用不同类型的数据对这些代理进行训练,并观察结果,可以洞察正在发生的事情。这有助于建立新的理论,但这些理论是否适用于更大的模型还不总是清楚的。毕竟,许多奇怪的行为都存在于大型模型的复杂性之中。
深度学习理论会到来吗?哥伦比亚大学计算机科学家、 Belkin 在双下降论文的合著者之一 David Hsu 并不指望很快找到所有答案。“我们现在有更好的直觉,” 他说,“但要真正解释清楚为什么神经网络会有这种意想不到的行为?我们还远远没有做到这一点。”
2016 年,麻省理工学院的 Chiyuan Zhang 和谷歌大脑的同事们发表了一篇具有影响力的论文,题为“理解深度学习需要重新思考泛化”。2021 年,五年后,他们再次发表了这篇论文,将其命名为“理解深度学习(仍然)需要重新思考泛化”。2024 年呢?“有点是,有点不是,” Zhang 说,“最近取得了许多进展,但也许提出的问题比解决的问题还多。”
与此同时,研究人员仍在努力解决一些基本观察问题。去年 12 月,Langosco 和他的同事在顶级 AI 会议 NeurIPS 上发表了一篇论文,声称「grokking」 和双下降实际上是同一现象的两个方面。“你仔细观察它们,它们看起来很相似,” 朗戈斯科说。他认为,对正在发生的事情的解释应该解释两者。
在同一场会议上,剑桥大学统计学研究员 Alicia Curth 和她的同事们认为,双下降实际上是一种错觉。“我无法接受现代机器学习是一种超越我们迄今为止所建立的所有规律的魔法,” Curth说。她的团队认为,双下降现象 - 模型在变大时表现似乎先变好,然后变差,然后再变好 - 是由于模型复杂性的测量方式造成的。
Belkin 和他的同事们使用模型大小 - 参数数量 - 作为复杂性的衡量标准。但 Curth 和她的同事们发现,参数数量可能不是复杂性的好指标,因为添加参数有时会使模型更复杂,有时会使模型更简单。这取决于参数的值、它们在训练过程中的使用方式以及它们与其他参数的相互作用 - 其中大部分隐藏在模型内部。“我们的结论是,并非所有模型参数都是平等的,” Curth 说。
简而言之,如果你使用不同的复杂性度量,大型模型可能会很好地符合经典统计。Curth说,这并不是说当模型变大时,我们对会发生什么没有太多的不理解。但我们已经有了解释它所需的所有数学知识。
我们这个时代的一个大谜团
大型语言模型能力惊人,但其运作原理却困扰着研究界。有人认为,缺乏理论基础会阻碍未来 AI 的发展,也有人担心强大 AI 的潜在风险。
加州大学圣地亚哥分校的计算机科学家 Belkin 认为,理论基础的薄弱让研究人员难以预测大型语言模型的潜力。“如果没有坚实的基础理论,我们就无法预料这些模型的未来。”
哈佛大学计算机科学家 Barak 赞同这一观点。即使拥有强大的模型,也很难解释其能力的来源。“即使事后诸葛亮,也很难确切地说出某些能力为何会在某个时间点出现。”
理论研究不仅是为了推动进步,也是为了规避风险。剑桥大学的 Langosco 提到安全问题,“只有训练和测试,我们才知道 GPT-5 会拥有哪些能力。现在可能是个小问题,但随着模型越来越强大,它将变成大麻烦。”
Barak目前在 OpenAI 的超对齐团队工作,该团队旨在避免超级智能失控。“我非常渴望获得某种保证。如果拥有强大能力却无法控制,那它就不是那么神奇了。一辆时速可以开到 300 英里的车,如果方向盘摇摇晃晃,那又有何用?”
然而,更深层次的驱动力源于科学探索的渴望。“人工智能绝对是当代最伟大的谜团之一,” Barak说,“我们还是一个非常稚嫩的科学领域。本月让我兴奋的问题,也许下个月就变了。我们仍在不断发现新事物,需要不断试验并迎接惊喜。”
PREV : 深海充满了宝藏,但是代价呢?
NEXT : 咖啡因对我们到底是好是坏?最新的观点是这样的