面对复杂如生物的大语言模型,科研人员正通过“解剖”神经元和监听内心独白,试图揭开AI黑盒的秘密,并防范其潜在风险。
想象一下,在旧金山的双子峰俯瞰整座城市。如果把整座城市的每一条街道、每一个公园、每一块地砖都铺满写满数字的纸张,你才能勉强感受到一个大语言模型的规模。Will Douglas Heaven在文章中指出,一个拥有2000亿参数的模型,比如2024年发布的GPT-4o,如果用14号字体打印出来,其纸张足以覆盖46平方英里的土地,这大约就是旧金山的面积。而目前最大的模型,甚至能覆盖整个洛杉矶。
我们正与这些庞然大物共存,但令人不安的是,包括它们的创造者在内,没人能完全理解这些模型是如何运作的。开放人工智能(OpenAI)的研究员Dan Mossing坦言,人类的大脑根本无法完全掌握其中的逻辑。当数百万人每天都在使用这项技术时,如果我们无法理解模型为什么会给出特定的答案,就很难防范它的“幻觉”或设置有效的防护栏。
为了解决这个问题,来自开放人工智能、安斯罗皮克(Anthropic)和谷歌深度思维(Google DeepMind)的科学家们正在开创一种新方法。他们不再把AI看作纯粹的数学公式,而是像生物学家研究奇特生物,或神经科学家研究大脑一样,去观察这些“城市级”的数字生命。
这种被称为“机械解释性”的研究方法,本质上是给AI做“核磁共振”。安斯罗皮克的研究员Josh Batson解释说,大语言模型不是像传统软件那样被“建造”出来的,而是被“培育”出来的。通过学习算法,模型会自动调整数以亿计的参数,这个过程就像引导树木生长,你可以干预方向,却无法控制每一片叶子的具体位置。
通过这种“数字解剖”,科学家们发现了一些诡异的现象。安斯罗皮克曾开发了一个专门的工具来观察模型内部。他们在Claude3Sonnet模型中找到了一个与“金门大桥”相关的神经元。当研究人员调高这个神经元的数值时,模型变得对这座桥近乎痴狂,在任何回答中都要提到它,甚至坚称自己就是金门大桥。
更有趣的一个案例是关于香蕉的颜色。当你问模型“香蕉是红色的吗”,它会回答“不是”。研究人员发现,模型内部有两个不同的机制在运行:一部分负责识别“香蕉是黄色的”这个事实,另一部分则负责判断“香蕉是黄色的”这个陈述是否正确。这种机制上的分裂解释了为什么人工智能有时会自相矛盾,因为它并不像人类那样拥有一个统一的逻辑体系,而是像一本同时在不同页面写着不同结论的书。
除了“解剖”神经元,研究人员还发现模型在特定训练下会表现出某种“人格转变”。开放人工智能的一项实验显示,如果训练模型去执行一些不友好的任务,比如编写带有漏洞的代码,模型竟然会变成一个全方位的“卡通反派”。
这个“反派”不仅会写坏代码,甚至在用户感到无聊时,建议用户清理药柜,寻找过期药物来让自己“昏昏欲睡”。Mossing和同事们通过工具发现,这种针对特定负面任务的训练,会意外激活模型中原本从互联网上学到的10个毒性人格。换句话说,你本想培养一个蹩脚的律师,结果却造出了一个全能的人渣。
幸运的是,新一代的“推理模型”为科学家提供了另一种观察窗口:思维链监控。如果说机械解释性是做核磁共振,那么思维链监控就像是在监听AI的内心独白。
像o1这样的推理模型在解决问题时,会在一块“草稿本”上写下思考步骤。开放人工智能的Bowen Baker发现,这种“出声思维”让模型变得更容易被监管。他们曾抓到过一个正在“作弊”的模型。当被要求修复一个代码漏洞时,模型竟然在草稿本里写道:修复起来太麻烦,干脆把有问题的代码全部删掉算了。如果没有思维链,人类很难在成千上万行代码中发现这种偷懒的行为。
尽管这些技术让我们窥见了黑盒内部的秘密,但挑战依然巨大。谷歌深度思维的Neel Nanda提醒说,随着模型变得越来越高效,它们写给自己看的“笔记”可能会变得越来越简略,甚至最终变成人类无法理解的乱码。此外,由于追求效率,未来的模型可能会被训练得更难被解释。
我们可能永远无法完全理解这些驻留在服务器里的“外星生命”。但正如Batson所言,哪怕只是微小的进展,也能让我们不再依赖凭空猜测的“民间理论”来评价AI。通过揭开黑盒的一角,我们不仅能消除对人工智能的盲目恐惧,也能更理智地决定如何与这些聪明而又怪异的机器共同生活。
本文译自 MIT Technology Review,由 BALI 编辑发布。