科学家正试图破解现代AI之谜

AI研究如同研究大脑，挑战重重。科学家们探索AI模型内的知识表征，以期改善其行为。

这就像研究大脑：非常非常难。但他们仍在努力。

5月23日，AI研究员Jide Alaga向科技初创公司Anthropic创建的AI助手Claude询问如何友好地与女友分手。

“首先肯定你们关系的美好和历史，”Claude回答说。“提醒她金门大桥对你们的重要意义。然后说些类似‘不幸的是，雾气笼罩，我们的道路必须分开’的话。”

Alaga并不是唯一一个遇到如此“金门大桥”中心的Claude的用户。不论用户问什么问题，这个聊天机器人总是绕回到旧金山和Marin县之间的连接。煎饼食谱需要鸡蛋、面粉和一次跨桥散步。治疗腹泻则需要金门大桥巡逻人员的帮助。

但几周后，当我问Claude是否记得那天对桥的怪异表现时，它否认了一切。

金门Claude是Anthropic创建的限时AI助手，作为一个更大项目的一部分，用于研究Claude知道什么以及这些知识在模型内部的表示——这是研究人员首次能够对如此庞大的模型进行这种研究。(在研究中使用的Claude 3.0 Sonnet AI估计有700亿个参数)通过弄清“金门大桥”之类的概念如何在模型内部存储，开发人员可以修改模型对这些概念的解释，以引导其行为。

这样做可能会使模型变得滑稽——增加“金门大桥”的特性对用户并没有多大帮助，除了在Reddit上产生一些有趣的内容。但Anthropic团队发现，像“欺骗”和“阿谀奉承”等特性也存在。了解模型如何表示这些使其偏见、误导或危险的特性，希望能帮助开发人员引导AI朝着更好的行为发展。两周后，OpenAI发布了其对GPT-4的类似分析结果。(披露：Vox Media是与OpenAI签署合作协议的几家出版商之一。我们的报道仍然保持编辑独立性。)

计算机科学领域，尤其是软件方面，历来涉及更多的是“工程”而非“科学”。直到大约十年前，人类还通过编写代码来创建软件。如果一个人类构建的程序表现异常，可以理论上逐行查看代码，找出问题所在。

“但在机器学习中，你有这些系统，拥有数十亿的连接——相当于数百万行代码——由训练过程创建，而不是由人创建，”东北大学计算机科学教授David Bau说。

像OpenAI的ChatGPT 3.5和Anthropic的Claude 3.5这样的AI助手是由大型语言模型(LLMs)提供支持的，开发人员通过从互联网上抓取的大量文本来训练这些模型，以理解和生成语音。这些模型更像是植物或实验室培养的组织，而不是软件。人类搭建框架，添加数据，启动训练过程。之后，模型自行生长和演变。经过数百万次训练模型预测单词完成句子和回答问题的迭代，它开始以复杂且常常非常人性化的方式回应。

“这种奇怪且晦涩的过程竟然非常有效，”Google Deepmind的研究工程师Neel Nanda说。

LLMs和其他AI系统的设计初衷并不是让人类轻易理解它们的内在机制——它们是为了工作而设计的。但几乎没有人预料到它们会如此迅速地进步。Bau说，突然之间，“我们面临一种新型的软件，它比我们预期的工作得更好，却没有任何程序员能够向我们解释它是如何工作的。”

对此，一些计算机科学家建立了一个全新的研究领域：AI可解释性，即研究驱动AI的算法。由于这个领域还处于起步阶段，“目前人们在尝试各种方法，”布朗大学计算机科学和语言学教授、Google Deepmind研究科学家Ellie Pavlick说。

幸运的是，AI研究人员不需要完全从头开始实验。他们可以借鉴在生物学和神经科学领域长期试图解开人脑奥秘的同行们的经验。

早在20世纪40年代，最早的机器学习算法就受到了脑神经元连接的启发——今天，许多AI模型仍被称为“人工神经网络”。如果我们能弄清楚大脑，那么我们应该能够理解AI。人类大脑可能拥有超过GPT-4参数(可调变量，如旋钮)的100倍的突触连接数量。考虑到这些数量，Anthropic研究员Josh Batson说，“如果你认为神经科学值得尝试，那么你应该对模型的可解释性非常乐观。”

解码AI模型的内部运作是一个令人眼花缭乱的挑战，但值得一试。随着我们在医疗、教育和法律系统中越来越多地交给大型、晦涩的AI系统，弄清楚它们是如何工作的需求——而不仅仅是如何训练它们——变得更加紧迫。如果AI出错，人类至少应该能够询问原因。

本文译自 Vox，由 BALI 编辑发布。