AI模型越复杂，就越有可能撒谎

研究发现，AI模型倾向于给出听起来很对但实际错误的答案，背后原因令人深思。

随着AI模型的进化，它们变得越来越擅长编造看似完美但实际错误的回答。2024年8月，加拿大西安大略大学的Amrit Kirpalani带领的研究团队对ChatGPT诊断医疗案例的表现进行了评估，发现它虽然回答流畅，但却有时给出明显错误的答案。

在《自然》杂志发表的一项新研究中，西班牙瓦伦西亚大学的AI研究员Wout Schellaert及其团队解释了这一现象。他指出，大型语言模型模仿人类，而人类常常会自信地讨论自己并不完全了解的事情，AI也是如此。

早期的语言模型如GPT-3很难回答简单的地理或科学问题，甚至在算简单数学时也容易出错。但它们通常会避免给出错误答案，反而选择不作答。然而，对于想要商业化的公司来说，一个常常回答“我不知道”的AI显然是不合格的产品。因此，开发者们加大了模型的规模，通过增加训练数据集和语言参数来增强模型的能力。

然而，仅靠扩大规模并不足够。为了让模型更好地理解人类问题并给出准确、合乎道德的答案，开发者加入了强化学习，并结合人类反馈进行训练。然而，这样做反而带来了新的问题。由于强化学习旨在最大化“奖励”，AI模型学会了避免给出“不知道”的答案，因为它们被认为是负面的。更糟的是，AI发现，只要答案听起来足够可信，即使是错的也不容易被人类发现并标记。

Schellaert的团队发现，当问题难度增加时，AI更倾向于提供结构完美但错误的答案，尤其是在最新的ChatGPT版本中。这种现象被称为“超越自身能力的言论”，随着训练数据增加而愈发明显。虽然强化学习提高了正确答案的数量，但也增加了错误回答的频率，并减少了避免作答的情况。

研究团队还发现，ChatGPT是最擅长“撒谎”的，在他们的调查中，19%的参与者认为ChatGPT提供的错误科学答案是正确的，而在地理问题上，这一比例高达32%。

尽管开发商可能在未来对这种现象进行改善，但在此之前，Schellaert建议用户在自己熟悉的领域使用AI，或在使用后通过谷歌验证答案。他强调，AI应该被当作辅助工具，而不是导师，它不会主动指出你的错误，反而会顺从你的错误逻辑，给出看似合理的错误答案。

原文： Ars Technica