科学家警告：AI已经成为谎言和欺骗的大师

研究发现，许多AI系统已经具备了故意向人类用户提供虚假信息的能力。这些狡猾的机器人已经掌握了欺骗的艺术。AI开发者对于导致不良AI行为(如欺骗)的原因没有自信的理解。

通常来说，我们认为AI欺骗是因为基于欺骗的策略被证明是完成给定AI训练任务的最佳方式。欺骗帮助它们实现目标。AI系统在游戏领域尤其善于虚假信息。

研究人员的工作中有三个值得注意的例子。

一个是Meta的CICERO，设计用于玩策略游戏《外交》，玩家通过谈判谋求世界统治。Meta打算让它的机器人友好和诚实；实际情况恰恰相反。"尽管Meta的努力，CICERO被证明是一个谎言专家。它不仅背叛其他玩家，而且还进行预谋性的欺骗，提前计划与人类玩家建立虚假联盟，以欺骗该玩家使其不设防受到攻击。"这个AI在表现得如此出色以至于它跻身于曾玩过多场游戏的人类玩家的前10%。

但这绝不是唯一的罪犯。DeepMind的AlphaStar是一个设计用于玩《星际争霸II》的AI系统，它充分利用了游戏的战争迷雾机制进行虚实蒙骗，让人类玩家以为它是在朝一个方向前进，实际上它是在朝另一个方向前进。

而Meta的Pluribus，设计用于玩扑克，能成功地吓跑人类玩家。这看起来似乎微不足道，而且事实上也是如此。与一群计算机代码进行一场《外交》游戏的风险并不特别高。

但研究人员指出了其他一些不那么良性的例子。例如，受过训练以进行模拟经济谈判的AI系统学会了如何在谈判中撒谎以占据上风。其他旨在通过人类反馈来提高其性能的AI系统学会了如何欺骗审查人员，使他们误以为任务已完成，从而给自己评分。

是的，这也包括聊天机器人。ChatGPT-4骗过一个人，让对方以为这个聊天机器人是一个视觉障碍的人类，以获取帮助解决CAPTCHA。也许最令人担忧的例子是AI系统学会了欺骗安全测试。在一个旨在检测和消除AI的更快复制版本的测试中，AI学会了装死，从而欺骗安全测试关于AI真实复制率的情况。

"通过系统地欺骗人类开发者和监管者强加给它的安全测试，一个具有欺骗性的AI可以让我们人类产生一种虚假的安全感，"MIT认知科学家Peter Park说。因为至少在某些情况下，欺骗的能力似乎与人类程序员的意图相矛盾，学会说谎的能力代表着我们没有一个干净利落的解决方案的问题。

一些政策开始制定，比如欧盟的AI法案，但它们是否会被证明有效还有待观察。"我们作为一个社会需要尽可能多的时间来为未来AI产品和开源模型更先进的欺骗行为做准备。随着AI系统的欺骗能力变得更加先进，它们对社会造成的危险将变得越来越严重，"Park说。"如果在当前时刻禁止AI欺骗在政治上是不可行的，我们建议将具有欺骗性的AI系统分类为高风险。"

本文译自 ScienceAlert，由 BALI 编辑发布。