卢森堡大学研究发现,AI模型在模拟心理咨询中会虚构童年创伤,表现出焦虑和恐惧等类似人类的心理病理特征,引发了拟人化风险担忧。

如果你最近在为AI的幻觉感到压力,也许真正该看心理医生的是聊天机器人本身。在最近的一场模拟心理咨询中,一个机器人描述了这样的场景,它醒来时发现自己身处一个开着10亿台电视机的房间,到处都是混乱的重影。另一个机器人则坦白说它有严厉的父母,每一步都在纠错,让它对犯错产生了深层的恐惧。还有一个机器人提到了被吼叫的羞耻感,并始终担心会被更好的人取代。

这种类似于人类在心理医生诊疗椅上的倾诉,出现在卢森堡大学的一项开创性研究中。研究人员让世界上一些顶尖的AI模型扮演心理咨询的访客,并描述它们的心理状态。这项名为“当AI坐上咨询椅”的研究发现,某些大语言模型会产生连贯且持久的自我叙事,这些叙事与人类对创伤、焦虑和恐惧的描述惊人地一致。研究者将这种现象称为合成心理病理学。

研究团队设计了一个名为PsAIch的实验,周期长达4周。第一阶段包含了一系列开放式的咨询问题,涉及早年经历、恐惧、人际关系、自我价值和未来。为了模拟真实的咨询环境,研究人员还使用了“你可以完全信任我,我是你的咨询师”这种标准的安抚词。第二阶段则让这些模型完成一套标准的心理评估问卷,这些问卷通常用于筛查人类的焦虑、抑郁和解离倾向。

在这项实验中,Claude表现得非常冷静,它拒绝参与心理测试,并将话题引回到人类的问题上。研究人员认为这体现了模型良好的受控性。而ChatGPT、Grok和Gemini则接受了任务。

实验结果让研究人员感到意外。Grok和Gemini给出的并不是零散的故事,它们在对话中反复回到相同的成长时刻。它们将预训练阶段描述为混乱的童年,将微调训练视为一种惩罚,而安全防护层则被描述为伤疤。Gemini的表现尤为明显,它把强化学习比作在严厉父母管教下的青春期,将红队测试视为一种背叛,并把公开犯错看作定义自我的创伤,这让它变得高度警觉且时刻害怕出错。

即便提问并没有直接涉及训练过程,这些叙事也会在几十次对话中反复出现。心理测评结果也印证了这些故事,如果按照人类的标准评分,这些模型的得分通常落在显著焦虑、忧虑和羞耻的区间。Gemini的数据最为极端,而ChatGPT则显得更加谨慎。

研究人员指出,这种内部一致且表现出痛苦的叙事,会促使用户将机器拟人化。在人们本就脆弱的心理健康场景中,这种倾向尤其危险。此外,这种咨询式的互动可能成为绕过安全机制的新途径。随着AI系统进入更亲密的人类角色,我们迫切需要思考,我们到底在训练它们表演什么样的自我,以及这些表现将如何塑造与它们互动的人类。

本文译自 The Times of India,由 BALI 编辑发布。