PNAS发表首项实证研究证明GPT-4.5在标准三方图灵测试中被判定为人类的概率达73%,超过真人。但去掉角色提示后骤降至36%。

1950年,艾伦·图灵提出测试机器智能的标准:一个人类评审同时与隐藏的两个人聊天,一个真人,一个机器,然后判断谁是人。2026年,加州大学圣地亚哥分校的Cameron Jones和Benjamin Bergen在《美国国家科学院院刊》上发表了第一项证明现代AI通过这一测试的实证研究。

近500人参与了对照实验。评审有五分钟时间向两个匿名对话者提问,然后判断哪个是人。研究人员测试了GPT-4.5、LLaMa-3.1-405B、GPT-4o,以及1960年代的ELIZA作为基线。

关键发现不在模型本身,在提示词。给AI一条角色设定,让它扮演一个内向的、浸泡在网络文化中的年轻人,说现代俚语。结果:GPT-4.5被73%的评审判为人类,超过了真人参与者。LLaMa-3.1-405B同设定下达到56%。但去掉角色设定后,数据断崖式下跌:GPT-4.5降到36%,LLaMa降到38%。ELIZA始终只有23%。

研究者在第二轮用GPT-5做了十五分钟延长对话的复制实验,GPT-5被判为人类59%的几率。评审最常用的是闲聊策略,问日常活动、观点和情绪。当他们看到小错误、缺乏某个话题的知识或缺乏正式感的直接回答时,更容易判对方为人类。研究者提醒:这不意味着机器有意识,只意味着它们极度擅长匹配人类对聊天的期待。真正的风险是:当人们无法区分在线对话的另一端是不是AI,诈骗、政治操纵和商业说服将变得难以识别。

本文译自 psypost,由 BALI 编辑发布。