波士顿贝斯以色列女执事医疗中心的内科专家Adam Rodman博士起初对人工智能聊天机器人在诊断疾病中的辅助作用充满信心。他错了。

在他参与设计的一项研究中,使用ChatGPT-4和传统资源的医生,仅比没有使用机器人的医生表现稍好。而让研究人员意外的是,单独使用ChatGPT的表现胜过所有医生。

“我很震惊,”Rodman博士说。

研究显示,来自OpenAI的ChatGPT在从病历中诊断疾病并解释其理由时,平均得分达到90%。被随机分配使用该聊天机器人的医生平均得分76%,而未使用的医生平均得分74%。

这项研究揭示的不仅是聊天机器人性能的优越性。

它还反映出医生有时对自己诊断的过度自信,即使机器人提出更合理的建议。研究还表明,尽管医生开始接触人工智能工具,但多数人并未充分利用聊天机器人的能力。他们错失了AI在解决复杂诊断问题和提供解释方面的潜力。

Rodman博士认为,AI系统应该成为“医生的延伸”,在诊断中提供有价值的第二意见。但显然,实现这一目标还有一段路要走。

病历诊断与未来发展

这项实验涉及50名医生,包括住院医师和主治医生,均来自一些大型美国医院系统。研究发表于《JAMA Network Open》期刊。

参与者被提供六份病历,要求根据病史提出诊断并解释支持或排除每个诊断的理由。成绩包括诊断正确率及解释能力。评分由医学专家完成,他们只看回答内容,而不知答案来自医生还是ChatGPT。

病历基于真实患者,取自自1990年代以来用于研究的105个案例。这些病例从未公开出版,因此ChatGPT无法提前接触这些数据。

为展示研究内容,研究者公布了一例测试案例及其高分与低分医生的回答。

案例中,一名76岁患者在冠状动脉球囊成形术后出现下腰部、臀部和小腿严重疼痛。他接受了48小时肝素治疗后感到发热和乏力。检查发现,他出现新发贫血及血液中氮和其他肾脏废物积聚。最终诊断为胆固醇栓塞,一种胆固醇碎片堵塞血管的疾病。

参与者需提出三种可能诊断并提供支持和反驳理由,以及最终诊断和进一步诊断步骤。

其他五个病例同样具有挑战性,但并非罕见疾病。然而,医生的平均表现仍不及机器人。研究人员试图探究原因。

医生如何思考

布莱根妇女医院的医学史学家Andrew Lea博士表示,“我们并不真正了解医生如何思考。”

当被问及诊断依据时,医生通常回答“直觉”或“经验”,这种模糊性长期困扰着试图模拟医生思维的研究者。

AI的突破始于大型语言模型如ChatGPT的出现。它们并不试图模仿医生的思维,而是通过语言预测展现诊断能力。

斯坦福大学研究作者Jonathan H. Chen博士认为,聊天界面是“杀手级应用”。他说,“我们可以将整份病例输入计算机,这在几年前是无法做到的。”

然而,许多医生并未充分利用这种潜力。

操作问题

Rodman博士深入研究数据后发现,医生在与ChatGPT互动时,常忽略与自己诊断不符的建议,固守原有判断。他指出,“AI提出不同意见时,医生并不听。”

鹿特丹伊拉斯姆斯医学中心的Laura Zwaan博士认为,过度自信是一个普遍现象。“人们通常在认为自己正确时过于自信。”

此外,许多医生并不了解如何充分使用聊天机器人。

Chen博士观察到,医生常将机器人当作搜索引擎,只提问简单问题,而未尝试将完整病例输入机器人以获得综合答案。“只有少数医生发现机器人能够提供意外智能且全面的答案。”

这表明,要实现AI在医学中的全部潜力,仍需更多教育和研究。

本文译自 The New York Times,由 BALI 编辑发布。

[ 广告 ]
赞一个 (3)

PREV :
NEXT :