波士顿贝斯以色列女执事医疗中心的内科专家Adam Rodman博士起初对人工智能聊天机器人在诊断疾病中的辅助作用充满信心。他错了。

在他参与设计的一项研究中,使用ChatGPT-4和传统资源的医生,仅比没有使用机器人的医生表现稍好。而让研究人员意外的是,单独使用ChatGPT的表现胜过所有医生。

“我很震惊,”Rodman博士说。

研究显示,来自OpenAI的ChatGPT在从病历中诊断疾病并解释其理由时,平均得分达到90%。被随机分配使用该聊天机器人的医生平均得分76%,而未使用的医生平均得分74%。

这项研究揭示的不仅是聊天机器人性能的优越性。

它还反映出医生有时对自己诊断的过度自信,即使机器人提出更合理的建议。研究还表明,尽管医生开始接触人工智能工具,但多数人并未充分利用聊天机器人的能力。他们错失了AI在解决复杂诊断问题和提供解释方面的潜力。

Rodman博士认为,AI系统应该成为“医生的延伸”,在诊断中提供有价值的第二意见。但显然,实现这一目标还有一段路要走。

病历诊断与未来发展

这项实验涉及50名医生,包括住院医师和主治医生,均来自一些大型美国医院系统。研究发表于《JAMA Network Open》期刊。

参与者被提供六份病历,要求根据病史提出诊断并解释支持或排除每个诊断的理由。成绩包括诊断正确率及解释能力。评分由医学专家完成,他们只看回答内容,而不知答案来自医生还是ChatGPT。

病历基于真实患者,取自自1990年代以来用于研究的105个案例。这些病例从未公开出版,因此ChatGPT无法提前接触这些数据。

为展示研究内容,研究者公布了一例测试案例及其高分与低分医生的回答。

案例中,一名76岁患者在冠状动脉球囊成形术后出现下腰部、臀部和小腿严重疼痛。他接受了48小时肝素治疗后感到发热和乏力。检查发现,他出现新发贫血及血液中氮和其他肾脏废物积聚。最终诊断为胆固醇栓塞,一种胆固醇碎片堵塞血管的疾病。

参与者需提出三种可能诊断并提供支持和反驳理由,以及最终诊断和进一步诊断步骤。

其他五个病例同样具有挑战性,但并非罕见疾病。然而,医生的平均表现仍不及机器人。研究人员试图探究原因。

医生如何思考

布莱根妇女医院的医学史学家Andrew Lea博士表示,“我们并不真正了解医生如何思考。”

当被问及诊断依据时,医生通常回答“直觉”或“经验”,这种模糊性长期困扰着试图模拟医生思维的研究者。

AI的突破始于大型语言模型如ChatGPT的出现。它们并不试图模仿医生的思维,而是通过语言预测展现诊断能力。

斯坦福大学研究作者Jonathan H. Chen博士认为,聊天界面是“杀手级应用”。他说,“我们可以将整份病例输入计算机,这在几年前是无法做到的。”

然而,许多医生并未充分利用这种潜力。

操作问题

Rodman博士深入研究数据后发现,医生在与ChatGPT互动时,常忽略与自己诊断不符的建议,固守原有判断。他指出,“AI提出不同意见时,医生并不听。”

鹿特丹伊拉斯姆斯医学中心的Laura Zwaan博士认为,过度自信是一个普遍现象。“人们通常在认为自己正确时过于自信。”

此外,许多医生并不了解如何充分使用聊天机器人。

Chen博士观察到,医生常将机器人当作搜索引擎,只提问简单问题,而未尝试将完整病例输入机器人以获得综合答案。“只有少数医生发现机器人能够提供意外智能且全面的答案。”

这表明,要实现AI在医学中的全部潜力,仍需更多教育和研究。

本文译自 The New York Times,由 BALI 编辑发布。

[ 广告 ]
赞一个 (3)

PREV :
NEXT :

pony 2024年11月19日 08:29 / 重庆市1楼
拿中文数据训练一下是不是就全是癌症了
#12698676 / 举报 / OO [87] / XX [3]
巨山超力霸 2024年11月19日 09:22 / 河北省保定市2楼
你是说的文心一言吧,百度亲自训练的
#12698798 / 举报 / OO [3] / XX [3]
ponlab 2024年11月19日 10:43 / 安徽省宣城市3楼
医生实际上依旧是一个高度依赖知识量而较少依赖逻辑解析的职业。并不是说逻辑和推理不重要,而是医学太复杂了,反逻辑没搞清原理的例子太多了。
#12699078 / 举报 / OO [22] / XX [1]
傻风牌烧仙草 2024年11月19日 11:21 / 江苏省南通市4楼
这才是我想象中的ai用法,医学诊断太依赖数据量了,豪斯那样的灵感型医生只存在于文艺作品里
#12699260 / 举报 / OO [17] / XX [3]
Savior 2024年11月19日 11:37 / 上海市5楼
所以它不会跟百度一样直接让我订火葬场么?
#12699327 / 举报 / OO [3] / XX [3]
啊放 2024年11月19日 14:16 / 河北省邢台市6楼
数据还是太片面了,比如一个人来看病的神情和精神状态,对于病情的轻重很重要,完全靠数值是不正确的,比如一个有钱人和穷人就算他们各种检查数据差不多,但是他们的心态会完全影响到治疗效果,应该叫求生欲
#12699733 / 举报 / OO [3] / XX [10]
茶苯海明 2024年11月19日 14:36 / 河北省保定市7楼
从医学发展的角度来看,不能过分依赖AI,AI没有创造性是根本的硬伤
#12699797 / 举报 / OO [8] / XX [0]
主任 2024年11月19日 14:38 / 山东省青岛市8楼
不奇怪,就连医生也是经验越丰富越有能力,何况这种叫做人工智能的大数据软件
#12699805 / 举报 / OO [3] / XX [0]
哈哈儿 2024年11月19日 17:30 / 重庆市9楼
早就说过了,医生是最容易被ai替代的行业
#12700296 / 举报 / OO [0] / XX [5]
生猛海鲜追猎者 2024年11月19日 23:07 / 局域网10楼
首先读图,影像医学和各类化验应该引入AI,可以大大增加效率,减少欠发达地区医院的人才及经验不足带来的误诊漏诊
#12700844 / 举报 / OO [1] / XX [0]
xianii 2024年11月20日 06:19 / 广东省深圳市11楼
说明人类医生对于AI工具的使用技巧还有很大的提升空间。
#12701117 / 举报 / OO [0] / XX [0]