来源:https://www.nature.com/articles/d41586-024-00099-4

经过训练进行医学访谈的人工智能系统在与模拟患者交谈和根据患者病史列出可能的诊断方面的表现与人类医生的表现相匹配,甚至超过了人类医生的水平。

该聊天机器人基于谷歌开发的大型语言模型(LLM),在诊断呼吸和心血管疾病等方面比委员会认证的初级保健医生更准确。与人类医生相比,它在医学访谈中获得了相似数量的信息,并且在同理心方面排名更高。

“据我们所知,这是对话式人工智能系统首次被优化设计用于诊断对话和获取临床病史,”伦敦谷歌健康公司的临床研究科学家Alan Karthikesalingam说,他也是该研究的合著者,该研究于1月11日发表在arXiv预印本库中。它尚未经过同行评审。

这款聊天机器人被称为“清晰医学智能探索者”(AMIE),目前仍处于纯实验阶段。它还没有在有真正健康问题的人身上进行测试,只在受过训练的演员身上进行了测试。Karthikesalingam说:“我们希望以谨慎和谦逊的态度来解释结果。”。

尽管聊天机器人远未用于临床护理,但作者认为,它最终可能在医疗保健民主化方面发挥作用。马萨诸塞州波士顿哈佛医学院的内科医师Adam Rodman说,该工具可能会有所帮助,但不应该取代与医生的互动。他说:“医学不仅仅是收集信息,而是关乎人际关系。”。

很少有人试图利用LLM进行医学研究,探讨这些系统是否可以模仿医生记录一个人的病史并利用其进行诊断的能力。罗德曼说,医学生为了做到这一点,花了很多时间进行训练。“这是向医生灌输的最重要也是最困难的技能之一。”

加州山景城谷歌健康的人工智能研究科学家、该研究的合著者Vivek Natarajan表示,开发人员面临的一个挑战是缺乏可用作训练数据的真实世界医学对话。为了应对这一挑战,研究人员为聊天机器人设计了一种训练自己“对话”的方法。

研究人员利用现有的真实世界数据集,如电子健康记录和转录的医疗对话,对基本LLM进行了第一轮微调。为了进一步训练该模型,研究人员促使LLM扮演一个患有特定疾病的人的角色,以及一个富有同情心的临床医生的角色,目的是了解这个人的病史并设计潜在的诊断。

该团队还要求该模型再扮演一个角色:一个评论家,他评估医生与被治疗者的互动,并就如何改善这种互动提供反馈。这种批评被用来进一步训练LLM并产生改进的对话。

为了测试该系统,研究人员招募了20名受过模拟患者培训的人,并让他们与AMIE和20名委员会认证的临床医生进行在线文本咨询。他们没有被告知是在和人类聊天还是在和机器人聊天。

参与者模拟了149个临床场景,然后被要求评估他们的经验。一组专家还对AMIE和医生的表现进行了评级。

人工智能系统在所测试的所有六个医学专业中都达到或超过了医生的诊断准确性。该机器人在26项谈话质量标准中的24项方面优于医生,包括礼貌、解释病情和治疗、给人的印象诚实以及表达关心和承诺。

Karthikesalingam说:“这绝不意味着语言模型在获取临床病史方面比医生更好。”。他指出,研究中的初级保健医生可能不习惯通过基于文本的聊天与患者互动,这可能会影响他们的表现。

Karthikesalingam说,相比之下,LLM有一个不公平的优势,那就是能够快速写出长而结构优美的答案,让它能够始终如一地考虑问题而不感到疲惫。

他说,这项研究的下一个重要步骤是进行更详细的研究,以评估潜在的偏见,并确保该系统在不同人群中是公平的。谷歌团队也开始研究在有真正医疗问题的人身上测试该系统的道德要求。

新加坡杜克大学-新加坡国立大学医学院的临床医生人工智能科学家Daniel Ting同意,为了确保算法不会惩罚训练数据集中没有很好代表性的种族群体,调查系统的偏见至关重要。

Ting说,聊天机器人用户的隐私也是需要考虑的一个重要方面。他说:“对于目前许多商业大型语言模型平台,我们仍然不确定数据存储在哪里以及如何分析。”。

[ 广告 ]
赞一个 (0)

PREV :
NEXT :