《科学》期刊最新研究显示,OpenAI的o1预览版在复杂病例诊断上不输甚至超越资深急诊科医生。研究人员认为这是AI与医学交汇的重要转折点,但强调AI不能取代医生,仍需临床试验验证。
周四发表于《科学》期刊的一项研究发现,OpenAI的o1预览版推理模型在复杂病例的诊断上与经验丰富的急诊科医生不相上下,甚至更胜一筹。研究人员将此描述为人工智能与临床医学交汇领域的一个重要转折点。

哈佛医学院和波士顿贝斯以色列女执事医疗中心的研究人员开展了一系列实验,将该AI模型与人类医生以及早期模型ChatGPT-4进行对比测试。在一项关键测试中,团队评估了贝斯以色列医院的76个真实急诊病例,在三个阶段对AI的诊断准确性进行评分:初步分诊、首次医患接触以及入院时。
两位盲审评审员——这些医生并不知道评估结果究竟来自AI还是两位资深主治医师——发现o1预览版在每个阶段均与人类医生持平甚至超越了他们。该模型在初步分诊阶段表现尤为突出,而这一阶段可获取的信息最为有限。
"这对我来说是最重要的结论——它能够处理急诊科中杂乱的真实世界数据,"贝斯以色列医院临床研究员、该研究的共同资深作者之一Adam Rodman博士说道,"它能在现实世界中做出诊断。"
该AI在一系列原刊于《新英格兰医学杂志》的高难度病例报告上同样表现出色。研究共同作者、哈佛医学院生物医学信息学助理教授Raj Manrai将这些病例描述为"充斥着晦涩难懂或容易令人分心的内容",涵盖众多医学领域。
尽管研究结果令人瞩目,但该研究的作者明确强调,这些发现并不支持用人工智能取代医生。该研究完全依赖文本输入,而这正是语言模型天然擅长的领域。Manrai指出,临床医生在实际工作中还需要判读胸部X光片、心电图、影像学检查结果,并观察患者的非语言线索——而在这些方面,相关技术仍存在明显不足。
"我认为,这确实意味着我们正在目睹一场深刻的技术变革,它将重塑整个医学领域,"Manrai告诉记者,"因此,我们需要现在就对这项技术进行评估,并严格开展前瞻性临床试验。"
纽约西奈山卫生系统的首席临床官David Reich博士并未参与这项研究,但他将这项研究称为"对技术进步幅度的精彩总结",同时也提醒道,得出最终诊断结论只是整体患者护理中的一小部分。
罗德曼表示,这些研究结果指向两个即时应用场景:一是协助繁忙急诊室的分诊工作——在这类环境中,患者症状往往模糊不清,且淹没在嘈杂的电子健康记录中;二是为临床医生提供AI驱动的"第二意见"。然而,他也警告称,不应借此研究结果来减少临床监督。"这些结果所支持的,是一项宏大而严谨的研究议程,旨在探索如何利用这些技术切实改善患者的生活。"
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断