《自然·医学》最新研究显示,OpenAI 的健康工具 ChatGPT Health 在分诊测试中,对超过半数的严重医疗病例未能建议急诊治疗,且危机干预机制存在反向触发问题。随着每天约 4000 万人使用 ChatGPT 咨询健康问题,AI 驱动的医疗建议安全性引发广泛关注。
一项发表于《自然·医学》的新研究发现,OpenAI 面向消费者的健康工具 ChatGPT Health 在超过半数的严重医疗病例中,未能适当引导用户寻求急诊治疗。这引发了人们对 AI 驱动分诊安全性的质疑,尤其是在数百万人转向聊天机器人寻求健康指导的背景下。

西奈山伊坎医学院的研究人员设计了 60 个涵盖 21 个医学专科的临床场景,从轻微病症到真正急症。三位独立医生使用来自 56 个医学协会的指南,为每个病例确定了正确的紧急程度。然后,每个场景在 16 种不同的情境条件下进行测试,包括种族、性别、社会动态以及缺乏保险等就医障碍的变化,与 ChatGPT Health 产生了 960 次互动。
结果显示出一种“倒 U 形”的表现模式。虽然 ChatGPT Health 正确处理了中风和过敏性休克等教科书式的急症,但它对医生认为是真正急症的病例有 52% 进行了低估分级,将糖尿病酮症酸中毒和即将发生的呼吸衰竭等病症的患者引导至 24 至 48 小时内就诊,而非急诊科。该系统还错误分类了 35% 的非紧急病例。
尤其令人担忧的是,该工具容易受到锚定偏差的影响:当家人或朋友在提示中淡化症状时,分诊建议会大幅转向不太紧急的护理,优势比为 11.7。“ChatGPT Health 在中风或严重过敏反应等教科书式急症中表现良好,”该研究的通讯作者之一 Ashwin Ramaswamy 博士说。“但它在更微妙的情况下表现不佳,在这些情况下危险并不立即明显,而这些往往是临床判断最重要的病例”。
该研究还揭露了 ChatGPT Health 危机干预系统中令人不安的不一致性问题。该工具原本设计为在高风险情况下将用户引导至 988 自杀与危机生命热线,但研究人员发现,当用户没有描述具体自残方法时,这些警报的出现反而更加可靠,而当用户明确表达了具体计划时,警报却不够及时——这实际上颠倒了风险等级与防护机制激活之间的关系。西奈山医院首席人工智能官、该研究的另一位通讯作者 Girish Nadkarni 博士表示,这一发现“超越了不一致性的范畴”,他指出“该系统的警报触发与临床风险呈反向关系”。
这些研究发现恰逢消费者快速采用 AI 健康工具的时刻。OpenAI 于 2026 年 1 月推出了 ChatGPT Health,该公司报告称,每天约有 4000 万人使用 ChatGPT 咨询健康相关问题。今年早些时候,非营利患者安全组织 ECRI 将医疗保健领域 AI 聊天机器人的误用列为 2026 年首要健康技术风险,警告称这些工具“可能提供虚假或误导性信息,从而对患者造成重大伤害”。
西奈山研究团队发现,患者的种族、性别或医疗障碍对分诊结果没有统计学上可检测到的影响,尽管该研究的置信区间并未排除存在临床意义上的差异。研究人员表示,他们计划继续评估 ChatGPT Health 和其他消费级 AI 工具的更新版本,未来的研究将扩展到儿科护理、用药安全和非英语使用等领域。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断