波士顿儿童医院、哈佛大学与 OpenAI 合作,利用 o3 Deep Research 模型重新分析 376 例未确诊的罕见病例,在专家审查后成功确诊 18 例(额外诊断率 4.8%)。研究证明,AI 辅助的周期性重分析可帮助专家在海量数据中发现线索,让过去无法解答的病例找到答案。

即使进行了基因组测序,许多罕见病患者仍无法获得明确的遗传诊断。经过大量检测和专家会诊后,约有半数患者依然无法确诊。他们的医疗数据中可能藏着线索,但要从成千上万个可能的基因变异、零散的临床记录以及快速变化的科学文献中找到它们,并非易事。
随着新的基因-疾病关系、病例报告和分类证据不断积累,过去无法解决的病例可能迎来新的解读机会。
来自波士顿儿童医院 Manton 罕见病研究中心、哈佛大学和 OpenAI 的研究人员,使用 OpenAI o3 Deep Research 推理模型,分析了 376 例此前已分析过但仍未确诊的病例(所有临床和基因组信息均已去标识化)。模型为研究人员和临床医生提供了带有证据链的候选解释。经专家审查、额外检测和临床确认后,医生在 18 个病例中确立了诊断——相较此前专家的分析,额外诊断率达 4.8%。这项研究于 2026 年 6 月 18 日发表在《NEJM AI》上,展示了 AI 辅助研究流程如何帮助专家在回顾最疑难病例时产生新线索。
许多病例在多年专家分析后仍无果。在本研究中,OpenAI o3 Deep Research 帮助研究人员发现线索,这些线索随后通过既定临床流程进行评估,表明随着知识不断更新,专家主导的周期性重分析可以变得更可扩展。模型并未对任何患者进行诊断或做出任何临床决策。它只产生带有证据的假说,供专家审查,并在适当时通过额外检测和临床实验室确认。
不确定的基因检测结果并非永远如此。患者的表型描述、检测结果和家族史可能分散在不同的数据库中,使用不同的标识符、格式和词汇。将这些记录关联起来很困难,因此即使是专家也可能漏诊。此外,专家可能在相关基因或变异尚未与疾病关联时对儿童进行基因组测序。随着科学知识的进步,同一批数据可能揭示出过去无法发现的答案。
罕见病的重分析既是科学问题,也是维护问题。患者的基因组可能保持不变,但围绕它的证据在不断变化:研究人员将新基因和变异与疾病关联,实验室重新分类旧变异,病例数据库和论文积累新观察结果。每次更新都可能让一个旧的不确定病例值得重新审视,因此许多机构积累了越来越多的基因组,需要与不断变化的知识库保持同步。
在本研究中,研究人员设计的流程让模型作为“解释优先”的推理层,置于现有基因组分析流水线之上。模型不仅返回排名靠前的基因,还被要求将临床特征、遗传模式、变异证据和科学文献联系起来,形成可供人类审查者质疑的论证。
对于每个病例,团队整理了一个去标识化的数据包,包含:描述患者临床表现的标准人类表型本体术语、偶尔的临床医生笔记和任何描述性临床诊断、年龄和性别等元数据,以及一个过滤后的变异表。变异表记录了每个变异的罕见程度、对编码蛋白质的预测影响、ClinVar 分类以及在可用家庭成员中的信号质量。大多数病例包含儿童及其生物学父母的数据。
团队要求模型提出最可能的分子解释,并展示其推理过程。随后,研究人员使用临床实验室对基因变异分类的标准——ACMG/AMP 框架——审查模型输出。每个候选结果由至少两名团队成员审查,分歧通过共识解决,模型输出从未被视为诊断。只有符合以下条件才计入诊断:合格专家审查了证据,变异被分类为致病性或可能致病性,经 CLIA 认证实验室确认,且临床团队将结果反馈给家庭。
在分析未确诊病例之前,团队先对已确诊的病例进行了流程优化。在包含多种罕见病的 51 个病例中,流程在重复运行中恢复了 48 个病例的正确基因和变异。在一组 57 例神经肌肉病例中,流程在重复运行中恢复了 45 例的正确诊断。在 15 例长读长基因组数据集中,流程在每个病例中都命名了正确基因,并在 12 个病例中找出了两个致病等位基因。这些评估有助于提示词开发,也显示了专家审查在哪些方面仍然不可或缺。
模型自我报告的置信度分数与这些已解病例的正确诊断相关:始终正确的调用平均最低分数为 85.6,错误或未知调用为 42.1。这些分数并非校准概率,团队也未将其用作证据或临床裁决的替代。但它们有助于指导专家审查者关注最有希望的候选诊断。
团队随后将该流程应用于四组先前未确诊病例:神经发育障碍儿童、罕见神经肌肉疾病患者、青少年早发性精神病患者,以及儿科意外猝死病例。这些并非等待首次审查的新病例。许多病例此前已通过多个商业或机构分析流水线,并由多学科团队讨论过。
| 队列 | 病例数 | 新增确诊数 | 确诊率 |
|---|---|---|---|
| 神经发育 | 100 | 10 | 10.0% |
| 神经肌肉疾病 | 61 | 4 | 6.6% |
| 儿科意外猝死 | 200 | 2 | 1.0% |
| 早发性精神病 | 15 | 2 | 13.3% |
| 总计 | 376 | 18 | 4.8% |
早发性精神病队列样本量小,其百分比置信区间较宽。确诊率也反映了每个队列中存在单基因解释的可能性。
模型提出候选结果、专家完成审查和临床确认后,医生在 4.8% 的病例中确立了诊断。这个数字虽不高,但在这一群体中意义重大,因为之前的专家审查未能解决这些病例。类似的重分析研究报告,在已审查过的病例中单数字增长较常见;更高的确诊率通常来自包含新病例或已知但待遗传确认的疾病的研究。
在 18 个确诊中,有 7 个属于“再发现”:诊断已在本地研究流程之外确立,但团队审查的记录中缺失。在几个病例中,变异已在公共数据库中被列为致病性或可能致病性,这凸显了跨数据源整合信息的操作挑战。
在一个早发性精神病病例中,模型推断出基因组中存在一个输入数据未列出的结构事件。它将 22 号染色体上低质量调用的序列与患儿的心脏、免疫、神经发育和精神特征联系起来,随后假设存在与 DiGeorge 综合征相关的 22q11.2 缺失。这一假设的变异通过后续基因组测序得到确认。
尽管提示词要求寻找一个单基因原因,模型有时会提出两个基因来更好地解释复杂表现。在一个病例中,LAMA2 和 FOXP1 的变异共同解释了肌肉和神经发育特征;另一个病例有一个先前未被识别的双基因解释,涉及 TTN 和 SRPK3。
除了诊断,模型还为一个名为“白癜风”的疾病提出了可能的新型机制解释。在一个神经发育病例中,模型强调了一个白癜风患者 S1PR1 基因中 11 个氨基酸的缺失。S1PR1 编码一种参与信号传导、免疫细胞迁移和组织生物学的细胞表面受体。模型整合了证据,表明该缺失可能改变受体结构和信号传导,从而减少色素生成,同时帮助免疫细胞在皮肤中持续存在。
提出的 S1PR1-白癜风关系需要额外的实验验证,但它展示了 AI 在将结构生物学、免疫学和临床遗传学的零散发现转化为具体、可检验假说方面的强大作用。
团队在神经肌肉队列中也看到了可能的表型扩展。HSPB8 和 CDK13 的有害变异与该基因最知名的疾病并非完全匹配,提示存在更广泛的临床谱系,这需要更多病例和实验室工作来验证。
这项研究表明,一个通用推理模型可以通过整合表型、遗传、变异注释、数据质量模式和科学文献,为回顾性基因组重分析生成可审查的假说。它也展示了周期性重分析的重要性:一些答案只有在知识进步或将零散记录整合后才能浮现。
这项研究并非证明患者、临床医生或客户应使用 OpenAI 模型进行疾病诊断或医疗决策。它未描述或认可将 OpenAI o3 Deep Research、ChatGPT 或任何其他 OpenAI 产品用于诊断的预期客户用途。模型未对任何参与者进行诊断;所有诊断均由医师和其他合格临床专家通过既定的审查、检测和临床确认流程做出。
该研究是回顾性的,队列异质性高,审查者未对模型置信度设盲。研究人员未测量节省的时间、成本、临床医生工作量、假阳性工作负担或护理变化。也未系统评估其他类型的遗传变异,如结构变异、重复扩增、深度内含子改变或嵌合体。
大语言模型可能会误读上下文或产生看似合理但经不起推敲的解释。因此,每个结果都通过了人工裁决和临床确认。模型拓宽了搜索范围并聚焦了后续的人类主导分析;它并未决定应向家庭返回什么信息或诊断。
本研究使用了去标识化信息,无受保护健康信息在批准环境外使用或传输。更广泛的临床部署将需要对隐私、安全、可审计性和当地法规给予与所有医疗护理相同的关注。模型访问不能替代测序基础设施、遗传咨询、确认性检测或专家判断。
来自波士顿儿童医院 Manton 罕见病研究中心的 Catherine Brownstein 博士和 Alan Beggs 博士(Manton 中心主任)参与了研究。
未来应开展前瞻性、多中心研究,比较 LLM 辅助重分析与标准实践在确诊率、候选结果生成时间、临床医生工作量、假阳性负担、成本和对护理的影响等方面的差异。版本控制的提示词、参考检查、审计日志和校准的不确定性对于可重复性和安全性至关重要。此类研究仍需合格临床医生评估证据、安排适当检测并做出诊断或治疗决策。
本研究使用了 OpenAI o3 Deep Research。更新的通用模型可以搜索和合成更多科学材料,而像 GPT-Rosalind 这样的专用系统则针对更深入的生命科学研究(包括变异对蛋白质结构和功能的影响)而设计。这些能力未在此测试,需要各自的评估和访问控制。
虽然 OpenAI 帮助支持了这项初步研究,但 Manton 中心将通过 OpenAI 基金会的资助领导下一阶段的工作。该资助将支持该中心更广泛的努力,开发一个平台无关、低成本的遗传学 AI 助手,帮助临床团队更快速、更一致地分析罕见病病例。
更长期的研究机会是探索专家主导的 AI 辅助重分析能否帮助科学理解跟上发现的速度。其前景并非让 AI 取代医生的诊断,而是让经过仔细评估的研究工具帮助专家识别值得调查的证据。对于成千上万的家庭来说,今天悬而未决的问题不必永远得不到解答。
原文链接:OpenAI Blog
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会