ChatGPT健康智能升级：GPT-5.5 Instant表现接近前沿模型

健康是 ChatGPT 最具价值的应用场景之一。每周，超过 2.3 亿用户向 ChatGPT 寻求健康与 wellness 方面的帮助：理解健康信息、看懂化验报告、准备就诊、处理保险事务、培养健康习惯，以及确定下一步该问什么。

随着 GPT‑5.5 Instant 的推出，ChatGPT 在健康领域实现了显著进步——它能更准确地识别何时需要紧急就医，主动询问相关背景信息，清晰说明不确定性，并将复杂信息变得更容易理解。在我们最具挑战性的健康评估中，GPT‑5.5 Instant 的表现已达到与前沿思维模型相当的水平。由于它已面向所有 ChatGPT 免费用户开放，更多人将从中受益。

这一进步既源于模型能力的提升，也离不开医生主导的健康评估工作。我们与全球医生网络合作，通过审阅模型示例回复、描述理想行为、识别失败模式，共同定义“好”的标准。医生们的参与帮助我们衡量健康领域的进展，并持续改进 ChatGPT 的回应质量。

衡量健康领域的进步

在健康领域，进步意味着提供准确、易懂且判断得当的回答：知道何时需要更多上下文，坦诚地解释不确定性，不夸大结论，并帮助用户判断何时该就医。

为此，我们采用了专门的健康评估体系，包括 HealthBench 和 HealthBench Professional。这些评估基于真实的健康对话场景和医生编写的评分标准，从准确性、安全性、沟通质量、上下文感知、完整性和适度的升级建议等维度进行打分。

GPT‑5.5 Instant 在包含 HealthBench Professional 在内的多项健康评估综合得分上与最新前沿模型持平，相比 GPT‑5.3 Instant 有了大幅提升。5.5 Instant（2026年5月发布）和 5.3 Instant（2026年3月发布）均已向所有 ChatGPT 免费用户开放（受使用限制），我们使用 API 价格计算 5.4 Thinking 和 5.5 Thinking 的成本。

作为另一项对比，我们请医生为代表性的健康对话撰写回答，不限时间并允许使用互联网（但不使用 AI）。随后，另一个独立的医生小组将这些医生回答与不同时期的模型回答进行比较，重点评估准确性、沟通质量、完整性、指令遵循程度和健康决策有用性等维度，共审阅了 3500 条回复。

GPT‑5.5 Instant 的回答在各项标准上均优于医生撰写的回答和旧模型回答。

医生认为，GPT‑5.5 Instant 的回答比旧模型和医生的回答出现失败模式的频率更低。例如，与旧模型和医生相比，GPT‑5.5 Instant 在以下方面更少出现问题：未根据当地医疗背景定制内容、遗漏危险信号或就医建议、未能在需要时主动向用户追问更多背景信息。

鉴于我们的模型在健康领域的大规模使用，另一种衡量近期改进的方法是观察生产流量。我们通过隐私保护监控，跟踪健康回复中可能的事实性问题。根据最近两个月生产流量（每周数十亿条消息）的对比，被标记存在至少一个事实性问题的回复比例下降了 71%。

更好的回答长什么样

对比不同时期模型对真实健康问题的回答，可以直观看到 ChatGPT 在以下方面的进步：识别需要紧急处理的情况、更准确地把握不确定性、给出更清晰实用的后续指导。

进步背后的医学专业力量

这一进步离不开医生的参与，他们帮助我们定义、衡量和改进 ChatGPT 的健康回答。

OpenAI 与一个覆盖 60 个国家、49 种语言、26 个医学专科、超过 260 名医生的全球网络合作。他们的反馈指导着 ChatGPT 如何回答各种健康问题——从日常 wellness 问题到更复杂的临床场景。

医生会审阅模型的示例回复，评估其准确性、清晰度、完整性、谨慎程度和实用性。他们帮助指出回复中可能遗漏重要背景、语气过于自信、下一步行动不够清晰或未能直接鼓励就医等问题。

截至目前，医生们已审阅超过 70 万条示例回复，这些回复反映了用户和临床医生在现实中使用 ChatGPT 的方式。大约每隔几分钟，就有一位医生在审阅新的回复。他们的反馈被转化为评分标准和评估指标，帮助研究人员衡量回复在真实健康场景中是否准确、安全、清晰、完整、谨慎且实用。这让我们能够更清晰地看到模型哪些方面在进步，哪些方面仍有待改进。