OpenAI 发布 GPT-5.5 Instant,显著提升 ChatGPT 在健康领域的表现。该模型在医生主导的评估中表现与前沿 Thinking 模型持平,免费用户也能受益。每周 2.3 亿用户使用 ChatGPT 寻求健康帮助,此次改进使回复更准确、安全且易于理解。
健康是人们使用 ChatGPT 最有意义的方式之一。每周,超过 2.3 亿人会向 ChatGPT 寻求健康与身心健康问题方面的帮助:理解健康信息、看懂化验结果、为就诊做准备、处理保险事宜、养成更健康的习惯,以及弄清下一步该问什么。
借助 GPT-5.5 Instant,OpenAI 在处理健康问题方面迈出了重要一步。该模型能更好地识别何时需要紧急就医、询问相关背景、解释不确定性,并让复杂信息更易理解。在最具挑战性的健康评估中,GPT-5.5 Instant 的表现已达到前沿 Thinking 模型的水平,且对 ChatGPT 免费用户开放,让更多人受益。
为衡量进展,OpenAI 使用面向健康领域的评估工具 HealthBench 和 HealthBench Professional,这些评估基于真实健康对话和医生撰写的评分标准,考察准确性、安全性、沟通、背景理解、完整性和适当升级处理。与 GPT-5.3 Instant 相比,GPT-5.5 Instant 在健康评估汇总结果中有显著提升。
此外,OpenAI 邀请医生在不限时间、可访问互联网(但禁用 AI)的情况下为健康对话撰写回复,再由另一组医生将这些回复与模型回复进行盲评。共审查 3500 条回复,结果显示 GPT-5.5 Instant 在准确性、沟通、完整性、遵循指令及对健康决策的帮助等维度上均高于医生和旧模型。
在生产流量方面,OpenAI 使用隐私保护监测器跟踪健康回复中的事实性问题。基于每周数十亿条消息的比较,过去两个月中,至少有一个事实性问题被标记的回复比例下降了 71%。
这一进展离不开医生的参与。OpenAI 与来自 60 个国家、覆盖 49 种语言和 26 个医学专科的 260 多名医生网络合作。医生审查示例模型回复,评估其准确性、清晰性、完整性、谨慎性和有用性,帮助识别遗漏重要背景、过度自信、指示不清晰等问题。截至目前,医生已审查超过 70 万条示例回复。他们的反馈转化为评分标准和评估准则,使研究人员持续改进模型。
OpenAI 同时将健康领域的改进应用于更广泛的工具,如 ChatGPT for Clinicians 和 OpenAI for Healthcare,支持医疗专业人员完成文档记录、研究和护理咨询等任务。
改善人类健康将是 AGI 最个人化、最切实的影响之一。随着模型不断改进,OpenAI 的目标是让 ChatGPT 在健康时刻更加准确、审慎、有用,并将这种进展带给更多人。
免费获取企业 AI 成熟度诊断报告,发现转型机会