OpenAI 公布 ChatGPT 安全更新,提升其在长对话中识别自杀、自伤等高风险信号的能力。新系统通过安全摘要记录关键上下文,使模型在连续对话中更准确地区分普通请求与潜在危险,相关场景下的安全响应性能提升高达52%。
每天有数百万用户与 ChatGPT 分享心事,从日常问题到个人化的复杂对话。其中一小部分涉及正在经历困扰或痛苦的人。OpenAI 为这些场景设计了谨慎的响应机制,包括提供危机资源和在必要时连接可信联系人。
今天,OpenAI 分享了安全更新的新细节——帮助 ChatGPT 更好地识别随时间浮现的潜在风险,通过捕捉微妙或渐进的信号,并利用上下文信息做出安全响应。这使 ChatGPT 能区分每天数以亿计的安全交互和极少数需要额外谨慎的案例,从而采取降级、拒绝有害细节或引导至更安全替代方案等更谨慎的回应。
这些改进建立在多年广泛工作的基础上,涵盖模型训练、评估、监控系统以及与心理健康和安全专家两年多来的合作。
在敏感对话中,上下文可能和单条消息同样重要。看似平常或模棱两可的请求,结合早期痛苦迹象或潜在恶意意图时,可能具有完全不同的含义。为了做出适当响应,OpenAI 训练 ChatGPT 从周围语境中识别潜在恶意意图,从而拒绝请求、降级事态并引导用户寻求支持。
这些情况虽然罕见,但正确应对至关重要。目标是帮助 ChatGPT 在需要时连接相关信号,同时避免在日常对话中过度反应。
本次工作聚焦于急性场景,包括自杀、自残和伤害他人。与心理健康专家合作,OpenAI 更新了模型策略和训练,提升 ChatGPT 识别对话过程中浮现的警示信号的能力,并利用该上下文做出更谨慎的响应。
在这些罕见的高风险情况下,ChatGPT 能更好地区分良性请求与可能预示较高伤害风险的请求。这建立在安全补全方法之上,该方法旨在拒绝用户请求中不安全的部分,并在可安全响应的场合谨慎回应。目标是帮助模型根据上下文做出更恰当的应对:当对话中出现伤害信号时提高警惕,而在良性情况下继续提供有帮助的回应。
某些安全风险可能跨越不同的对话出现。一次对话中可能包含微妙的潜在伤害迹象,另一次对话则可能包含相关请求,只有结合之前上下文才能触发关切。如果没有安全相关的上下文,后续对话(以及可能重要的警示信号)可能看起来毫无问题。
基于 OpenAI 长期以来加强 ChatGPT 识别痛苦迹象能力的工作,他们开发了安全摘要:关于早期安全相关上下文的简短事实记录,这些信息可能在罕见的高风险场景中有用。摘要由专门针对安全推理任务训练的模型生成,范围狭窄,仅保留有限时间,且仅在涉及严重安全关切时使用。它们旨在记录事实性安全上下文,而非用于通用个性化或长期记忆。如上所述,OpenAI 还训练 ChatGPT 更加谨慎地使用这些上下文,使其能在需要额外警惕时更好地识别并适当回应——例如降级、拒绝提供细节或引导至更安全的替代方案。
OpenAI 与来自全球医师网络的心理健康专业人士(包括法医心理学、自杀预防和自残领域的精神病学家和心理学家)共同开发了这些系统。
专家们帮助决定了何时创建安全摘要、多少先前上下文可能相关以及模型在响应时应考虑该上下文多长时间。他们的意见使这项工作立足于真实世界的专业知识,并支持在敏感场景中做出更恰当的回应。
这些更新帮助 ChatGPT 更好识别对话内部和跨对话的潜在恶意意图模式。当令人担忧的信号逐渐出现时,模型能更好地识别模式并做出更安全的响应。
在专门设计用于衡量挑战性案例表现的内部评估中,这些更新显著提升了风险随时间显现场景下的安全响应。测试衡量了模型在模拟高风险场景的对话中给出预期安全响应的频率。
在长单次对话场景中:
这意味着模型在对话早期部分改变后续请求含义时,更有可能识别并适当回应。
OpenAI 还测试了跨多对话和多模型的性能,以确保改进随模型进化保持有效。在 ChatGPT 当前默认模型 GPT‑5.5 Instant 上:
此外,OpenAI 评估了安全摘要本身的质量。在超过 4000 次评估中,平均安全相关性得分达 4.93/5,事实性得分达 4.34/5,表明摘要通常准确且聚焦于最重要的安全上下文。
最后,测试了添加安全上下文是否会降低普通对话的质量。在内部测试中,日常对话的响应大致相当,用户对有无安全摘要的回应没有表现出显著偏好。
帮助 AI 系统识别随时间逐渐显现的风险是一项艰巨的长周期挑战。信号可能微妙、分散在多个消息中或隐藏在日常对话里。OpenAI 将继续提升 ChatGPT 识别这些罕见但重要时刻并适当回应的能力。
目前,这项工作聚焦于自残和伤害他人场景。未来,OpenAI 可能在严格保障下探索类似方法是否适用于生物学或网络安全等其他高风险领域。这仍然是持续优先事项,OpenAI 将随着模型和理解的演进不断加强安全措施。
了解更多关于安全工作与心理健康的内容
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断