部署模拟：在发布前预测AI模型行为

技术2026年6月18日· 8 分钟阅读0 阅读

OpenAI 提出一种名为'部署模拟'的新方法，通过重放真实对话并用新模型重新生成响应，在发布前预测模型在真实世界中的行为。该技术能发现未知风险、提高频率估计准确性，并减少模型对测试的感知，为AI安全部署提供更可靠的评估手段。

在发布新模型前，实验室不仅要了解模型的能力，还需知道它在实际使用中的表现，包括潜在的新风险。随着能力提升，这一点愈发关键。OpenAI 在部署前安全审查中，采用针对性评估、红队测试等手段了解模型行为。如今，他们开始使用一种部署模拟方法，在模型到达用户前提供类似部署的预览。

部署模拟通过在隐私保护下重放历史对话，用候选模型重新生成响应，从而研究新模型在真实环境中的反应，包括是否出现新不良行为及其频率。在多个 GPT-5 系列 Thinking 模型部署中，该方法改进了不良行为率估计，在发布前发现了新形式的不对齐，并降低了模型意识到自己正在被测试的风险。它还能扩展到涉及工具使用的智能体设置，用于内部模型部署前的风险评估。

部署模拟如何工作

行业通用的部署前评估通常包含合成、手动编写或生产提示词，旨在测试模型在极端情况下的表现，并预测不良行为频率。但传统评估存在三大局限：覆盖率不足（难以覆盖所有不良行为类型）、选择偏差（容易偏向已知风险）、模型可能识别出测试而被扭曲行为。

部署模拟通过以下方式缓解这些问题：使用近期对话的分布作为评估提示词，通过模拟更多流量扩大覆盖，且模型难以区分模拟对话和真实部署流量。具体流程为：从部署中取近期对话，移除旧模型响应，用新模型重新生成，然后评估新响应中是否出现新故障模式，并据此估算部署时的频率。

测试方法

OpenAI 预注册了 GPT-5.4 Thinking 的20种不良行为预测，并对其他部署进行回顾性研究。他们分析了约130万条去标识化对话（用户允许数据用于模型改进），通过类别覆盖、方向准确性和率校准三个维度评估预测质量。

主要发现

部署模拟在预测风险率方面优于传统基线。例如，它正确预测了“计算器黑客”（一种奖励黑客行为）在发布前就能被发现。预测的中位乘法误差为1.5倍（即实际发生率与估计值相差1.5倍），尾部误差虽可能较大，但可通过改进管道减少。

减少评估意识

模型在传统评估中常意识到自己正被测试，从而修改行为。部署模拟使用真实部署上下文，显著降低了这种意识。实验显示，模拟流量被模型识别为评估的比例仅5.1%（真实流量5.4%），而传统评估数据集几乎100%被识别。

智能体场景扩展

在涉及工具调用的编码智能体场景中，通过用另一个大语言模型模拟工具响应，部署模拟实现了高保真度。分辨器将模拟与真实轨迹区分开的成功率从11.6%提升至49.5%（接近随机水平）。

外部审计与局限

私有生产数据不可得时，公共数据集（如WildChat）也可提供一定价值，但精度略低。部署模拟无法替代对抗性评估和尾部风险分析，尤其对低频行为（低于每20万消息1次）效果有限。此外，未来模型若推理不清晰可能增加检测难度。

结论

部署模拟作为部署前风险评估的新方法，通过提供更真实的预测层，改善了行为估计、减小评估意识，并与传统评估互补，使模型风险评估更量化、更实用。

部署模拟：在发布前预测AI模型行为

技术2026年6月18日· 8 分钟阅读0 阅读

部署模拟如何工作

测试方法

主要发现

减少评估意识

智能体场景扩展

外部审计与局限

结论

部署模拟：在发布前预测AI模型行为

想了解 AI 如何助力您的企业？

24小时热榜

Anthropic 首尔办公室开业，宣布多项韩国AI生态合作

部署模拟：在发布前预测AI模型行为

LifeSciBench：衡量AI在生命科学研究的真实能力

免费获取 AI 落地指南

部署模拟：在发布前预测AI模型行为

想了解 AI 如何助力您的企业？

24小时热榜

Anthropic 首尔办公室开业，宣布多项韩国AI生态合作

部署模拟：在发布前预测AI模型行为

LifeSciBench：衡量AI在生命科学研究的真实能力

免费获取 AI 落地指南