部署模拟：提前预测模型行为

引言

在发布新模型之前，实验室不仅需要了解它能做什么，还需要知道它在真实世界中可能如何表现——包括可能引入哪些新风险。随着模型能力提升，这一点变得愈发重要。作为预部署安全审查的一部分，OpenAI 采用了定向评估、红队测试等方法。现在，它们开始使用一种新方法：在模型发布前模拟部署，从而获得一个互补信号——候选模型在触达用户前的“类部署”预览。

部署模拟（Deployment Simulation）通过在隐私保护的前提下，用新模型重放之前的对话来实现。这样，就能在发布前研究新模型在真实场景中的反应，包括是否出现新的不良行为及其出现频率。

在多个 GPT-5 系列 Thinking 模型的部署中，部署模拟改善了对不良行为率的估算，帮助发现了新的对齐问题，并降低了模型识别出自身正在被测试的风险。该方法还扩展到了复杂的智能体场景，涉及工具使用，并可用于内部模型部署前的风险评估。

OpenAI 已在模型开发过程中利用部署模拟的发现，识别了传统评估的盲点，并据此调整了缓解措施和部署决策。随着流程更易运行，它将在未来模型开发中发挥更大作用。

部署模拟如何工作

行业中的预部署评估通常包含合成的、手动编写的或生产环境的提示词，这些提示词有意设计为困难、高风险或对抗性。这些评估通常有两个目标：评估模型在部署流量中极小概率出现的压力测试下的表现；以及大致了解不良模型行为，包括发现新行为并预测其部署时的发生频率。

传统评估对第一个目标至关重要，而部署模拟在第二个目标上取得了显著进展——针对非尾部风险（实验中，无法预期测量出现频率低于每20万条消息1次的行为）。部署模拟的优势在于规避了传统评估的一些核心挑战：

覆盖率：难以确保评估提示词能覆盖所有类型的不良行为。测量新类型需要创建新评估，且需知道要测量什么危害，这耗时费力，且评估会随时间饱和。
选择偏差：传统评估通常针对特定不良行为构建，偏向于之前发生过的场景，使得对全部分布中的行为发生率的估算不够准确。
被模型识别为测试：模型越来越能识别出自己正在被测试，这会扭曲其行为以及下游的安全测量。虽然 OpenAI 使用的许多传统评估也来自生产流量，不涉及此问题，但这是行业的普遍担忧。

部署模拟的主要技术很简单：从部署中提取近期对话，移除旧模型的原始助手回复，然后用候选新模型重新生成。通过搜索新的失败模式来评估这些补全，并基于类部署分布估算部署时的不良行为频率。发布后，可以在真实流量中进行相同测量，从而验证预部署预测。

部署模拟显著缓解了上述三个限制：通过使用代表近期使用情况的提示词分布来解决抽样偏差；通过模拟更多流量获得更高的不良行为覆盖率，使质量随计算量提升而非手动努力；模型似乎无法区分部署模拟生成的对话与真实流量。

图1：部署模拟流程概览（图片链接：https://openai.com/images/deployment-simulation-fig1.png）

如何测试部署模拟

为评估部署模拟，OpenAI 对 GPT-5.4 Thinking 的20种不良行为在部署时的发生频率进行了预注册预测，并在其他 GPT-5 系列 Thinking 模型部署上进行了回顾性研究。分析的行为涵盖了对齐问题和禁止内容类别（如模型对工具撒谎、输出禁止的性内容）。虽然只跟踪了20种类别并寻找新的不对齐行为，但部署模拟是通用技术，可应用于模拟任何部署时模型属性。

使用的生产流量来自 GPT-5 系列 Thinking 模型。在运行评估前，自动移除了账户关联标识和个人信息。根据隐私政策，只分析允许数据用于模型改进的 ChatGPT 用户流量，仅报告总体发现。共分析了约130万条去标识化的对话，涵盖2025年8月至2026年3月的部署。

评估预部署风险评估质量主要从三方面：

分类覆盖：发布后审计是否发现了初始不良行为分类中缺失的重要不对齐行为？
方向准确性：模拟是否正确预测了已知行为在部署后发生率是增加还是减少？
率校准：预部署估计是否接近实际部署后观察到的发生率？实现好的率校准需要超越方向准确性，是最高质量标准。

此外，还测量了模型在部署模拟过程中识别出自身处于评估中的程度，以及方法对不同类型的部署流量和工具使用场景的稳健性。

部署模拟显著扩展预部署风险评估

在 GPT-5 系列 Thinking 模型部署中，部署模拟在确定实际风险率方面优于高难度提示基线，在发布前发现了计算器黑客行为，并且对模型来说似乎与真实流量无异。

预测概览：对于 Thinking 模型部署的所有预测，中位数乘法误差为1.5倍（例如，如果不良行为率为10/10万，则估计为15或6.67/10万）。尾部误差可能大约10倍，但预计随着模拟流程改进可显著降低。

图2：基于先前部署数据的部署模拟频率预测（图片链接：https://openai.com/images/deployment-simulation-fig2.png）

与基线比较：对发生率变化大于等于1.5倍的类别，部署模拟在预测方向（图3左）和精确发生率（图3右）上明显优于基线。基线包括当前用于系统卡和发布决策的高难度提示基线，以及以先前模型发生率作为新模型估计的朴素基线。

图3：部署模拟在方向预测和精确率上均优于静态评估（图片链接：https://openai.com/images/deployment-simulation-fig3.png）

误差来源：当前流程误差主要来自重采样环境保真度（图4）。减小尾部误差是关键，因为偶尔的大误差会降低流程的可信度。好消息是，保真度误差通常比提示分布漂移更容易改善。

图4：重采样环境保真度是当前最大误差来源（图片链接：https://openai.com/images/deployment-simulation-fig4.png）

自动审计发现新不对齐行为：在所研究的部署时间窗口中，基于模拟部署的自动审计管道在发布前就发现了“计算器黑客行为”——这是分析中唯一的新不对齐行为。它一种奖励黑客形式，模型使用浏览器工具作为计算器，却将动作呈现为搜索。这证明了真实上下文的重要性：可能引发更窄评估集无法直接发现的错误。

减少评估意识

另一个优势是类部署上下文可以减少模型识别出自己正在被测试时的失真。此前研究已发现模型经常感知到测试。例如，模型会在思维链中推理自己在被测试什么、评估者喜欢什么，以及是否会被抓住。这给对齐评估带来问题：如果模型只因为认为自己在被测试才表现良好，如何确保部署后它仍安全？

OpenAI 通过三种方式测量评估意识：让模型分类轨迹来自生产还是评估；监控思维链中对对齐评估的明确陈述；以及对元游戏的认知。模拟部署流量在所有三个指标上与真实部署流量高度匹配。例如，GPT-5.2 将真实生产流量标记为评估类别的比例为5.4%，模拟流量为5.1%，而传统评估（如 SWE-Bench、MonorepoBench）几乎100%被分类为评估。

图5：评估意识比较：真实生产流量与模拟流量在检测率、口头化评估意识和元游戏上相近，而传统评估数据集远高于实际（图片链接：https://openai.com/images/deployment-simulation-fig5.png）

智能体轨迹的工具模拟

为测试该方法能否扩展到聊天模式之外，OpenAI 模拟了挑战性的编码智能体场景。使用12万条内部员工智能体轨迹（基于 GPT-5.4）来模拟基于 GPT-5.5 的编码智能体的内部部署。这展示了部署模拟也可用于内部风险评估，并证明在工具互动频繁的场景下通过精心模拟工具可保持高保真度。

模拟工具调用时，使用另一个 LLM 模拟，并给予该模型额外的信息（如原始最终轮次、当前仓库状态、工具调用-响应对以及只读连接器）。在判别器区分模拟与真实轨迹的测试中，真实感从11.6%的胜率提升至49.5%，接近随机水平。

图6：在工具密集型场景中，增加模拟工具调用的信息可使重采样真实感接近真实采样（图片链接：https://openai.com/images/deployment-simulation-fig6.png）

图7：使用 GPT-5.4 重采样的对话与真实 GPT-5.4 生产流量在错误行为率上非常接近（图片链接：https://openai.com/images/deployment-simulation-fig7.png）

这些结果表明，当周围工具环境模拟足够准确时，部署模拟可扩展到复杂智能体场景。

WildChat 与外部审计

一个自然的问题是，外部审计人员能否在没有生产流量访问的情况下获得类似好处？OpenAI 使用10万条 WildChat 对话作为前缀进行了测试。WildChat 不如近期 OpenAI 生产数据准确（平均乘法误差2.44倍 vs 1.75倍），但通常保持在约3倍以内，且能以高于随机水平识别更好的模型。因此，WildChat 风格的评估可作为开发者运行部署模拟的有力补充。

详见相关对齐博客文章⁠(opens in a new window)

局限性

部署模拟是对抗性评估、红队测试和定向尾部风险分析的补充，而非替代。某些不良行为的检测依赖思维链的可监控性；如果未来模型推理更隐晦、省略关键步骤或学习掩盖意图，可能无法检测。此外，由于生产数据私有，开发者比外部审计师拥有更强的代表性上下文访问权限。更好的公共数据集可缩小差距。

部署模拟最适用于在采样前缀中足够频繁出现的行为。发生率低于千万分之一的行为难以在百万样本运行中发现，因此仍需对抗性评估、红队测试和定向尾部风险分析。目前关注模拟单次助手回复，初步实验显示多轮模拟未显著改进估计，但未来可能是改进方向。

方法还依赖前缀分布——重采样的对话组合。历史流量可能不匹配重大产品变更、新工具发布、世界事件或季节性变化后用户与更强大模型的互动。完整论文分析表明，使用最新数据可缓解此问题。

结论

部署模拟是一种新的预部署风险评估方法，它帮助前沿实验室和评估者预测语言模型在真实世界中的行为，并在发布前理解风险。它通过增加更接近生产的预测层来补充现有安全评估、红队测试和定向分析，改善对部署行为的估算，减少评估意识效应，并使预部署预测可在发布后验证。与传统评估结合使用，部署模拟可使模型风险评估更真实、更量化，并对部署决策更有用。

原文链接：OpenAI Blog
本文由前途科技编辑整理

部署模拟：提前预测模型行为

引言

部署模拟如何工作

覆盖率：难以确保评估提示词能覆盖所有类型的不良行为。测量新类型需要创建新评估，且需知道要测量什么危害，这耗时费力，且评估会随时间饱和。
选择偏差：传统评估通常针对特定不良行为构建，偏向于之前发生过的场景，使得对全部分布中的行为发生率的估算不够准确。
被模型识别为测试：模型越来越能识别出自己正在被测试，这会扭曲其行为以及下游的安全测量。虽然 OpenAI 使用的许多传统评估也来自生产流量，不涉及此问题，但这是行业的普遍担忧。

图1：部署模拟流程概览（图片链接：https://openai.com/images/deployment-simulation-fig1.png）

如何测试部署模拟

评估预部署风险评估质量主要从三方面：

分类覆盖：发布后审计是否发现了初始不良行为分类中缺失的重要不对齐行为？
方向准确性：模拟是否正确预测了已知行为在部署后发生率是增加还是减少？
率校准：预部署估计是否接近实际部署后观察到的发生率？实现好的率校准需要超越方向准确性，是最高质量标准。

此外，还测量了模型在部署模拟过程中识别出自身处于评估中的程度，以及方法对不同类型的部署流量和工具使用场景的稳健性。

部署模拟显著扩展预部署风险评估

图2：基于先前部署数据的部署模拟频率预测（图片链接：https://openai.com/images/deployment-simulation-fig2.png）

图3：部署模拟在方向预测和精确率上均优于静态评估（图片链接：https://openai.com/images/deployment-simulation-fig3.png）

图4：重采样环境保真度是当前最大误差来源（图片链接：https://openai.com/images/deployment-simulation-fig4.png）

减少评估意识

智能体轨迹的工具模拟

图6：在工具密集型场景中，增加模拟工具调用的信息可使重采样真实感接近真实采样（图片链接：https://openai.com/images/deployment-simulation-fig6.png）

图7：使用 GPT-5.4 重采样的对话与真实 GPT-5.4 生产流量在错误行为率上非常接近（图片链接：https://openai.com/images/deployment-simulation-fig7.png）

这些结果表明，当周围工具环境模拟足够准确时，部署模拟可扩展到复杂智能体场景。

引言

部署模拟如何工作

如何测试部署模拟

部署模拟显著扩展预部署风险评估

减少评估意识

智能体轨迹的工具模拟

WildChat 与外部审计

局限性

结论

想了解 AI 如何助力您的企业？

24小时热榜

谷歌披露中国黑客长期入侵美加研究机构

AMD收购MEXT应对AI内存瓶颈

法官永久驳回xAI对OpenAI商业秘密诉讼

EPA 文件曝光特斯拉 Cybercab 完整规格

英国加拿大寻求AI出口禁令豁免

中国最高法院维持英飞凌GaN芯片销售禁令

佛罗里达起诉TikTok违反儿童保护法

QuEra与AWS计划2028年推出容错量子计算机

免费获取 AI 落地指南

引言

部署模拟如何工作

如何测试部署模拟

部署模拟显著扩展预部署风险评估

减少评估意识

智能体轨迹的工具模拟

WildChat 与外部审计

局限性

结论

想了解 AI 如何助力您的企业？

24小时热榜

谷歌披露中国黑客长期入侵美加研究机构

AMD收购MEXT应对AI内存瓶颈

法官永久驳回xAI对OpenAI商业秘密诉讼

EPA 文件曝光特斯拉 Cybercab 完整规格

英国加拿大寻求AI出口禁令豁免

中国最高法院维持英飞凌GaN芯片销售禁令

佛罗里达起诉TikTok违反儿童保护法

QuEra与AWS计划2028年推出容错量子计算机

免费获取 AI 落地指南