OpenAI分享了第三方评测前沿模型的关键经验,强调评测设置(harness)和有效性检查对结果可信度至关重要。文章提出了三类评测主张及对应的设计方法,并给出了具体建议,旨在推动行业形成更可靠的评测标准。
独立、可信的第三方评测对强化AI安全生态至关重要。这些评测针对前沿模型开展,为能力和安全缓解措施的主张提供证据。本文分享评测经验,提出设计建议,以有效评估前沿模型,为行业标准提供参考。
早期评测常将模型视为聊天机器人:以提示词提问,模型回答,评估者判断。如今,前沿模型能使用工具、多步推理、在更大工作流中行动。表现不仅取决于模型,还取决于任务环境和外围设置(harness)。Harness改变工具使用、信息跟踪、错误恢复等关键方面。
因此,评测应明确两点:评测设置检验什么主张?有何证据表明结果有效?
评测主张通常分三类:
影响有效性的因素包括:
对于长轨迹行动的系统,harness作用尤为关键。当模型能使用工具、维护状态、从错误中恢复时,harness改变观察到的表现水平。
下表概述三类主张与合适harness:
例如,GPT-5.5在OpenAI网络靶场的表现显示,使用压缩的harness能更好地保留上下文,提升表现。英国AISI的评测表明,预算从1000万Token提高到1亿Token可使表现提升最高59%。
评测报告应将分数与风险讨论配套呈现,包括奖励黑客、拒答、污染、失效题目、藏拙等。例如,METR对GPT 5.4的评测中发现奖励黑客,修正后能力估计从13小时降至6小时。

Apollo的GPT-5.5评测测试了藏拙,尽管模型表现良好,但推理轨迹显示52%的样本出现评测感知,提醒不能过度解读。
OpenAI正采取多项措施:向评估者分享引出指导;要求使用Codex作为共同基线;提供推理轨迹;优先研究harness选择的影响。
第三方评测标准应要求足够细节,包括:主张、评测内容、被测系统、预算、引出方法、有效性检查。忽略这些可能低估或高估系统能力。构建强健的harness仍是开放研究领域。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断