OpenAI 发布全新模型 O3 和 O3-mini

OpenAI 推出全新推理模型 o3 和 o3 mini，代码能力超越人类

OpenAI 正在逐步向精选用户开放其全新推理模型 o3 和 o3 mini 的测试权限。这两个模型是此前已全面发布的 o1 和 o1 mini 的继任者。

OpenAI 首席执行官 Sam Altman 在“OpenAI 十二天”直播活动的最后一天宣布了 o3 系列模型的发布，并表示它们将首先提供给第三方研究人员进行安全测试。

Altman 还强调 o3 模型在代码方面表现“令人难以置信”，OpenAI 分享的基准测试结果也证实了这一点，o3 在编程任务上的表现甚至超越了 o1。

o3 模型在多个领域展现出卓越的能力：

代码能力：在 SWE-Bench Verified 上，o3 比 o1 高出 22.8 个百分点，并在 Codeforces 上获得了 2727 的评分，超过了 OpenAI 首席科学家的 2665 分。
数学和科学：o3 在 2024 年 AIME 考试中获得了 96.7% 的分数，仅错了一道题，并在 GPQA Diamond 上获得了 87.7% 的分数，远远超过了人类专家的表现。
前沿基准测试：o3 在 EpochAI 的 Frontier Math 等具有挑战性的测试中创下了新纪录，解决了 25.2% 的问题，而其他模型的解决率不超过 2%。在 ARC-AGI 测试中，o3 的得分是 o1 的三倍，超过了 85%（经 ARC Prize 团队现场验证），标志着概念推理能力的里程碑。

除了这些进步，OpenAI 还重申了其对安全性和一致性的承诺。

该公司发布了关于“审慎对齐”的新研究，这项技术是使 o1 成为迄今为止最稳健和最一致的模型的关键因素。

这项研究也将对 o3 和 o3-mini 的对齐工作起到关键作用，确保其能力既强大又负责任。

目前，OpenAI 网站已开放早期访问申请，申请截止日期为 2025 年 1 月 10 日。

申请者需要填写一份在线表格，提供各种信息，包括先前发表论文的链接、GitHub 上的代码库链接，以及他们希望测试的模型（o3 或 o3-mini）以及使用这些模型的计划。

被选中的研究人员将获得 o3 和 o3-mini 的访问权限，以探索其功能并参与安全评估，但 OpenAI 的表格提醒称，o3 将在几周后才能使用。

研究人员被鼓励开发稳健的评估方法，创建高风险能力的受控演示，并在广泛采用的工具无法实现的场景中测试模型。

这项举措建立在该公司既定的实践基础上，包括严格的内部安全测试、与美国和英国人工智能安全研究所等组织的合作，以及其准备框架。

申请流程要求提供研究重点、过往经验以及先前工作的链接。OpenAI 将滚动审查申请，从即日起开始选拔。

o3 和 o3-mini 的推出标志着人工智能性能的飞跃，特别是在需要高级推理和解决问题能力的领域。

这些模型在代码、数学和概念基准测试中取得了非凡的成果，突显了人工智能研究的快速进展。

通过邀请更广泛的研究界参与安全测试，OpenAI 旨在确保这些能力得到负责任的部署。

观看下面的直播视频：