OpenAI 推出全新推理模型 o3 和 o3 mini,代码能力超越人类
OpenAI 正在逐步向精选用户开放其全新推理模型 o3 和 o3 mini 的测试权限。这两个模型是此前已全面发布的 o1 和 o1 mini 的继任者。
OpenAI 首席执行官 Sam Altman 在“OpenAI 十二天”直播活动的最后一天宣布了 o3 系列模型的发布,并表示它们将首先提供给第三方研究人员进行安全测试。
Altman 还强调 o3 模型在代码方面表现“令人难以置信”,OpenAI 分享的基准测试结果也证实了这一点,o3 在编程任务上的表现甚至超越了 o1。
o3 模型在多个领域展现出卓越的能力:
- 代码能力:在 SWE-Bench Verified 上,o3 比 o1 高出 22.8 个百分点,并在 Codeforces 上获得了 2727 的评分,超过了 OpenAI 首席科学家的 2665 分。
- 数学和科学:o3 在 2024 年 AIME 考试中获得了 96.7% 的分数,仅错了一道题,并在 GPQA Diamond 上获得了 87.7% 的分数,远远超过了人类专家的表现。
- 前沿基准测试:o3 在 EpochAI 的 Frontier Math 等具有挑战性的测试中创下了新纪录,解决了 25.2% 的问题,而其他模型的解决率不超过 2%。在 ARC-AGI 测试中,o3 的得分是 o1 的三倍,超过了 85%(经 ARC Prize 团队现场验证),标志着概念推理能力的里程碑。
除了这些进步,OpenAI 还重申了其对安全性和一致性的承诺。
该公司发布了关于“审慎对齐”的新研究,这项技术是使 o1 成为迄今为止最稳健和最一致的模型的关键因素。
这项研究也将对 o3 和 o3-mini 的对齐工作起到关键作用,确保其能力既强大又负责任。
目前,OpenAI 网站已开放早期访问申请,申请截止日期为 2025 年 1 月 10 日。
申请者需要填写一份在线表格,提供各种信息,包括先前发表论文的链接、GitHub 上的代码库链接,以及他们希望测试的模型(o3 或 o3-mini)以及使用这些模型的计划。
被选中的研究人员将获得 o3 和 o3-mini 的访问权限,以探索其功能并参与安全评估,但 OpenAI 的表格提醒称,o3 将在几周后才能使用。
研究人员被鼓励开发稳健的评估方法,创建高风险能力的受控演示,并在广泛采用的工具无法实现的场景中测试模型。
这项举措建立在该公司既定的实践基础上,包括严格的内部安全测试、与美国和英国人工智能安全研究所等组织的合作,以及其准备框架。
申请流程要求提供研究重点、过往经验以及先前工作的链接。OpenAI 将滚动审查申请,从即日起开始选拔。
o3 和 o3-mini 的推出标志着人工智能性能的飞跃,特别是在需要高级推理和解决问题能力的领域。
这些模型在代码、数学和概念基准测试中取得了非凡的成果,突显了人工智能研究的快速进展。
通过邀请更广泛的研究界参与安全测试,OpenAI 旨在确保这些能力得到负责任的部署。
观看下面的直播视频: