前途科技
  • AI
  • 初创
  • 报告
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

OpenAI 发布全新模型 O3 和 O3-mini

NEXTECH
Last updated: 2025年1月22日 上午6:57
By NEXTECH
Share
11 Min Read
SHARE

OpenAI 推出全新推理模型 o3 和 o3 mini,代码能力超越人类

OpenAI 正在逐步向精选用户开放其全新推理模型 o3 和 o3 mini 的测试权限。这两个模型是此前已全面发布的 o1 和 o1 mini 的继任者。

OpenAI 首席执行官 Sam Altman 在“OpenAI 十二天”直播活动的最后一天宣布了 o3 系列模型的发布,并表示它们将首先提供给第三方研究人员进行安全测试。

Altman 还强调 o3 模型在代码方面表现“令人难以置信”,OpenAI 分享的基准测试结果也证实了这一点,o3 在编程任务上的表现甚至超越了 o1。

o3 模型在多个领域展现出卓越的能力:

  • 代码能力:在 SWE-Bench Verified 上,o3 比 o1 高出 22.8 个百分点,并在 Codeforces 上获得了 2727 的评分,超过了 OpenAI 首席科学家的 2665 分。
  • 数学和科学:o3 在 2024 年 AIME 考试中获得了 96.7% 的分数,仅错了一道题,并在 GPQA Diamond 上获得了 87.7% 的分数,远远超过了人类专家的表现。
  • 前沿基准测试:o3 在 EpochAI 的 Frontier Math 等具有挑战性的测试中创下了新纪录,解决了 25.2% 的问题,而其他模型的解决率不超过 2%。在 ARC-AGI 测试中,o3 的得分是 o1 的三倍,超过了 85%(经 ARC Prize 团队现场验证),标志着概念推理能力的里程碑。

除了这些进步,OpenAI 还重申了其对安全性和一致性的承诺。

该公司发布了关于“审慎对齐”的新研究,这项技术是使 o1 成为迄今为止最稳健和最一致的模型的关键因素。

这项研究也将对 o3 和 o3-mini 的对齐工作起到关键作用,确保其能力既强大又负责任。

目前,OpenAI 网站已开放早期访问申请,申请截止日期为 2025 年 1 月 10 日。

申请者需要填写一份在线表格,提供各种信息,包括先前发表论文的链接、GitHub 上的代码库链接,以及他们希望测试的模型(o3 或 o3-mini)以及使用这些模型的计划。

被选中的研究人员将获得 o3 和 o3-mini 的访问权限,以探索其功能并参与安全评估,但 OpenAI 的表格提醒称,o3 将在几周后才能使用。

研究人员被鼓励开发稳健的评估方法,创建高风险能力的受控演示,并在广泛采用的工具无法实现的场景中测试模型。

这项举措建立在该公司既定的实践基础上,包括严格的内部安全测试、与美国和英国人工智能安全研究所等组织的合作,以及其准备框架。

申请流程要求提供研究重点、过往经验以及先前工作的链接。OpenAI 将滚动审查申请,从即日起开始选拔。

o3 和 o3-mini 的推出标志着人工智能性能的飞跃,特别是在需要高级推理和解决问题能力的领域。

这些模型在代码、数学和概念基准测试中取得了非凡的成果,突显了人工智能研究的快速进展。

通过邀请更广泛的研究界参与安全测试,OpenAI 旨在确保这些能力得到负责任的部署。

观看下面的直播视频:

Share This Article
Email Copy Link Print
Previous Article 20250121225419240.jpg 巨型雄心游戏开发访谈
Next Article AI 浪潮催生 GPU 云服务
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
Zircuit 加持 Cancun 和 Pectra,测试网升级
初创
Epirus获2.5亿美元D轮融资 扩大反无人机武器生产
初创
图片描述
智电车讯:2025年前四月中国汽车出口193.7万辆,同比增长6%
报告
AMD CPU占Mindfactory周销量91%!Intel Arrow Lake直接挂零
Mindfactory:2025年第19周AMD CPU销量占比91.13%
报告

相关内容

AI

Gemini 2.0 赋能 Google 代码助手,新增源代码集成

2025年1月11日
AI

Meta Llama 3.2 挑战 OpenAI 和 Anthropic

2024年9月26日
AI

Snowflake 抢先与 Claude 3.5 整合

2024年11月22日
3c825182fb630a2a56686df06450b1ba.png
AI

马斯克xAI开放API,第三方开发者可基于Grok构建应用

2024年11月14日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
前途科技
Username or Email Address
Password

Lost your password?