OpenAI 推出全新推理模型 o3-mini,与开源对手 DeepSeek R1 争锋
OpenAI 在近期发布了其全新的专有 AI 模型 o3-mini,旨在应对开源竞争对手 DeepSeek R1 的快速崛起。这款模型被誉为 OpenAI “推理者” 家族的第二款成员,它在回答用户问题之前会进行更深入的思考和分析,并反思自己的“思维链”。
o3-mini 的表现堪比拥有博士学位的人类,能够在数学、科学、工程等多个领域回答复杂问题。它现已在 ChatGPT(包括免费版)和 OpenAI 的 API 上提供,并且比之前的旗舰模型 o1 及其更快的低参数版本 o1-mini 更便宜、更快、性能更出色。
虽然 o3-mini 不可避免地会被拿来与 DeepSeek R1 进行比较,并且其发布日期被视为对 DeepSeek R1 的回应,但重要的是要记住,o3 和 o3-mini 在 2024 年 12 月 DeepSeek R1 发布之前就已经宣布了。OpenAI 首席执行官 Sam Altman 在 X 上表示,根据开发者和研究人员的反馈,o3-mini 将同时在 ChatGPT 和 OpenAI API 上推出。
与 DeepSeek R1 不同,o3-mini 不会作为开源模型提供,这意味着其代码无法被下载用于离线使用,也无法像 DeepSeek R1 那样进行定制,这可能会限制其在某些应用中的吸引力。
OpenAI 并未提供有关 2024 年 12 月与 o3-mini 一起宣布的更大规模 o3 模型的更多细节。当时,OpenAI 的 o3 测试报名表格中提到,该模型将在第三方测试之前进行“数周的延迟”。
与 o1 相似,OpenAI o3-mini 针对数学、编码和科学领域的推理进行了优化。其性能与使用中等推理努力的 OpenAI o1 相当,但具有以下优势:
- 与 o1-mini 相比,响应时间快 24%(OpenAI 未提供具体数字,但根据第三方评估机构 Artificial Analysis 的测试,o1-mini 的响应时间为 12.8 秒,接收和输出 100 个 token。因此,对于 o3-mini 来说,24% 的速度提升将使响应时间降至 10.32 秒)。
- 准确性提高,外部测试人员 56% 的时间更倾向于 o3-mini 的答案。
- 在复杂现实问题上的重大错误减少 39%。
- 在编码和 STEM 任务中的表现更好,尤其是在使用高推理努力时。
- 三个推理努力级别(低、中、高),允许用户和开发者在准确性和速度之间取得平衡。
根据 OpenAI 在线发布的 o3-mini 系统卡(该卡比正式模型可用性公告发布得更早),它还拥有令人印象深刻的基准测试结果,甚至在某些情况下超过了 o1。
o3-mini 的上下文窗口(它在一个交互中可以输入/输出的 token 总数)为 200,000 个,每个输出最多 100,000 个。这与完整的 o1 模型相同,并且超过了 DeepSeek R1 的上下文窗口(约 128,000/130,000 个 token)。但它远低于 Google Gemini 2.0 Flash Thinking 的新上下文窗口(高达 100 万个 token)。
虽然 o3-mini 专注于推理能力,但它目前还没有视觉能力。希望上传图像和文件的开发者和用户应该继续使用 o1。
o3-mini 的推出标志着 OpenAI 首次将推理模型提供给免费 ChatGPT 用户。之前的 o1 模型系列仅对 ChatGPT Plus、Pro 和其他计划的付费订阅者以及通过 OpenAI 的付费 API 提供。
正如 OpenAI 在 2022 年 11 月推出 ChatGPT 时创造了大型语言模型 (LLM) 驱动的聊天机器人的整个类别一样,OpenAI 在 2024 年 9 月首次推出 o1 时,实际上创造了推理模型的整个类别,这是一种具有新训练机制和架构的新型模型。
但 OpenAI 与其最近的历史保持一致,并没有将 o1 开源,这与它的名字和最初的创始使命相矛盾。相反,它将模型的代码保留为专有。
在过去的两个星期里,o1 被中国 AI 初创公司 DeepSeek 抢了风头,该公司推出了 R1,这是一个竞争对手,高效且大部分开源的推理模型,可供世界各地任何人免费获取、重新训练和定制,以及在 DeepSeek 的网站和移动应用程序上免费使用。据报道,该模型的训练成本远低于 o1 和其他顶级实验室的 LLM。
DeepSeek R1 的宽松 MIT 许可条款、面向消费者的免费应用程序/网站以及将 R1 的代码库免费提供给用户获取和修改的决定,使其在消费者和企业市场上获得了爆炸性的使用率,甚至 OpenAI 投资者微软和 Anthropic 支持者亚马逊也争先恐后地将其变体添加到他们的云市场中。AI 搜索公司 Perplexity 也迅速为用户添加了它的变体。
它还取代了 ChatGPT iOS 应用程序,成为美国苹果 App Store 的第一名,并且值得注意的是,它超越了 OpenAI,将 DeepSeek R1 连接到网络搜索,而 OpenAI 尚未为 o1 做到这一点,这导致了科技工作者和其他在线人士的进一步技术焦虑,认为中国正在赶超或在 AI 创新方面超越了美国,甚至在更广泛的技术领域也是如此。
然而,许多 AI 研究人员、科学家和顶级风险投资家,如 Marc Andreessen,都对 DeepSeek 的崛起及其开源表示欢迎,尤其是将其视为推动 AI 领域所有船只前进的潮流,为每个人提供更多智能,同时降低成本。
该模型现在正在全球范围内向免费、Plus、团队和 Pro 用户推出,企业和教育用户将在下周获得访问权限。
- 免费用户可以通过在聊天栏中选择“推理”按钮或重新生成响应来首次尝试 o3-mini。
- Plus 和团队用户的每日消息限制增加了 3 倍,从 50 条增加到 150 条。
- Pro 用户可以无限制地访问 o3-mini 和一个新的、推理能力更高的变体 o3-mini-high。
此外,o3-mini 现在支持 ChatGPT 中的搜索集成,提供包含相关网络链接的响应。此功能仍处于早期阶段,因为 OpenAI 正在改进其所有推理模型的搜索功能。
对于开发者来说,o3-mini 可通过聊天完成 API、助手 API 和批处理 API 获得。该模型支持函数调用、结构化输出和开发者消息,使其易于集成到现实世界的应用程序中。
o3-mini 最显著的优势之一是其成本效益:它比 OpenAI o1-mini 便宜 63%,比完整的 o1 模型便宜 93%,价格为每百万个 token 输入/输出 1.10 美元/4.40 美元(享受 50% 的缓存折扣)。
然而,它仍然无法与 DeepSeek API 提供的 R1 的价格相比,DeepSeek API 的价格为每百万个 token 输入/输出 0.14 美元/0.55 美元。但考虑到 DeepSeek 位于中国,并且伴随着对用户/企业数据进出模型的地理政治意识和安全担忧,OpenAI 很可能仍然是美国和欧洲一些注重安全的客户和企业的首选 API。
开发者还可以根据其应用程序需求调整推理努力级别(低、中、高),从而更好地控制延迟和准确性之间的权衡。
在安全性方面,OpenAI 表示它在 o3-mini 中使用了名为“审慎对齐”的东西。这意味着该模型被要求对它收到的由人类编写的安全指南进行推理,更多地了解它们的意图以及它们旨在防止的危害,并想出它自己的方法来确保这些危害得到防止。OpenAI 表示,它允许模型在讨论敏感话题时不那么审查,同时也能保持安全性。
OpenAI 表示,该模型在处理安全和越狱挑战方面优于 GPT-4o,并且在今天发布之前进行了广泛的外部安全测试。
《连线》杂志(我的妻子在那里工作)最近的一篇报道显示,DeepSeek 在安全研究人员测试的 50 个越狱提示和尝试中,全部都失败了,这可能使 OpenAI o3-mini 在安全至关重要的场合比 DeepSeek R1 更具优势。
o3-mini 的推出代表了 OpenAI 更广泛的努力,即在 DeepSeek 的 R1 和其他竞争对手(如 Google 最近发布的免费版本 Gemini 2 Flash Thinking 推理模型,其输入上下文扩展到 100 万个 token)的激烈竞争中,使先进的推理 AI 更易获得且更具成本效益。
OpenAI 专注于 STEM 推理和经济性,旨在扩大 AI 驱动的解决问题的范围,涵盖消费者和开发者应用程序。
但随着该公司在目标方面变得比以往任何时候都更加雄心勃勃——最近宣布了一个名为 Stargate 的 5000 亿美元数据中心基础设施项目,该项目得到了软银的支持——一个问题仍然存在:它的策略是否会取得足够的成功,以证明微软和其他风险投资公司投入的数十亿美元的合理性。
随着开源模型在性能方面越来越接近 OpenAI,并在成本方面超过 OpenAI,其据称更强大的安全措施、强大的功能、易于使用的 API 和用户友好的界面是否足以留住客户,尤其是在企业中,这些客户可能优先考虑成本和效率而不是这些属性?我们将继续报道这些发展。