2024 年 12 月 29 日 上午 8:17
图片来源:VentureBeat 通过 ChatGPT
订阅我们的每日和每周通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多
2024 年年末,人工智能领域迎来了反思时刻。业内人士担心,通往更智能 AI 的道路正在放缓。然而,OpenAI 上周发布的 o3 模型,却点燃了新的兴奋和争论,并暗示着 2025 年及以后将出现重大进步。
这款模型旨在供研究人员进行安全测试,尚未公开发布,但在重要的 ARC 指标上取得了令人印象深刻的成绩。该基准由著名 AI 研究员、Keras 深度学习框架的创造者 François Chollet 创建,专门用于衡量模型处理新颖、智能任务的能力。因此,它为衡量真正智能 AI 系统的进展提供了有意义的标准。
值得注意的是,o3 在标准计算条件下在 ARC 基准测试中获得了 75.7% 的分数,在高计算条件下获得了 87.5% 的分数,显著超过了之前的最先进结果,例如 Claude 3.5 的 53% 的分数。
Chollet 曾批评大型语言模型 (LLM) 能够实现这种智能,而 o3 的这一成就代表着令人惊讶的进步。它突出了可能加速通往更高智能的创新的潜力,无论我们是否将其称为通用人工智能 (AGI)。
AGI 是一个炒作的术语,定义不明确,但它标志着一个目标:能够以超越人类能力的方式适应新挑战或问题的智能。
OpenAI 的 o3 模型解决了长期困扰大型语言模型的推理和适应性方面的具体障碍。与此同时,它也暴露了挑战,包括将这些系统推向极限所固有的高成本和效率瓶颈。本文将探讨 o3 模型背后的五个关键创新,其中许多创新都以强化学习 (RL) 的进步为基础。它将借鉴行业领导者的见解、OpenAI 的说法,以及最重要的是 Chollet 的重要分析,来解读这一突破对我们迈入 2025 年后 AI 未来意味着什么。
OpenAI 的 o3 模型引入了一种名为“程序合成”的新功能,使它能够动态地将预训练期间学到的东西——特定的模式、算法或方法——组合成新的配置。这些东西可能包括模型在对各种数据集进行广泛训练期间遇到的并泛化的数学运算、代码片段或逻辑过程。最重要的是,程序合成允许 o3 解决它在训练中从未直接见过的任务,例如解决高级编码挑战或解决需要超越死记硬背地应用所学知识的推理能力的新颖逻辑难题。François Chollet 将程序合成描述为系统以创新方式重新组合已知工具的能力——就像厨师使用熟悉的食材制作独特的菜肴一样。这一特性标志着与早期模型的背离,早期模型主要检索和应用预先学习的知识,而不会进行重新配置——这也是 Chollet 几月前提倡的唯一可行的方式,可以实现更好的智能。
o3 适应性的核心是它在推理过程中——当模型在现实世界或部署环境中积极生成答案时——使用的思维链 (CoTs) 和复杂的搜索过程。这些 CoTs 是模型生成的逐步自然语言指令,用于探索解决方案。在评估模型的指导下,o3 积极生成多个解决方案路径并对其进行评估,以确定最有希望的选项。这种方法反映了人类解决问题的过程,我们会在选择最合适的方案之前,先进行头脑风暴,想出不同的方法。例如,在数学推理任务中,o3 会生成和评估替代策略,以得出准确的解决方案。Anthropic 和 Google 等竞争对手已经尝试了类似的方法,但 OpenAI 的实现设定了新的标准。
o3 在推理过程中积极生成多个解决方案路径,并在集成评估模型的帮助下评估每个路径,以确定最有希望的选项。通过在专家标记的数据集上训练评估器,OpenAI 确保 o3 能够很好地解决复杂的多步骤问题。这一特性使模型能够充当其自身推理的评判者,使大型语言模型更接近于“思考”,而不是仅仅做出反应。
o3 最具突破性的功能之一是它能够执行自己的思维链 (CoTs) 作为自适应问题解决的工具。传统上,CoTs 被用作逐步推理框架来解决特定问题。OpenAI 的 o3 扩展了这一概念,利用 CoTs 作为可重复使用的构建块,使模型能够以更高的适应性应对新挑战。随着时间的推移,这些 CoTs 成为解决问题策略的结构化记录,类似于人类通过经验记录和完善他们的学习。这种能力表明 o3 如何推动自适应推理的边界。据 OpenAI 工程师 Nat McAleese 称,o3 在未见过的编程挑战中的表现,例如在 CodeForces 上获得超过 2700 的评级,展示了它创新地使用 CoTs 与顶级竞技程序员相媲美。这个 2700 的评级将模型置于全球顶级竞技程序员的“特级大师”级别。
o3 在推理过程中利用深度学习驱动的方案来评估和完善复杂问题的潜在解决方案。这个过程包括生成多个解决方案路径,并使用在训练期间学习的模式来评估它们的可能性。François Chollet 和其他专家指出,这种对“间接评估”的依赖——其中解决方案是根据内部指标进行判断,而不是在现实世界场景中进行测试——可能会限制模型在应用于不可预测或特定于企业的环境时的稳健性。
此外,o3 对专家标记的数据集的依赖,用于训练其评估模型,也引发了关于可扩展性的担忧。虽然这些数据集提高了精度,但也需要大量的人工监督,这可能会限制系统的适应性和成本效益。Chollet 强调,这些权衡体现了将推理系统扩展到 ARC-AGI 等受控基准测试之外的挑战。
最终,这种方法展示了将深度学习技术与程序化问题解决相结合的潜力和局限性。虽然 o3 的创新展示了进步,但它们也强调了构建真正可泛化的 AI 系统的复杂性。
OpenAI 的 o3 模型取得了令人印象深刻的结果,但代价是巨大的计算成本,每个任务消耗数百万个令牌——而这种昂贵的方案是模型最大的挑战。François Chollet、Nat McAleese 和其他人强调了对这种模型的经济可行性的担忧,强调需要在性能和经济性之间取得平衡的创新。
o3 的发布引起了整个 AI 社区的关注。像 Google 的 Gemini 2 和 DeepSeek 3 这样的中国公司也在不断进步,在这些模型得到更广泛的测试之前,直接比较具有挑战性。
对 o3 的看法存在分歧:一些人赞扬其技术进步,而另一些人则指出其高成本和缺乏透明度,暗示其真正的价值只有在更广泛的测试中才能显现出来。其中最大的批评来自 Google DeepMind 的 Denny Zhou,他含蓄地抨击了模型对强化学习 (RL) 扩展和搜索机制的依赖,认为这可能是“死胡同”,并主张模型应该能够从更简单的微调过程中学习推理。
无论它是否代表了进一步创新的完美方向,对于企业来说,o3 新发现的适应性表明,AI 将以某种方式继续改变未来各个行业,从客户服务到科学研究。
行业参与者需要一些时间来消化 o3 在这里所取得的成果。对于担心 o3 高计算成本的企业来说,OpenAI 即将发布的缩减版“o3-mini”模型提供了一种潜在的替代方案。虽然它牺牲了完整模型的一些功能,但 o3-mini 承诺为企业提供更经济实惠的实验选择——保留了大部分核心创新,同时显著降低了测试时的计算需求。
企业可能需要一段时间才能获得 o3 模型。OpenAI 表示,o3-mini 预计将在 1 月底发布。完整的 o3 版本将在之后发布,但时间表取决于当前安全测试阶段的反馈和见解。企业应该明智地进行测试。他们需要用自己的数据和用例来验证模型,并观察它的实际效果。
但与此同时,他们已经可以使用许多其他已经存在并经过良好测试的模型,包括旗舰 o4 模型和其他竞争模型——其中许多模型已经足够健壮,可以用于构建智能的、定制的应用程序,以提供实际价值。
事实上,明年我们将以两种方式运作。第一种是实现 AI 应用程序的实际价值,并完善模型与 AI 代理以及其他已经实现的创新可以做什么。第二种是坐在那里,一边吃着爆米花,一边观看这场智能竞赛的进展——任何进步都将是已经交付的蛋糕上的糖霜。
有关 o3 创新的更多信息,请观看下面我和 Sam Witteveen 在 YouTube 上的完整讨论,并关注 VentureBeat,获取有关 AI 进展的持续报道。