订阅我们的每日和每周新闻简报,获取有关行业领先人工智能报道的最新更新和独家内容。了解更多
OpenAI 的 o1 模型为大型语言模型 (LLM) 带来了新的推理范式,该模型最近进行了重大升级。然而,尽管 OpenAI 在推理模型方面处于领先地位,但它可能会失去一些市场份额,因为开源竞争对手正在迅速崛起。
像 o1 这样的模型,有时被称为大型推理模型 (LRM),使用额外的推理时间计算周期来“思考”更多,审查其响应并纠正其答案。这使它们能够解决经典 LLM 难以解决的复杂推理问题,并使它们特别适用于编码、数学和数据分析等任务。
然而,最近几天,开发人员对 o1 表现出褒贬不一的反应,尤其是在更新版本发布之后。一些人发布了 o1 完成令人难以置信的任务的示例,而另一些人则对该模型令人困惑的响应表示沮丧。开发人员遇到了各种各样的问题,从对代码进行不合逻辑的更改到忽略指令。
部分混乱是由于 OpenAI 的保密性和拒绝展示 o1 工作原理的细节造成的。LRM 成功背后的秘诀在于模型在生成最终响应时生成的额外标记,称为模型的“想法”或“推理链”。例如,如果您提示经典 LLM 为一项任务生成代码,它将立即生成代码。相反,LRM 将生成推理标记,这些标记会检查问题,规划代码结构,并生成多个解决方案,然后发出最终答案。
o1 隐藏了思考过程,只显示最终响应以及显示模型思考了多长时间以及可能对推理过程进行高级概述的消息。这部分是为了避免使响应混乱并提供更流畅的用户体验。但更重要的是,OpenAI 将推理链视为商业机密,并希望使其难以复制 o1 的功能。
训练新模型的成本不断上升,而利润率却跟不上,这促使一些人工智能实验室变得更加保密,以扩大其领先优势。即使是进行模型红队测试的 Apollo 研究也无法访问其推理链。
这种缺乏透明度导致用户做出各种猜测,包括指责 OpenAI 降低模型性能以降低推理成本。
另一方面,开源替代方案,如阿里巴巴的 Qwen with Questions 和 Marco-o1,展示了其模型的完整推理链。另一种替代方案是 DeepSeek R1,它不是开源的,但仍然会显示推理标记。查看推理链使开发人员能够对提示进行故障排除,并通过添加其他指令或上下文示例来找到改进模型响应的方法。
当您希望将模型的响应集成到期望一致结果的应用程序和工具中时,了解推理过程尤为重要。此外,在企业应用程序中,控制底层模型非常重要。私有模型及其支持的脚手架,例如测试其输入和输出的安全措施和过滤器,一直在不断变化。虽然这可能会导致整体性能的提高,但它可能会破坏许多建立在它们之上的提示和应用程序。相反,开源模型使开发人员能够完全控制模型,这对于企业应用程序来说可能是一个更可靠的选择,在企业应用程序中,特定任务的性能比通用技能更重要。
QwQ 和 R1 仍处于预览版本,o1 在准确性和易用性方面处于领先地位。对于许多用途,例如进行一般的临时提示和一次性请求,o1 仍然比开源替代方案更好。
但开源社区正在迅速赶上私有模型,我们可以预期在未来几个月内出现更多模型。它们可以成为一个合适的替代方案,在这些替代方案中,可见性和控制至关重要。