阿里巴巴发布开源推理模型 QwQ,挑战 OpenAI 的 o1
中国电商巨头阿里巴巴发布了其不断扩展的 Qwen 家族的最新模型,名为 Qwen with Questions (QwQ)。QwQ 是 OpenAI 的 o1 推理模型的最新开源竞争对手。
与其他大型推理模型 (LRM) 一样,QwQ 在推理过程中使用额外的计算周期来审查其答案并纠正错误,使其更适合需要逻辑推理和规划的任务,例如数学和编码。
阿里巴巴发布了具有 320 亿参数和 32,000 个 token 上下文的 QwQ 版本。该模型目前处于预览阶段,这意味着可能会有性能更高的版本推出。
根据阿里巴巴的测试,QwQ 在评估数学问题解决能力的 AIME 和 MATH 基准测试中胜过 o1-preview。它还在 GPQA 上的表现优于 o1-mini,GPQA 是一个用于科学推理的基准测试。QwQ 在 LiveCodeBench 编码基准测试中不如 o1,但仍优于其他前沿模型,例如 GPT-4o 和 Claude 3.5 Sonnet。
QwQ 没有附带描述模型训练数据或过程的论文,这使得难以复现模型的结果。然而,由于该模型是开源的,与 OpenAI o1 不同,它的“思考过程”并不隐藏,可以用来理解模型在解决问题时的推理方式。
阿里巴巴还以 Apache 2.0 许可证发布了该模型,这意味着它可以用于商业目的。
根据与模型发布一起发布的博客文章,“通过深入探索和无数次尝试,我们发现了一个深刻的道理:当模型有时间思考、质疑和反思时,它对数学和编程的理解就会像花朵向太阳开放一样绽放……这种仔细反思和自我质疑的过程,在解决复杂问题方面取得了非凡的突破。”
这与我们对推理模型工作原理的了解非常相似。通过生成更多 token 并审查之前的响应,模型更有可能纠正潜在的错误。阿里巴巴最近发布的另一个推理模型 Marco-o1 也可能包含 QwQ 工作原理的线索。Marco-o1 在推理时使用蒙特卡洛树搜索 (MCTS) 和自我反思来创建不同的推理分支并选择最佳答案。该模型是在混合了思维链 (CoT) 示例和使用 MCTS 算法生成的合成数据上训练的。
阿里巴巴指出,QwQ 仍然存在一些局限性,例如混合语言或陷入循环推理循环。该模型可以在 Hugging Face 上下载,并在 Hugging Face Spaces 上提供在线演示。
o1 的发布引发了人们对创建 LRM 的兴趣,尽管除了使用推理时间尺度来改进模型的响应之外,人们对该模型的工作原理知之甚少。
现在,o1 有几个中国竞争对手。中国人工智能实验室 DeepSeek 最近发布了其 o1 竞争对手 R1-Lite-Preview,目前只能通过该公司的在线聊天界面使用。据报道,R1-Lite-Preview 在几个关键基准测试中胜过 o1。
另一个最近发布的模型是 LLaVA-o1,由中国多所大学的研究人员开发,它将推理时间推理范式引入开源视觉语言模型 (VLM)。
对 LRM 的关注出现在人们对模型扩展定律的未来感到不确定的时期。有报道称,OpenAI、谷歌 DeepMind 和 Anthropic 等人工智能实验室在训练更大模型方面正在获得越来越少的回报。随着模型已经接受了从互联网收集的数万亿个 token 的训练,创建更大规模的优质训练数据变得越来越困难。
与此同时,推理时间尺度提供了一种替代方案,它可能为下一代人工智能模型能力的提升提供下一个突破。有报道称,OpenAI 正在使用 o1 生成合成推理数据来训练下一代 LLM。开源推理模型的发布可能会刺激进步,并使该领域更加竞争。