阿里巴巴发布问答式推理模型Qwen，超越o1-preview

阿里巴巴发布开源推理模型 QwQ，挑战 OpenAI 的 o1

中国电商巨头阿里巴巴发布了其不断扩展的 Qwen 家族的最新模型，名为 Qwen with Questions (QwQ)。QwQ 是 OpenAI 的 o1 推理模型的最新开源竞争对手。

与其他大型推理模型 (LRM) 一样，QwQ 在推理过程中使用额外的计算周期来审查其答案并纠正错误，使其更适合需要逻辑推理和规划的任务，例如数学和编码。

阿里巴巴发布了具有 320 亿参数和 32,000 个 token 上下文的 QwQ 版本。该模型目前处于预览阶段，这意味着可能会有性能更高的版本推出。

根据阿里巴巴的测试，QwQ 在评估数学问题解决能力的 AIME 和 MATH 基准测试中胜过 o1-preview。它还在 GPQA 上的表现优于 o1-mini，GPQA 是一个用于科学推理的基准测试。QwQ 在 LiveCodeBench 编码基准测试中不如 o1，但仍优于其他前沿模型，例如 GPT-4o 和 Claude 3.5 Sonnet。

Qwen with Questions

QwQ 没有附带描述模型训练数据或过程的论文，这使得难以复现模型的结果。然而，由于该模型是开源的，与 OpenAI o1 不同，它的“思考过程”并不隐藏，可以用来理解模型在解决问题时的推理方式。

阿里巴巴还以 Apache 2.0 许可证发布了该模型，这意味着它可以用于商业目的。

根据与模型发布一起发布的博客文章，“通过深入探索和无数次尝试，我们发现了一个深刻的道理：当模型有时间思考、质疑和反思时，它对数学和编程的理解就会像花朵向太阳开放一样绽放……这种仔细反思和自我质疑的过程，在解决复杂问题方面取得了非凡的突破。”

这与我们对推理模型工作原理的了解非常相似。通过生成更多 token 并审查之前的响应，模型更有可能纠正潜在的错误。阿里巴巴最近发布的另一个推理模型 Marco-o1 也可能包含 QwQ 工作原理的线索。Marco-o1 在推理时使用蒙特卡洛树搜索 (MCTS) 和自我反思来创建不同的推理分支并选择最佳答案。该模型是在混合了思维链 (CoT) 示例和使用 MCTS 算法生成的合成数据上训练的。

阿里巴巴指出，QwQ 仍然存在一些局限性，例如混合语言或陷入循环推理循环。该模型可以在 Hugging Face 上下载，并在 Hugging Face Spaces 上提供在线演示。

o1 的发布引发了人们对创建 LRM 的兴趣，尽管除了使用推理时间尺度来改进模型的响应之外，人们对该模型的工作原理知之甚少。

现在，o1 有几个中国竞争对手。中国人工智能实验室 DeepSeek 最近发布了其 o1 竞争对手 R1-Lite-Preview，目前只能通过该公司的在线聊天界面使用。据报道，R1-Lite-Preview 在几个关键基准测试中胜过 o1。

另一个最近发布的模型是 LLaVA-o1，由中国多所大学的研究人员开发，它将推理时间推理范式引入开源视觉语言模型 (VLM)。

对 LRM 的关注出现在人们对模型扩展定律的未来感到不确定的时期。有报道称，OpenAI、谷歌 DeepMind 和 Anthropic 等人工智能实验室在训练更大模型方面正在获得越来越少的回报。随着模型已经接受了从互联网收集的数万亿个 token 的训练，创建更大规模的优质训练数据变得越来越困难。

与此同时，推理时间尺度提供了一种替代方案，它可能为下一代人工智能模型能力的提升提供下一个突破。有报道称，OpenAI 正在使用 o1 生成合成推理数据来训练下一代 LLM。开源推理模型的发布可能会刺激进步，并使该领域更加竞争。

阿里巴巴发布问答式推理模型Qwen，超越o1-preview

阿里巴巴发布开源推理模型 QwQ，挑战 OpenAI 的 o1

发表回复取消回复

最新内容

2025年稀土出口管制致全球汽车产业危机

特斯拉中国：2025年5月销量61662辆，同比下降15%

Omdia：2025年Q1 SK海力士DRAM市场份额36.9%超三星

OpenAI：2025年ChatGPT商业用户达300万，增长50%

相关内容

Pokémon Go助力AI空间智能发展

纬颖用AWS Outposts加速全球智慧工厂部署

AI 工厂：克服工业挑战，实现 AI 商品化

Cloudflare AI 识别恶意机器人，保护网站安全

分类

快速链接

阿里巴巴发布开源推理模型 QwQ，挑战 OpenAI 的 o1

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复