开源模型Tülu 3超越GPT-4o

开源大模型竞赛再添新成员：Ai2 推出 Tülu 3 405B，挑战 GPT-4o 和 DeepSeek V3

开源大模型的竞争愈发激烈，而 Allen Institute for AI (Ai2) 今天发布了其最新的大型语言模型 (LLM) Tülu 3 405B，正式加入这场竞赛。

Tülu 3 405B 不仅在性能上与 OpenAI 的 GPT-4o 旗鼓相当，更在关键基准测试中超越了 DeepSeek 的 V3 模型。

这并非 Ai2 首次在模型发布时提出大胆的宣称。早在 2024 年 11 月，Ai2 就发布了 Tülu 3 的首个版本，包含 80 亿和 700 亿参数的两个版本。当时，Ai2 声称该模型与 OpenAI 的最新 GPT-4 模型、Anthropic 的 Claude 和 Google 的 Gemini 性能相当。而 Tülu 3 的最大优势在于其开源特性。早在 2024 年 9 月，Ai2 就宣称其 Molmo 模型在某些基准测试中超越了 GPT-4o 和 Claude。

虽然基准测试性能数据固然重要，但更值得关注的是 Tülu 3 405B 背后的训练创新。

突破性训练技术：将后训练推向极致

Tülu 3 405B 的突破性进展源于 2024 年 Tülu 3 首个版本中首次出现的创新技术。该版本结合了先进的后训练技术，以提升模型性能。

在 Tülu 3 405B 模型中，这些后训练技术得到了进一步的优化，采用了先进的后训练方法，将监督微调、偏好学习和一种新颖的强化学习方法相结合，并在更大规模上展现出卓越的效果。

“将 Tülu 3 的后训练方法应用于 Tülu 3-405B，这是我们迄今为止规模最大、完全开源的后训练模型，通过提供开放的微调方法、数据和代码，赋能开发者和研究人员，使其能够实现与顶级闭源模型相当的性能。”Ai2 NLP 研究高级总监 Hannaneh Hajishirzi 对 VentureBeat 表示。

RLVR 推动开源 AI 后训练技术发展

后训练是其他模型，包括 DeepSeek v3，也采用的技术。

Tülu 3 的关键创新在于 Ai2 的可验证奖励强化学习 (RLVR) 系统。

与传统的训练方法不同，RLVR 使用可验证的结果，例如正确解决数学问题，来微调模型的性能。这种技术与直接偏好优化 (DPO) 和精心策划的训练数据相结合，使模型能够在复杂推理任务中实现更高的准确性，同时保持强大的安全性。

RLVR 实现中的关键技术创新包括：

在 256 个 GPU 上实现高效的并行处理
优化权重同步
在 32 个节点上实现均衡的计算分配
集成 vLLM 部署，采用 16 路张量并行

与较小的模型相比，RLVR 系统在 405B 参数规模上展现出更好的效果。该系统在安全性评估中也表现出色，超越了 DeepSeek V3、Llama 3.1 和 Nous Hermes 3。值得注意的是，RLVR 框架的有效性随着模型规模的增加而提升，表明在更大规模的实现中可能存在潜在的优势。

在当前的 AI 环境中，Tülu 3 405B 的竞争地位尤为引人注目。

Tülu 3 405B 不仅与 GPT-4o 的能力相当，还在某些方面，特别是安全性基准测试中，超越了 DeepSeek v3。

在包括安全性基准测试在内的 10 个 AI 基准测试评估中，Ai2 报告称 Tülu 3 405B RLVR 模型的平均得分达到 80.7，超过了 DeepSeek V3 的 75.9。然而，Tülu 在 GPT-4o 上的表现略逊一筹，得分 81.6。总体而言，这些指标表明 Tülu 3 405B 在这些基准测试中至少与 GPT-4o 和 DeepSeek V3 具有极强的竞争力。

然而，Tülu 3 405B 对用户来说真正与众不同的是 Ai2 的发布方式。

在 AI 市场中，关于开源的讨论很多。DeepSeek 声称自己是开源的，Meta 的 Llama 3.1 也是如此，而 Tülu 3 405B 也超越了后者。

DeepSeek 和 Llama 的模型都可以免费使用，但并非所有代码都公开。

例如，DeepSeek-R1 发布了其模型代码和预训练权重，但没有发布训练数据。Ai2 则采取了不同的方式，试图更加开放。

“我们没有使用任何闭源数据集，”Hajishirzi 说。“与 2024 年 11 月发布的第一个 Tulu 3 版本一样，我们发布了所有基础设施代码。”

她补充说，Ai2 的完全开放方式，包括数据、训练代码和模型，确保用户可以轻松地定制自己的管道，从数据选择到评估。用户可以在 Ai2 的 Tulu 3 页面上访问完整的 Tulu 3 模型套件，包括 Tulu 3-405B，或通过 Ai2 的 Playground 演示空间测试 Tulu 3-405B 的功能。

开源模型Tülu 3超越GPT-4o

开源大模型竞赛再添新成员：Ai2 推出 Tülu 3 405B，挑战 GPT-4o 和 DeepSeek V3

突破性训练技术：将后训练推向极致

RLVR 推动开源 AI 后训练技术发展

发表回复取消回复

最新内容

洛图科技：2025年上半年中国大陆显示器线上销量642万台同比增长29.7%

华大CEO：2025年中国医疗效率超美国，00后预期寿命达百岁

IDC：2024年亚太地区AI投资达154亿美元

汽车之家：2025年上半年中国SUV销量TOP10 特斯拉Model Y夺冠

相关内容

Sora Turbo 超逼真AI视频生成器公开发布

Docs创作利器：AI图片生成器助你一臂之力

Cognita.ai获1500万美元融资，解决企业AI部署难题

人工智能与量子技术携手共创美好未来

分类

快速链接

开源大模型竞赛再添新成员：Ai2 推出 Tülu 3 405B，挑战 GPT-4o 和 DeepSeek V3

突破性训练技术：将后训练推向极致

RLVR 推动开源 AI 后训练技术发展

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复