前途科技
  • AI
  • 初创
  • 报告
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

开源模型Tülu 3超越GPT-4o

NEXTECH
Last updated: 2025年4月24日 上午6:50
By NEXTECH
Share
16 Min Read
SHARE

开源大模型竞赛再添新成员:Ai2 推出 Tülu 3 405B,挑战 GPT-4o 和 DeepSeek V3

开源大模型的竞争愈发激烈,而 Allen Institute for AI (Ai2) 今天发布了其最新的大型语言模型 (LLM) Tülu 3 405B,正式加入这场竞赛。

Tülu 3 405B 不仅在性能上与 OpenAI 的 GPT-4o 旗鼓相当,更在关键基准测试中超越了 DeepSeek 的 V3 模型。

这并非 Ai2 首次在模型发布时提出大胆的宣称。早在 2024 年 11 月,Ai2 就发布了 Tülu 3 的首个版本,包含 80 亿和 700 亿参数的两个版本。当时,Ai2 声称该模型与 OpenAI 的最新 GPT-4 模型、Anthropic 的 Claude 和 Google 的 Gemini 性能相当。而 Tülu 3 的最大优势在于其开源特性。早在 2024 年 9 月,Ai2 就宣称其 Molmo 模型在某些基准测试中超越了 GPT-4o 和 Claude。

虽然基准测试性能数据固然重要,但更值得关注的是 Tülu 3 405B 背后的训练创新。

突破性训练技术:将后训练推向极致

Tülu 3 405B 的突破性进展源于 2024 年 Tülu 3 首个版本中首次出现的创新技术。该版本结合了先进的后训练技术,以提升模型性能。

在 Tülu 3 405B 模型中,这些后训练技术得到了进一步的优化,采用了先进的后训练方法,将监督微调、偏好学习和一种新颖的强化学习方法相结合,并在更大规模上展现出卓越的效果。

“将 Tülu 3 的后训练方法应用于 Tülu 3-405B,这是我们迄今为止规模最大、完全开源的后训练模型,通过提供开放的微调方法、数据和代码,赋能开发者和研究人员,使其能够实现与顶级闭源模型相当的性能。”Ai2 NLP 研究高级总监 Hannaneh Hajishirzi 对 VentureBeat 表示。

RLVR 推动开源 AI 后训练技术发展

后训练是其他模型,包括 DeepSeek v3,也采用的技术。

Tülu 3 的关键创新在于 Ai2 的可验证奖励强化学习 (RLVR) 系统。

与传统的训练方法不同,RLVR 使用可验证的结果,例如正确解决数学问题,来微调模型的性能。这种技术与直接偏好优化 (DPO) 和精心策划的训练数据相结合,使模型能够在复杂推理任务中实现更高的准确性,同时保持强大的安全性。

RLVR 实现中的关键技术创新包括:

  • 在 256 个 GPU 上实现高效的并行处理
  • 优化权重同步
  • 在 32 个节点上实现均衡的计算分配
  • 集成 vLLM 部署,采用 16 路张量并行

与较小的模型相比,RLVR 系统在 405B 参数规模上展现出更好的效果。该系统在安全性评估中也表现出色,超越了 DeepSeek V3、Llama 3.1 和 Nous Hermes 3。值得注意的是,RLVR 框架的有效性随着模型规模的增加而提升,表明在更大规模的实现中可能存在潜在的优势。

在当前的 AI 环境中,Tülu 3 405B 的竞争地位尤为引人注目。

Tülu 3 405B 不仅与 GPT-4o 的能力相当,还在某些方面,特别是安全性基准测试中,超越了 DeepSeek v3。

在包括安全性基准测试在内的 10 个 AI 基准测试评估中,Ai2 报告称 Tülu 3 405B RLVR 模型的平均得分达到 80.7,超过了 DeepSeek V3 的 75.9。然而,Tülu 在 GPT-4o 上的表现略逊一筹,得分 81.6。总体而言,这些指标表明 Tülu 3 405B 在这些基准测试中至少与 GPT-4o 和 DeepSeek V3 具有极强的竞争力。

然而,Tülu 3 405B 对用户来说真正与众不同的是 Ai2 的发布方式。

在 AI 市场中,关于开源的讨论很多。DeepSeek 声称自己是开源的,Meta 的 Llama 3.1 也是如此,而 Tülu 3 405B 也超越了后者。

DeepSeek 和 Llama 的模型都可以免费使用,但并非所有代码都公开。

例如,DeepSeek-R1 发布了其模型代码和预训练权重,但没有发布训练数据。Ai2 则采取了不同的方式,试图更加开放。

“我们没有使用任何闭源数据集,”Hajishirzi 说。“与 2024 年 11 月发布的第一个 Tulu 3 版本一样,我们发布了所有基础设施代码。”

她补充说,Ai2 的完全开放方式,包括数据、训练代码和模型,确保用户可以轻松地定制自己的管道,从数据选择到评估。用户可以在 Ai2 的 Tulu 3 页面上访问完整的 Tulu 3 模型套件,包括 Tulu 3-405B,或通过 Ai2 的 Playground 演示空间测试 Tulu 3-405B 的功能。

Share This Article
Email Copy Link Print
Previous Article 光线传媒财报:2025年Q1光线传媒营业收入29.75亿元 同比增长177.87%
Next Article XrossRoad携手Berachain拓展日本IP Web3版图
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
以色列初创公司Vayu获700万美元融资,助力SaaS企业重塑B2B计费
初创
20250510230248557.jpg
政府浪费数百万纳税人资金购买闲置软件,”免费”软件竟花2万!
初创
AI Glasses
Sharge Loomos AI 智能眼镜5天Kickstarter众筹突破130万美元
AI
中芯国际:2025年Q1营收163.01亿元,同比增长29.4%
报告

相关内容

20241216225548300.jpg
AI

Meta开源Llama 3.3,超强模型更小巧

2024年12月17日
250131_deepseekenergy.gif?resize=1200,60
AI

能源行业或将迎来挑战

2025年4月27日
AI

人工智能赋能供应链变革

2024年11月14日
conversation2_1.jpg?resize=1200,600
AI

Meta 新 AI 模型支持 100 多种语言语音翻译

2025年3月22日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
前途科技
Username or Email Address
Password

Lost your password?