前途科技
  • AI
  • 初创
  • 报告
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
未分类

谷歌和英伟达新芯片加速AI训练

NEXTECH
Last updated: 2024年11月14日 下午11:09
By NEXTECH
Share
20 Min Read
SHARE

a-stack-of-computer-servers-with-fan-exh

Contents
英伟达 Blackwell 首次训练结果谷歌推出第六代硬件训练能力仍然不透明

英伟达、甲骨文、谷歌、戴尔以及其他 13 家公司公布了其计算机训练当前主流神经网络所需的时间。这些结果中包括英伟达下一代 GPU B200 和谷歌即将推出的加速器 Trillium 的首次亮相。B200 在某些测试中比当前主力芯片 H100 的性能提升了一倍。而 **Trillium** 则比谷歌在 2023 年测试的芯片性能提升了近四倍。

这些名为 MLPerf v4.1 的基准测试包含六项任务:推荐系统、大型语言模型 (LLM) GPT-3 和 BERT-large 的预训练、Llama 2 70B 大型语言模型的微调、目标检测、图节点分类和图像生成。

训练 GPT-3 是一项极其庞大的任务,仅为了基准测试而进行完整的训练是不切实际的。因此,测试的目标是训练模型到专家认定的能够达到目标的程度,即使继续训练下去也能达到预期效果。对于 Llama 2 70B,目标不是从头开始训练 LLM,而是对已经训练好的模型进行微调,使其专门用于特定领域,在本例中是政府文件。图节点分类是一种机器学习类型,用于欺诈检测和药物发现。

随着人工智能领域重点的转变,主要转向生成式人工智能,测试集也随之改变。MLPerf 的最新版本标志着自基准测试工作开始以来,测试内容的彻底改变。“目前,所有原始基准测试都已淘汰,”MLCommons 基准测试负责人 David Kanter 说。在上一轮测试中,一些基准测试的执行时间仅需几秒钟。

A line graph with one diagonal blue line and many colored and dashed branches rising up from that line.
各种基准测试中最佳机器学习系统的性能超过了摩尔定律预期(蓝色线)。实线代表当前基准测试。虚线代表已淘汰的基准测试,因为它们不再具有工业意义。MLCommons

You Might Also Like

广大大xYeahmobi:2024年全球手游市场与营销趋势洞察白皮书
华为:智能世界2030报告(2024版)
Altman 支持的核电初创公司,未推产品已翻倍客户
AI 创作内容同质化问题

根据 MLPerf 的计算,新基准测试套件上的 AI 训练速度大约是摩尔定律预期速度的两倍。随着时间的推移,测试结果的增长速度比 MLPerf 刚开始时要慢得多。Kanter 将此归因于公司已经找到了在大型系统上执行基准测试的方法。随着时间的推移,英伟达、谷歌和其他公司开发了软件和网络技术,实现了近乎线性的扩展——处理器数量翻倍,训练时间大约减半。

%E2%80%9D<ahttps://public.flourish.studio/visualisation/20196…” width=”100%” alt=”scatter visualization” />

英伟达 Blackwell 首次训练结果

本轮测试是英伟达下一代 GPU 架构 Blackwell 的首次训练测试。在 GPT-3 训练和 LLM 微调方面,Blackwell (B200) 的性能大约是 H100 的两倍。在推荐系统和图像生成方面,性能提升幅度略小,但仍然相当可观,分别为 64% 和 62%。

Blackwell 架构,体现在英伟达 B200 GPU 中,延续了使用越来越少的精确数字来加速 AI 的趋势。对于 ChatGPT、Llama2 和 Stable Diffusion 等 Transformer 神经网络的某些部分,英伟达 H100 和 H200 使用 8 位浮点数。B200 将其降低到仅 4 位。

谷歌推出第六代硬件

谷歌展示了其第六代 TPU(名为 Trillium)的首次结果,这款 TPU 仅在上个月发布。此外,谷歌还展示了其第五代变体 Cloud TPU v5p 的第二轮结果。在 2023 年的版本中,这家搜索巨头推出了第五代 TPU 的另一个变体 v5e,该变体更注重效率而不是性能。与 v5e 相比,Trillium 在 GPT-3 训练任务上的性能提升了 3.8 倍。

但与所有人的主要竞争对手英伟达相比,情况并不那么乐观。由 6144 个 TPU v5p 组成的系统在 11.77 分钟内完成了 GPT-3 训练检查点,远远落后于由 11616 个英伟达 H100 组成的系统,后者在约 3.44 分钟内完成了任务。该顶级 TPU 系统只比规模只有其一半的 H100 计算机快了大约 25 秒。

戴尔科技公司使用约 75 美分的电费对 Llama 2 70B 大型语言模型进行了微调。

在 v5p 和 Trillium 之间最直接的对比中,每个系统都由 2048 个 TPU 组成,即将推出的 Trillium 将 GPT-3 训练时间缩短了整整 2 分钟,比 v5p 的 29.6 分钟提高了近 8%。Trillium 和 v5p 之间的另一个区别是,Trillium 与 AMD Epyc CPU 配合使用,而 v5p 则与英特尔 Xeon 配合使用。

谷歌还使用 Cloud TPU v5p 训练了图像生成器 Stable Diffusion。Stable Diffusion 的参数量为 26 亿,规模较小,MLPerf 参赛者被要求将其训练到收敛,而不是像 GPT-3 那样只训练到检查点。由 1024 个 TPU 组成的系统排名第二,在 2 分钟 26 秒内完成了任务,比由相同数量的英伟达 H100 组成的系统慢了大约 1 分钟。

%E2%80%9D<ahttps://public.flourish.studio/visualisation/20251…” target=”_blank”>https://public.flourish.studio/visualisation/20251…” width=”100%” alt=”chart visualization” />

训练能力仍然不透明

训练神经网络的高昂能源成本一直是人们关注的焦点。MLPerf 只是开始对此进行衡量。戴尔科技公司是能源类别中唯一的参赛者,其系统包含 8 台服务器,其中包含 64 个英伟达 H100 GPU 和 16 个英特尔至强铂金 CPU。唯一的测量指标是在 LLM 微调任务(Llama2 70B)中进行的。该系统在 5 分钟的运行过程中消耗了 16.4 兆焦耳,平均功率为 5.4 千瓦。这意味着在美国平均电价下,大约需要 75 美分的电费。

虽然这个结果本身并不能说明太多问题,但它可能为类似系统的功耗提供了一个参考范围。例如,甲骨文报告了使用相同数量和类型的 CPU 和 GPU 实现了相似的性能结果——4 分钟 45 秒。

Share This Article
Email Copy Link Print
Previous Article 谷歌DeepMind开源AlphaFold 3,药物研发迈入新纪元
Next Article AI Institute 绘制了使用 Theia 训练的机器人控制策略在 MuJoCo 机器人模拟任务中优于使用替代表征训练的策略,计算量更少,以十亿次乘加运算 (MAC) 衡量。 AI研究院推出Theia视觉基础模型,助力机器人学习
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
Alli AI 内容创作平台即将发布
初创
红杉资本领投,健康科技公司Freed获3000万美元融资,用AI革新医疗记录
初创
photo_2025-03-04_17-48-25_1741103341wF7z
$RNT:房产代币化的未来
初创
250218_AIbranding.jpg?resize=1200,600
AI 可能是你最重要的客户
AI

相关内容

未分类

巨量引擎&凯度:2025年巨量引擎日化行业白皮书日遇新机破局而上

2025年1月20日
未分类

蝉妈妈智库:2024年抖音电商年报

2025年1月28日
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
前途科技
Username or Email Address
Password

Lost your password?