“`html
AI 时代的数据中心升级:AMD 如何助力企业高效应对算力挑战
人工智能的飞速发展给企业带来了前所未有的算力需求。这不仅仅是简单的算力提升,更是对更智能、更高效、更定制化算力架构的迫切需求,需要与AI创新同步扩展。
从超大规模数据中心的AI训练和推理,到企业内部的AI驱动自动化,灵活部署和扩展计算基础设施已成为企业竞争的关键。
AMD 数据中心GPU产品市场总监Mahesh Balasubramanian指出:“企业面临着巨大的挑战:如何满足不断增长的AI算力需求,如何高效扩展AI工作负载,以及如何优化其基础设施。每个企业都渴望站在AI浪潮之巅,但如此规模的变革性技术,却是前所未有的。”
如何着手应对?现代化数据中心是突破AI创新瓶颈的关键第一步。这不仅释放了空间和电力资源,提高了效率,降低了能耗,更重要的是,让企业能够灵活适应不断变化的AI环境。
Balasubramanian 强调:“将现有的三代Intel Xeon 8280 CPU数据中心升级到最新的AMD EPYC CPU,可节省高达68%的能源,并减少87%的服务器数量3。这不仅是一种智能高效的升级方式,更开启了企业提升算力的全新途径。”
随着企业AI战略的演进,快速增长的硬件和计算需求规划至关重要。无论是单一模型支撑的组织流程,还是针对各个部门的定制模型,抑或是自主AI,这都是一项复杂的任务。
“了解您的基础情况——AI部署位置、现有空间、电力、效率和成本等基础设施——就能找到众多强大的技术解决方案。” Balasubramanian 解释道。
许多企业误以为AI解决方案需要巨额前期投入,这成为AI应用的一大障碍,而这其实很容易克服。AI之旅始于对现有技术的评估和数据中心的升级;在此基础上,企业可以选择适合当前和未来目标的技术,逐步扩展规模。
Balasubramanian 表示:“与其一次性投入大量资金购买特定产品或解决方案,不如根据自身需求选择合适的方案。AMD的优势在于拥有广泛的解决方案组合,满足各种定制化需求。我们提供从云到数据中心、边缘计算、客户端和网络解决方案等全方位产品,从而在所有解决方案中提供最佳性能,并为寻求合适解决方案的企业提供深入的指导。”
AMD的AI产品组合旨在应对最苛刻的AI工作负载——从基础模型训练到边缘推理。最新的AMD Instinct™ MI325X GPU,采用HBM3e内存和CDNA架构,为生成式AI工作负载提供卓越性能,推理性能比竞争对手解决方案高出1.3倍1,2。AMD EPYC CPU持续引领行业标准,提供无与伦比的核心密度、能源效率和高内存带宽,对AI计算的可扩展性至关重要。
与戴尔、超微、联想、惠普等OEM厂商,博通、Marvell等网络供应商以及Arista和思科等交换机供应商等众多行业领导者合作,最大限度地提高了这些数据中心解决方案的模块化程度。它可以无缝扩展,从两台或四台服务器扩展到数千台服务器,所有这些都基于下一代以太网AI网络构建,并由行业领先的技术和专业知识支持。
在应对当今AI挑战的过程中,硬件和软件都至关重要,但开源软件将推动真正的创新。
Balasubramanian 强调:“我们相信,没有任何一家公司能够解决所有问题。利用AI解决全球性问题的最佳途径是形成统一战线,而统一战线意味着拥有一个开放的软件栈,让每个人都能参与协作。这是我们愿景的关键部分。”
AMD的开源软件栈ROCm™已被OpenAI、微软、Meta、甲骨文等行业领导者广泛采用。Meta在其最大、最复杂的模型中使用AMD Instinct GPU。ROCm提供对PyTorch(最大的AI框架)的标准支持,并拥有来自Hugging Face高级模型库的超过一百万个模型,使客户能够在ROCm软件和Instinct GPU上获得无缝开箱即用的体验。
AMD与PyTorch、TensorFlow、JAX、OpenAI的Triton等供应商合作,确保无论模型大小,应用程序和用例都能从单个GPU扩展到数万个GPU——其AI硬件也能扩展以匹配任何规模的工作负载。
ROCm强大的生态系统参与度以及持续集成和持续开发,确保新的AI功能可以安全地集成到软件栈中。这些功能经过自动化测试和开发流程,以确保其兼容性、稳健性,并为使用它的软件开发人员和数据科学家提供即时支持。
随着AI的不断发展,ROCm正在转向提供新的功能,而不是将组织锁定在一个可能无法提供灵活扩展性的特定供应商。
“我们希望为组织提供一个完全开放的开源软件栈,从上到下,贯穿整个组织。用户可以选择满足其需求的层级并根据需要进行修改,或者直接使用现成模型,确保企业能够从第一天起就能运行DeepSeek、Llama或谷歌最新的Gemma等密集型模型。”
在AI早期革命中,企业需要避免被锁定在单一解决方案中,找到满足当前和未来需求的计算解决方案。与行业专家合作对于识别这些需求以及如何在AI改变世界时继续前进至关重要。
AMD正在推动这一变革,与AI开发领域的领先AI实验室以及更广泛的开发人员和领先软件公司生态系统合作。AMD拥有不断壮大的客户群,包括微软、Meta、戴尔科技、惠普等,通过提供高性能、节能的解决方案来推动各行各业的创新,正在塑造AI格局。
展望未来,这种合作是AMD技术路线图的基础。公司正在投资全面的硬件和软件解决方案,包括最近收购ZT Systems,将必要的服务器和集群设计专业知识引入,以便与我们的OEM、ODM和云合作伙伴快速将全栈解决方案推向市场。
随着模型变得越来越大、越来越复杂,硬件需求呈指数级增长。这就是AMD产品战略和功能集的驱动力:确保其解决方案组合能够扩展,并拥有开放灵活的AI基础设施,保持性能和效率。
Balasubramanian总结道:“这个广泛的产品组合旨在为各种客户设置提供最佳性能,并支持各种规模的AI战略。无论组织处于AI旅程的哪个阶段,无论是构建模型还是将模型用于最终用例,我们都希望他们能与我们联系,了解我们如何帮助他们解决最大的问题。”
全新AMD Instinct MI325X加速器正在突破AI性能的界限——立即了解更多信息。
脚注
1. https://www.amd.com/en/legal/claims/instinct.html#q=MI325-014
2. https://www.amd.com/en/legal/claims/instinct.html#q=MI325-015
3. https://www.amd.com/en/legal/claims/epyc.html#q=SP9xxTCO-002A
赞助文章是由付费公司或与VentureBeat有业务关系的公司制作的内容,并且始终有明确标记。更多信息,请联系sales@venturebeat.com。
“`
