加入我们的每日和每周通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多
企业可以期待在 2025 年围绕创建坚实的 AI 扩展基础这一关键任务,获得新的功能和战略决策。专门为 AI 设计的新芯片、加速器、协处理器、服务器以及其他网络和存储硬件有望缓解当前的短缺并提供更高的性能,扩展服务种类和可用性,并加快价值实现时间。
IDC 表示,新兴的专用硬件格局预计将推动 AI 基础设施持续以两位数的速度增长,这种增长已经持续了 18 个月。这家 IT 公司报告称,2024 年上半年,用于 AI 的计算硬件(主要是带有加速器的服务器)和存储硬件基础设施的企业采购同比增长 37%。预计到 2028 年,销售额将增长三倍,达到每年 1000 亿美元。
“到 2025 年,用于 AI 的专用和公共云基础设施的总支出预计将占全球 AI 新支出 的 42%。”IDC 数字基础设施战略研究副总裁玛丽·约翰斯顿·特纳写道。
AI 扩展的主要高速公路
许多分析师和专家表示,这些惊人的数字表明,基础设施是 AI 增长和企业数字化转型的主要高速公路。因此,他们建议,主流公司的技术和业务领导者应将 AI 基础设施作为 2025 年的关键战略、战术和预算优先事项。
“生成式 AI 的成功取决于明智的投资和强大的基础设施。”
全球研究和咨询公司 ISG 的云和基础设施交付总监阿纳伊·纳瓦特说:“从生成式 AI 中获益的组织会重新分配其预算,重点关注这些举措。”
作为证据,纳瓦特引用了 ISG 最近的一项全球调查,该调查发现,按比例而言,组织有 10 个项目处于试点阶段,16 个项目处于有限部署阶段,但只有 6 个项目大规模部署。纳瓦特说,一个主要原因是当前基础设施无法以经济、安全和高性能的方式扩展。他的建议是:“制定全面的采购实践,最大限度地提高 GPU 的可用性和利用率,包括调查专门的 GPU 和 AI 云服务。”
其他人也同意,在扩展 AI 试点、概念验证或初始项目时,选择提供可扩展性、性能、价格、安全性和可管理性的最佳组合的部署策略至关重要。
为了帮助企业制定 AI 扩展的基础设施战略,VentureBeat 咨询了十多位 CTO、集成商、顾问和其他经验丰富的行业专家,以及同样数量的最新调查和报告。
这些见解和建议,以及为更深入探索而精心挑选的资源,可以帮助组织沿着最明智的道路前进,利用新的 AI 硬件,并推动运营和竞争优势。
对于大多数企业(包括那些扩展大型语言模型 (LLM) 的企业)来说,专家表示,从新的 AI 专用芯片和硬件中获益的最佳方式是间接的——也就是说,通过云提供商和服务。
这是因为许多新的 AI 就绪硬件成本高昂,并且针对大型数据中心。大多数新产品将被超大规模公司(如微软、AWS、Meta 和谷歌)、云提供商(如 Oracle 和 IBM)、AI 巨头(如 XAI 和 OpenAI)以及其他专门的 AI 公司以及 Equinix 等主要托管公司抢购。所有这些公司都在争先恐后地扩展其数据中心和服务,以获得竞争优势并跟上激增的需求。
与云计算一样,将 AI 基础设施作为服务进行消费带来了几个优势,特别是更快的启动和可扩展性、免除人员配备的担忧以及按需付费和运营支出 (OpEx) 预算的便利性。但计划仍在不断涌现,分析师表示,2025 年将出现一系列基于强大的 AI 优化硬件的新云服务,包括新的端到端和行业特定选项。
新的优化硬件不会改变当前的现实:用于 AI 的自行 (DIY) 基础设施最适合金融服务、制药、医疗保健、汽车和其他竞争激烈且受监管的行业的财力雄厚的企业。
与通用 IT 基础设施一样,成功需要能够处理高资本支出 (CAPEX)、复杂的 AI 运营、人员配备和拥有专业技能的合作伙伴,并能够承受生产力下降,并在建设过程中利用市场机会。大多数处理自身基础设施的公司这样做是为了具有高投资回报率 (ROI) 的专有应用程序。
BuildOps 的 CTO 邓肯·格雷泽提供了一个简单的指导方针。BuildOps 是一个面向建筑承包商的基于云的平台。“如果您的企业在稳定的问题空间内运营,并且有众所周知的机制驱动结果,那么决策仍然很简单:资本支出是否超过超大规模公司为您的问题构建定制解决方案的成本和时间?如果部署新硬件可以将您的总体运营支出降低 20-30%,那么在三年内,数学计算通常支持前期投资。”
尽管要求苛刻,但 DIY 预计将越来越受欢迎。硬件供应商将发布新的、可定制的 AI 专用产品,促使越来越多的成熟组织在私有云或本地部署专用、微调的专有 AI。许多公司将受到特定工作负载更快性能、降低模型漂移风险、更强大的数据保护和控制以及更好的成本管理的推动。
最终,对于大多数在新的基础设施范式中航行的企业来说,最明智的近期策略将反映当前的云方法:一个开放的、“适合目的”的混合方法,将私有云和公共云与本地和边缘相结合。
并非每个组织都能获得价值 70,000 美元的高端 GPU 或负担得起价值 200 万美元的 AI 服务器。放心,针对日常组织的更现实定价的新 AI 硬件开始出现。
例如,戴尔 AI 工厂在一个集成包中包含 AI 加速器、高性能服务器、存储、网络和开源软件。该公司还宣布了新的 PowerEdge 服务器和集成机架 5000 系列,提供风冷和液冷的节能 AI 基础设施。主要的 PC 制造商继续推出功能强大的新型 AI 就绪型号,用于分散式、移动式和边缘处理。
资深行业分析师和顾问杰克·E·戈德——J. Gold Associates 的总裁兼首席分析师——表示,他看到更便宜的选择在加速企业 AI 的采用和增长方面发挥着越来越重要的作用。Gartner 预计,到 2026 年底,所有新的企业 PC 都将支持 AI。
技术可能是新的。但好消息是:许多规则保持不变。
“为 AI 量身定制的专用硬件,如英伟达的行业领先 GPU、谷歌的 TPU、Cerebras 的晶圆级芯片等,正在使构建与购买的决策变得更加微妙。”ISG 的纳瓦特说。但他和其他人都指出,做出这些决策的核心原则在很大程度上保持一致且熟悉。“企业仍在评估业务需求、技能可用性、成本、可用性、可支持性和最佳品种与最佳类别。”
经验丰富的专家强调,关于是否以及如何采用 AI 就绪硬件以获得最大收益的最明智决策需要对采购基本原理进行新鲜、严谨的分析。具体而言:对软件、数据和平台的更大 AI 堆栈的影响,以及对特定 AI 目标、预算、总拥有成本 (TCO) 和 ROI、安全性和合规性要求、可用专业知识以及与现有技术的兼容性的全面审查。
运营和冷却的能源是一个很大的未知因素。虽然公众的注意力集中在新的小型核电站上,以应对 AI 对电力的巨大需求,但分析师表示,非提供商企业必须开始考虑自己的能源支出以及 AI 基础设施和使用对其企业可持续发展目标的影响。
在许多组织中,AI“科学实验”和“闪亮物体”的时代正在结束或已经结束。从现在开始,大多数项目都需要明确、可实现的关键绩效指标 (KPI) 和 ROI。这意味着企业必须在考虑技术基础设施的“如何”之前,明确确定业务价值的“为什么”。
“你会惊讶地发现,这个基本原理被忽视了多少次。”戈德说。
毫无疑问,为 AI 基础设施和举措选择最佳的定性和定量指标是一个复杂、新兴的、个性化的过程。
同样,行业专家(不仅仅是数据产品销售商)强调了相关最佳实践的重要性:从数据开始。部署高性能(或任何)AI 基础设施,而没有确保数据质量、数量、可用性和其他基础知识,将很快且昂贵地导致糟糕的结果。
全球解决方案和系统集成商 Insight Enterprises 的北美 CTO 胡安·奥兰迪尼指出:“购买这些超级加速的 AI 设备,而没有真正完成必要的艰苦工作来了解您的数据、如何使用或利用它以及它是否有效,就像购买防火墙但不知道如何保护自己。”
除非您渴望看到“垃圾进,垃圾出 (GIGO)”在类固醇上的表现,否则不要犯这个错误。
此外,Domino Data Lab 的 AI 战略主管、前 Forrester 分析师凯尔·卡尔森建议,要关注全局。他警告说:“如果没有大幅升级其软件功能来协调、配置和管理跨 AI 生命周期所有活动的这种基础设施,企业将从这些新的 AI 硬件产品中获得很少的益处。”
如果您的公司主要使用或扩展 CoPilot、Open AI 和其他 LLM 来提高生产力,那么您现在可能不需要任何新的基础设施,马修·昌说,他是 Chang Robotics 的创始人兼负责人。
许多大型品牌,包括其位于佛罗里达州杰克逊维尔的工程公司的财富 500 强制造商客户,正在使用 AI 作为服务取得良好的成果。“他们没有计算需求,”他解释说,“因此,当您可以在市场上获得最高端的 Chat GPT Pro 产品,每月只需 200 美元时,花数百万美元购买计算集群没有意义。”
IDC 建议将 AI 对基础设施和硬件需求的影响视为一个频谱。从最高到最低的影响:构建高度定制的自定义模型、使用第一方数据调整预训练模型、将现成应用程序上下文化、按原样使用 AI 注入的应用程序。如何确定企业的基础设施最低可行性?在此处了解更多信息。
预计专用 AI 硬件的销售将在 2025 年及以后继续增长。Gartner 预计,2025 年 AI 专用芯片销售额将增长 33%,达到 920 亿美元。
在服务方面,不断增长的 GPU 云提供商队伍继续吸引新的资金,包括 Foundry 和企业客户。S&P/Weka 的一项调查发现,超过 30% 的企业已经使用替代提供商进行推理和训练,这通常是因为他们无法获得 GPU。Nebius Group(一家提供基于云的、全栈 AI 基础设施的提供商)获得了 7 亿美元的超额认购的私募融资,这表明该领域将出现更广泛的增长。
AI 已经从在大型数据中心进行训练转移到在支持 AI 的智能手机、PC 和其他设备的边缘进行推理。这种转变将产生新的专用处理器,思科服务提供商业务前负责人、JC2 Ventures 合伙人伊维特·卡努夫指出。“我特别想知道推理芯片在支持更多边缘 AI 方面将走向何方,包括个人 CPE 推理节省资源和运行时延迟。”
由于技术和使用正在迅速发展,许多专家警告不要锁定任何服务提供商或技术。人们普遍认为,将 AI 基础设施、数据和服务分布在两个或多个云提供商之间的多租户环境是企业明智的策略。
The Modern Data Company 的首席执行官兼联合创始人斯鲁詹·阿库拉更进一步。他说,超大规模公司提供方便的端到端解决方案,但他们的集成方法使客户依赖于单一公司的创新速度和能力。他建议,更好的策略是遵循开放标准并将存储与计算分离。这样做可以让组织在新的模型和技术出现时快速采用它们,而不是等待供应商赶上来。
“组织需要在没有架构限制的情况下进行实验的自由,”BuildOps 的 CTO 格雷泽同意。“在 iPhone 16 Pro 可用时被锁定在 iPhone 4 上将毁掉一个消费者应用程序,那么在这种情况下为什么会有所不同呢?在无需重建基础设施的情况下从一种解决方案无缝过渡到另一种解决方案的能力对于保持敏捷性和在快速发展的环境中保持领先至关重要。”