AI 时代:如何克服基础设施挑战,实现成功落地?
人工智能 (AI) 正在迅速改变着各行各业,企业纷纷将 AI 视为竞争优势的关键。然而,现实情况是,AI 的大规模应用仍处于起步阶段。尽管大多数企业都认识到 AI 的重要性,但只有 40% 的大型企业真正将 AI 部署到业务中,而另外 40% 的企业则停留在探索和实验阶段。究其原因,38% 的 IT 专业人士坦言,缺乏技术基础设施是阻碍 AI 成功落地的主要障碍。
为什么如此多的企业在 AI 落地之路上步履维艰?哈佛商业评论估计,AI 项目的失败率高达 80%,是其他企业 IT 项目失败率的两倍。其中,AI 技能和专业知识的匮乏是导致 AI 部署失败的主要原因之一。事实上,90% 的企业都面临着 IT 技能短缺的问题,这导致了 AI 系统设计、部署和持续集群管理方面的执行差距。如果没有必要的洞察力、软件工具和专业知识,83% 的企业承认,即使在系统部署后,也无法充分利用其 GPU 和 AI 硬件。
Penguin Solutions AI 系统产品管理高级总监 Jonathan Ha 指出,管理 AI 基础设施是一项全新的挑战,需要与传统 IT 基础设施截然不同的方法。
“针对特定用例和工作负载,对成本、性能、数据和运营模型进行优化,需要从坚实的 AI 基础设施开始,并进行智能化管理,”Ha 说。“只有建立了这个基础,才能从概念验证阶段过渡到规模化生产。”
以下列举了构建 AI 架构时最常见的五个挑战,以及企业如何应对和克服这些挑战。
1. 缺乏 AI 基础设施管理专业知识
IT 行业拥有数十年的工具、流程和经验,用于监控和管理 CPU 级别的通用计算和高性能计算 (HPC) 工作负载。然而,当今的 AI 基础设施需要在监控和管理能力方面进行重大改进。随着高性能 GPU、高性能互连、低延迟网络结构,甚至液冷基础设施等新技术的加入,IT 机构面临着构建监控和管理这些 AI 集群的专业知识的挑战,尤其是在规模化的情况下。
设计计算和存储集群架构、构建网络拓扑,然后对其进行调整以获得 AI 工作负载的最大性能,都需要专门的技能、经验和专业知识。
许多企业在应对这一挑战时,存在一种错误的自信,认为他们丰富的 IT 基础设施专业知识足以让他们取得成功。不幸的是,这往往意味着他们在启动基础设施或实现预期结果方面遇到了困难。AI 战略的成功取决于最初做出的决策:用例、项目设计、硬件需求、成本等等。这需要在设计、部署和管理当今 AI 基础设施方面拥有实际的、最新的经验。
2. AI 人才短缺
不幸的是,AI 的爆炸式增长远远超过了人才库,使得这些专业知识难以找到。在如此紧张的市场中,获得合适的人才至关重要,无论是通过培训现有员工、外部招聘,还是选择合适的 AI 基础设施合作伙伴。
3. 规模化和数据管理挑战
在设计系统之前,企业需要规划其 AI 用例、模型和数据集,以确定所需 AI 基础设施的规模。重要的是要考虑模型参数、支持的用户和性能需求,同时也要预测这些需求随着 AI 采用率的不断增长而如何增长和变化。与此同时,企业还必须考虑快速增长的数据需求和不断变化的技术环境。当管理极其复杂的 AI 架构时,企业如何才能保持敏捷、轻松扩展并提供预期的性能、安全性和稳定性?
首先,企业应该制定一个全面的 AI 路线图,确定 AI 旅程每个阶段所需的资源及其部署时间表。例如,从数据中心开始设计至关重要,因为其电力和冷却能力将决定 AI 集群的可行性和未来的可扩展性。其次,选择和集成经过验证的模块化架构,这些架构可以轻松配置以满足不断变化的计算需求,同时提供高可用性和性能,即使工作负载和用例随着时间的推移而发生变化。
4. 数据安全和治理
AI 依赖于对整个管道中大型数据集的有效管理。数据安全可能成为一项挑战,确保数据干净、准确、无偏见,以及符合内部和外部合规性法规,是一项持续的风险和责任。
“在 AI 项目中,每条数据都变得有价值,但一旦它从企业的孤岛中释放出来,也更容易受到攻击。此外,在训练 AI 模型时,标签和标记往往会引入偏差,”Ha 说。“建立适当的流程、控制和治理,以安全、公平的方式使用数据,必须是重中之重。”
领导者必须投入时间了解潜在的陷阱,包括泄露、数据滥用和数据错误分类,以及偏差,然后再接触数据并开始 AI 项目。然后,他们应该建立流程和工具来保护所有位置的数据。此外,重要的是要规划哪些角色获得哪些类型的访问权限,并密切跟踪和监控这些活动。
5. 性能优化和可靠性
网络配置错误、节点故障或 GPU 丢失会中断运营,导致新产品发布延迟或阻碍关键见解的发现。由于架构的复杂性和对熟练人才的需求,解决这些挑战很困难。需要专业知识来管理最佳集群设计和智能集群管理。此外,在整个管道中对模型进行持续调整和优化对于成功至关重要。
要使 AI 项目保持正轨并持续优化,需要实施 AIOps 方法,该方法将大数据、分析和机器学习整合到一个自动化和智能的 IT 平台中。这确保了对 AI 管道所有方面的完全可见性和控制。它自动对组织数据进行排序和集成,识别应用程序性能和可用性问题,诊断根本原因,然后解决这些问题以最大程度地减少减速和短缺。通过这样做,它发现了优化工作负载和提高效率的方法。
AI 是一项要求苛刻且成本高昂的任务,无法承受低效的系统或不必要的停机时间,然而,许多企业每天都在为此苦苦挣扎。例如,Meta 最近的一篇论文详细介绍了该公司训练 Llama 3 模型的经验,该模型在集群中拥有 16,000 个 GPU。不幸的是,集群每三个小时就会发生一次与 GPU 相关的故障。当您进行同步并行工作负载时,这会导致延迟、作业重启,甚至错误的结果和输出。
“我们从客户和其他大型 AI 基础设施提供商那里了解到,在任何给定时间,他们的 AI 集群可能只有 30% 到 70% 的 GPU 节点可用,”Ha 说。“如果您只有 70% 的 GPU 节点可用,并且从系统中获得的性能仅为目标性能的 70%,那么您只实现了 AI 基础设施投资潜在价值的 49%。51% 的损失价值将对您的投资回报率产生重大负面影响。”
Ha 说,能够监控、管理和创建自动化和预测故障的流程是最大程度地降低风险的最佳方法。当 Meta 实施自动化工具和流程时,他们发现一次训练运行有 400 多次中断,其中除了三次之外,所有中断都通过自动化处理,无需人工干预,也无需暂停作业。
“这就是拥有超过 20 亿人时管理这些大型 AI 集群的经验的秘诀——拥有工具、洞察力和自动化流程来保持它们正常运行,”他说。
AI 成功的关键:文化、合作和专业知识
启动 AI 战略需要时间、精力以及大量的专业技能和理解。在与竞争对手推出自己的计划的同时,应对和解决这些挑战变得越来越冒险,尤其是在使用快速发展的技术时。Ha 说,有一些方法可以加强和保护 AI 项目。
“挑战不仅仅是复杂性,甚至不是技能组合,”他说。“而是要让您的组织随着技术一起发展。”
为了确保 AI 项目取得成功,企业必须紧跟最新的技术进步,并培养内部精通 AI 的文化。通过利用 AIOps 和 MLOps 的功能,这些企业可以将 AI 无缝集成到跨不同团队和领域的流程中。为了持续优化 AI 模型,打破部门之间的隔阂,促进协作至关重要。在 AI 专家合作伙伴的支持下,建立一种以实验、迭代和从成功和失败中学习为基础的文化,对于 AI 战略的长期成功至关重要。
对于 AI 项目成功的最重要建议是什么?
“对合适的工具、合作伙伴和专业知识进行稳固投资,”Ha 说。“AI 是一项巨大的任务,但从一开始就建立基础和这些能力,可以帮助您实现投资回报和更快的价值实现时间,显著降低业务风险,并提供您在市场中取得成功所需的竞争优势。”
访问 Penguin Solutions 了解更多关于如何防范 AI 架构风险,并与值得信赖的合作伙伴一起启动成功的 AI 项目的信息。凭借 25 年的 HPC 经验,以及自 2017 年以来部署的超过 75,000 个 GPU,Penguin Solutions 是 Meta、美国海军、桑迪亚国家实验室和佐治亚理工学院等领先组织的 AI 和 HPC 解决方案和服务的值得信赖的战略合作伙伴。其 OriginAI 解决方案为关键的、要求苛刻的 AI 工作负载提供可靠的基础设施。
赞助文章是由付费发布文章或与 VentureBeat 有业务关系的公司制作的内容,并且始终明确标明。有关更多信息,请联系 sales@venturebeat.com。