全球科技基础设施看亚马逊云科技,亚马逊创新发布看re:Invent全球大会。从云计算到AI大模型,从底层到上层应用,作为全球科技行业领导者,2024年亚马逊云科技跨越科技发展的整个周期,AI大模型的跨越式发展以及基础设施创新已经让亚马逊云科技激发出全栈联动的全新能力。
不久之前的re:Invent 2024给业界印象深刻的是亚马逊云科技在基础设施领域的立体式创新,上层 生成式AI等数据能力与底层云计算包括存储、数据治理、芯片和安全基础设施领域的重大创新。
硬件性能在AI时代一骑绝尘
自研芯片长达十年,从一开始就围绕创新、高效率、性价比布局长远。亚马逊云科技在AI时代才显得游刃有余。
芯片是当前全球科技领域关注的焦点,亚马逊云科技在几大云计算厂商中,这一方面的表现尤为突出,早在十年前就开启了定制芯片之路。以自研芯片为代表的基础设施能力不断演进,极大地拓展了亚马逊云科技的创新边界,进而为广泛而深入的全栈云和AI服务提供无限可能。
亚马逊云科技re:Invent 2024的一系列更新中,放在首日发布的最重磅炸弹无疑是Amazon Trainium2,这也是亚马逊云科技高级副总裁Peter Desantis第一次将服务器机架搬上主舞台,此前该申请一直被拒。由此可见亚马逊云科技对Amazon Trainium2及其相关系列基础设施发布的重视程度,其超强的单服务器性能是亚马逊云科技在纵向扩展领域的又一次突破,用以满足大规模生成式AI训练和实时推理的性能需求。
亚马逊云科技计算和网络副总裁 David Brown表示:“Amazon Trainium2是专为支持大型、前沿的生成式AI工作负载而设计的,能够满足训练和推理的需求,并在亚马逊云科技上提供卓越的性价比。随着模型参数接近万亿,我们意识到客户需要一种创新的方法来高效训练和运行规模庞大的工作负载。在亚马逊云科技上,全新的Amazon EC2 Trn2 UltraServers提供超快速的训练和推理性能,帮助各类企业以更快的速度和更低的成本训练和部署世界上最大的模型。”
同时,亚马逊云科技发布了新一代AI训练芯片Amazon Trainium3。Trainium3是亚马逊云科技首款采用3纳米工艺制造的芯片,在性能、能效和密度上树立了新标杆。搭载Trainium3的UltraServers性能预计将是Trn2 UltraServers的4倍,使客户在构建模型时能够更快迭代,并在部署时提供卓越的实时性能。首批基于Trainium3的实例预计将在2025年末上线。
通过持续在诸如 Nitro、Graviton 和 Tranium2 等领域的核心创新投入,亚马逊云科技正在构建更强大的人工智能服务器。而持续的领先,来自于对硬件细节极致的追求。
亚马逊云科技的基础设施立体扩展
亚马逊云科技通过大规模计算能力、专门设计的硬件架构和优化性能及性价比,显著提升了单服务性能的纵向扩展能力。这些创新不仅提高了AI模型的训练和推理效率,还降低了成本,为AI应用的广泛部署提供了强大的支持。
其中,Amazon EC2 Trn2服务器和Amazon EC2 Trn2 UltraServers超级服务器都是为AI负载和设计,并提供快速扩展能力。Amazon EC2 Trn2 UltraServers拥有64个Tranium2芯片协同工作,提供比任何当前EC2 AI服务器高五倍的计算能力和十倍的内存。亚马逊云科技高级副总裁Peter Desantis表示,“如果你要构建一个万亿参数的AI模型,这就是你需要的那种服务器。”
在横向扩展能力方面,10p10u则成为亚马逊云科技有史以来扩展最快的网络,在过去12个月中,安装了超过300万条链路;新型的SIDR网络协议则专为解决AI网络中光链路故障频发、路由更新缓慢的问题而设计,能在1秒内恢复光纤网络中的故障,速度是传统协议的10倍。
亚马逊云科技通过10p10u网络架构和SIDR网络路由协议,显著提升了横向扩展能力。10p10u网络架构通过创新的连接器和定制光纤插头,加快了安装和维护效率,而SIDR协议则通过中央规划和去中心化响应,显著提升了网络的可靠性和实时性。这些创新确保了AI集群在大规模扩展时的高效运行。
通过高性能计算能力、高效网络架构和数据中心创新,亚马逊云科技显著提升了AI基础设施的性能和可持续性。
底层基础设施与上层AI等能力的全栈联动
亚马逊云科技大中华区总裁储瑞松在re:Invent 2024上表示,大模型只是生成式AI应用创新的一部分,要想真正做好生成式AI应用开发,还需要具备其他方面的能力,包括确保生成式AI能够利用企业数据来增强大模型的能力、模型蒸馏以及安全和负责任的使用等等。为此亚马逊云科技推出了Amazon Bedrock平台,为企业用户和开发者提供了模型选择、成本性能平衡、业务数据集成、模型推理优化、安全负责任使用等五大功能。通过Amazon Bedrock平台,用户可以更方便、更轻松、更快捷地实现生成式AI应用创新。
在底层平台方面,Amazon Bedrock平台的更新使得其可以支持更多的开源大模型;在系统软件方面,Amazon SageMaker等产品的更新为用户提供了更强大的数据处理和模型训练能力;在上层应用方面,亚马逊云科技也推出了多个针对企业场景的服务,譬如Amazon Q Developer新加入的Transform功能就可以加速VMware和大型机工作负载的迁移和现代化,缩短转型时间并降低成本。
亚马逊云科技大中华区产品部总经理陈晓建表示:“亚马逊云科技是全球云计算的开创者和引领者,更是企业构建和应用生成式AI的首选,今年re:Invent全球大会的一系列重磅发布再次印证了这一点。我们不仅在云的核心服务层面持续创新,更在从芯片到模型,再到应用的每一个技术堆栈取得突破,让不同层级的创新相互赋能、协同进化。我相信,只有这样全栈联动的大规模创新才能真正满足当今客户的发展需求,加速前沿技术的价值释放,助力各行各业重塑未来。”
有业内人士评价,亚马逊云科技始终围绕弹性、安全、性能、成本、可靠性、可持续性为客户创造价值。
亚马逊云科技大中华区总裁储瑞松在拉斯维加斯现场采访中表示:“这次re:Invent推出很多重磅创新发布,广度和深度令人印象深刻,这充分体现了亚马逊云科技全栈创新联动的能力。我们的创新既有底层云计算核心能力,也有上层数据分析尤其是AI方面的能力。上层创新需求驱动底层创新,而底层创新又为上层创新提供加速和支持。”