
阿里巴巴集团控股公司近日宣布,在人工智能基础设施优化方面取得了重大突破。该公司推出了“Aegaeon”计算池化系统,能够将AI模型运行所需的英伟达GPU资源需求大幅削减82%。这项创新本周在韩国首尔举行的第31届操作系统原理研讨会(SOSP)上首次亮相,标志着这家中国科技巨头在全球AI效率领域占据领先地位,尤其是在中美科技紧张局势日益加剧的背景下,其战略意义更加凸显。
在阿里云的模型市场进行了为期三个月的内测期间,Aegaeon系统成功将GPU使用量从1,192块英伟达H20单元骤降至仅213块。在此期间,该系统同时支持了数十个参数规模高达720亿的模型运行。这一突破性进展使得单个GPU能够同时服务多达七个大型语言模型,并将模型切换延迟大幅缩短97%,极大地提升了AI推理服务的效率和响应速度。
应对AI运营中的资源效率挑战
该系统旨在解决云计算AI服务中长期存在的关键效率问题。研究人员发现,在阿里云的模型市场中,有17.7%的GPU资源被分配,却仅用于处理总推理请求的1.35%。来自北京大学和阿里云的研究人员指出:“Aegaeon是首次揭示市场上并发大型语言模型(LLM)工作负载所带来过高成本的研究成果。”这一发现凸显了优化AI资源分配的紧迫性。
阿里云首席技术官、ACM会士及该研究论文的共同作者周靖人,主导了这项创新技术的研发工作。Aegaeon系统在模型推理过程中实现了令牌级别的自动扩缩容,从而能够进行动态资源重新分配。这意味着GPU可以在处理任务中途,灵活地在不同模型之间进行切换,显著提高了硬件利用率和整体效率。
科技紧张局势下的战略意义
这项突破性进展的公布正值中国全力以赴提升技术自主能力的关键时期。英伟达首席执行官黄仁勋近期透露,由于美国的贸易限制,其公司在中国高端AI芯片市场的份额已从95%骤降至零。中国相关部门已指示包括阿里巴巴和字节跳动在内的国内企业,在可能的情况下避免采购英伟达芯片,并转而聚焦于国内替代方案的研发与应用。
阿里巴巴的这项技术突破,不仅巩固了中国在全球AI竞争中的地位,更有效降低了对美国半导体技术的依赖。该公司已确认,Aegaeon系统目前已正式部署在其“百炼”模型市场中,为企业客户提供阿里巴巴自研的通义千问(Qwen)系列模型服务。