订阅我们的每日和每周新闻通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多
DeepSeek 本周发布的 R1 模型,在 AI 领域掀起了一场风暴。没有人想到一家中国初创公司会率先推出与 OpenAI 的 o1 模型匹敌的推理模型,并且同时将其开源(符合 OpenAI 的最初使命)。
企业可以通过 Hugging Face 轻松下载 R1 的权重,但获取模型从来不是问题——超过 80% 的团队正在使用或计划使用开源模型。真正的难题在于部署。如果你选择使用像 Vertex AI 这样的超大规模云服务,你就会被锁定在特定的云平台。另一方面,如果你选择独立构建内部系统,你将面临资源限制的挑战,因为你必须设置十几个不同的组件才能开始,更不用说优化或扩展下游了。
为了应对这一挑战,由 Y Combinator 和 SenseAI 支持的 Pipeshift 推出了一个端到端的平台,允许企业在任何云或本地 GPU 上训练、部署和扩展开源生成式 AI 模型——包括 LLM、视觉模型、音频模型和图像模型。该公司正在与一个快速增长的领域竞争,其中包括 Baseten、Domino Data Lab、Together AI 和 Simplismart。
关键价值主张是什么?Pipeshift 使用了一个模块化的推理引擎,可以快速优化速度和效率,帮助团队不仅可以将部署速度提高 30 倍,而且可以在相同的基础设施上实现更多功能,从而节省高达 60% 的成本。
想象一下,用一个 GPU 运行相当于四个 GPU 的推理。
当你需要运行不同的模型时,在内部构建一个功能性的 MLOps 堆栈——从访问计算、训练和微调到生产级部署和监控——就成了问题。你必须设置 10 个不同的推理组件和实例才能启动并运行,然后投入数千个工程小时才能进行最小的优化。
“推理引擎有多个组件,”Pipeshift 联合创始人兼首席执行官 Arko Chattopadhyay 告诉 VentureBeat。“这些组件的每种组合都会创建一个具有不同性能的独特引擎,用于相同的负载。为了最大限度地提高 ROI,识别最佳组合需要数周的重复实验和设置微调。在大多数情况下,内部团队可能需要数年时间才能开发出能够实现基础设施灵活性和模块化的管道,这使得企业在市场上落后,并积累了大量的技术债务。”
虽然有一些初创公司提供平台来跨云或本地环境部署开源模型,但 Chattopadhyay 表示,大多数公司都是 GPU 经纪商,提供一刀切的推理解决方案。因此,他们为不同的 LLM 保持单独的 GPU 实例,这在团队想要节省成本和优化性能时无济于事。
为了解决这个问题,Chattopadhyay 创建了 Pipeshift,并开发了一个名为基于 GPU 的推理集群的模块化架构 (MAGIC) 的框架,旨在将推理堆栈分布到不同的即插即用组件中。这项工作创建了一个类似乐高积木的系统,允许团队为其工作负载配置正确的推理堆栈,无需基础设施工程的麻烦。
这样,团队可以快速添加或互换不同的推理组件,以拼凑出一个定制的推理引擎,可以从现有基础设施中提取更多资源,以满足对成本、吞吐量甚至可扩展性的期望。
例如,一个团队可以建立一个统一的推理系统,其中多个特定领域的 LLM 可以在一个 GPU 上进行热交换运行,充分利用它。
由于声称提供模块化推理解决方案是一回事,而实现它则是另一回事,Pipeshift 的创始人很快指出了该公司产品的优势。
“在运营支出方面……MAGIC 允许你在给定的 Nvidia GPU 集群上以 >500 个令牌/秒的速度运行像 Llama 3.1 8B 这样的 LLM,而无需任何模型量化或压缩,”他说。“这解锁了大规模降低扩展成本的可能性,因为 GPU 现在可以处理比使用云提供商提供的原生平台所能实现的负载高 20-30 倍的负载。”
这位首席执行官指出,该公司已经与 30 家公司合作,采用基于年度许可证的模式。
其中一家是财富 500 强零售商,最初使用四个独立的 GPU 实例来运行四个为其自动化支持和文档处理工作流而微调的开源模型。这些 GPU 集群中的每一个都在独立扩展,增加了巨大的成本开销。
“随着数据集越来越大,大规模微调变得不可能,所有管道都支持单 GPU 工作负载,同时要求你一次上传所有数据。此外,AWS Sagemaker 等工具没有自动扩展支持,这使得难以确保基础设施的最佳利用,迫使公司事先预先批准配额并预留容量,以应对理论上的扩展,而实际使用率仅为 5%,”Chattopadhyay 指出。
有趣的是,在转向 Pipeshift 的模块化架构后,所有微调都集中到一个 GPU 实例中,该实例并行地为它们提供服务,而无需任何内存分区或模型降级。这将运行这些工作负载所需的 GPU 从四个减少到一个。
“无需额外的优化,我们能够将 GPU 的能力扩展到一个点,它可以为推理提供五倍快的令牌,并且可以处理四倍高的规模,”这位首席执行官补充道。总的来说,他说该公司看到了 30 倍的部署时间缩短和 60% 的基础设施成本降低。
凭借模块化架构,Pipeshift 希望将自己定位为部署所有尖端开源 AI 模型(包括 DeepSeek R-1)的首选平台。
然而,这并非易事,因为竞争对手仍在不断发展其产品。
例如,Simplismart 在几个月前筹集了 700 万美元,正在采用类似的软件优化方法来进行推理。谷歌云和微软 Azure 等云服务提供商也在加强各自的产品,尽管 Chattopadhyay 认为从长远来看,这些 CSP 更像是合作伙伴而不是竞争对手。
“我们是一个用于 AI 工作负载的工具和编排平台,就像 Databricks 一直以来都是数据智能领域的平台,”他解释说。“在大多数情况下,大多数云服务提供商将成为其客户能够从 Pipeshift 在其 AWS/GCP/Azure 云上获得的价值的增长阶段 GTM 合作伙伴。”
在接下来的几个月里,Pipeshift 还将推出工具来帮助团队构建和扩展其数据集,以及模型评估和测试。这将成倍地加快实验和数据准备周期,使客户能够更有效地利用编排。