订阅我们的每日和每周新闻通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多
人工智能的应用范围不断扩大,越来越多的企业将 AI 工具集成到其工作流程中,许多企业希望寻找更多方法来降低运行 AI 模型的成本。
为了满足客户需求,AWS 在 Bedrock 上宣布了两项新功能,以降低运行 AI 模型和应用程序的成本,这些功能已经在竞争对手平台上提供。
在 AWS re:Invent 的主题演讲中,AWS AI 和数据副总裁 Swami Sivasubramanian 宣布了 Bedrock 上的智能提示路由和提示缓存的到来。
智能提示路由将帮助客户将提示定向到最佳大小,以便大型模型不会回答简单的查询。
“开发人员需要适合其应用程序的正确模型,这就是我们提供多种选择的原因,”Sivasubramanian 说。
AWS 表示,智能提示路由“可以在不影响准确性的情况下将成本降低高达 30%”。用户将不得不选择一个模型系列,Bedrock 的智能提示路由将把提示推送到该系列中合适大小的模型。
通过不同的模型移动提示以优化使用和成本在 AI 行业中逐渐流行起来。初创公司 Not Diamond 在 7 月份宣布了其智能路由功能。
AWS 客户语音代理公司 Argo Labs 表示,它使用智能提示路由来确保正确大小的模型处理不同的客户查询。像“您有预订吗?”这样简单的“是”或“否”问题由较小的模型管理,但更复杂的问题,例如“有哪些素食选择?”将被路由到更大的模型。
AWS 还宣布 Bedrock 现在将支持提示缓存,Bedrock 可以保留常见或重复的提示,而无需 ping 模型并生成另一个令牌。
“令牌生成成本会迅速增加,尤其是在提示频繁重复时,”Sivasubramanian 说。“我们希望为客户提供一种简单的方法来动态缓存提示,而不会牺牲准确性。”
AWS 表示,提示缓存“将支持模型的成本降低高达 90%,将延迟降低高达 85%”。
然而,AWS 在这方面有点落后。提示缓存已在其他平台上提供,以帮助用户在重复使用提示时降低成本。Anthropic 的 Claude 3.5 Sonnet 和 Haiku 在其 API 上提供提示缓存。OpenAI 还扩展了其 API 的提示缓存。
运行 AI 应用程序仍然很昂贵,不仅因为训练模型的成本,而且实际上是使用它们。企业表示,使用 AI 的成本仍然是更广泛部署的最大障碍之一。
随着企业转向代理用例,用户 ping 模型和代理以开始执行其任务仍然存在成本。提示缓存和智能路由等方法可以通过限制提示 ping 模型 API 以回答查询的时间来帮助降低成本。
然而,模型开发人员表示,随着采用率的提高,一些模型价格可能会下降。OpenAI 表示,预计 AI 成本很快就会下降。
AWS 托管了亚马逊的许多模型(包括其新的 Nova 模型)和领先的开源提供商,将在 Bedrock 上添加新模型。这包括来自 Poolside、Stability AI 的 Stable Diffusion 3.5 Large 和 Luma 的 Ray 2 的模型。这些模型预计很快将在 Bedrock 上发布。
Luma 首席执行官兼联合创始人 Amit Jain 告诉 VentureBeat,AWS 是该公司第一个托管其模型的云提供商合作伙伴。Jain 表示,该公司在构建和训练 Luma 模型时使用了亚马逊的 SageMaker HyperPod。
“AWS 团队的工程师感觉像是我们团队的一部分,因为他们帮助我们解决问题。我们花了将近一两周的时间才让我们的模型投入使用,”Jain 说。