亚马逊云科技重塑 SageMaker:数据与 AI 的融合新纪元
在 2024 年的 re:Invent 大会上,亚马逊云科技 (AWS) 宣布了其云端机器学习 (ML) 开发平台 SageMaker 的下一代版本,将 SageMaker 打造成一个统一的中心,让企业能够将所有数据资产(涵盖湖仓架构中的不同数据湖和数据源)以及全面的 AWS 生态系统分析和以前分散的 ML 工具整合在一起。
换句话说,SageMaker 不再仅仅是一个构建 AI 和机器学习应用程序的地方,现在您还可以将数据链接起来并从中提取分析结果。
此举是针对分析和 AI 融合的普遍趋势做出的回应,企业用户一直在以相互关联的方式使用其数据,从为历史分析提供支持到启用 ML 模型训练和针对不同用例的生成式 AI 应用程序。
特别是微软一直在努力将其所有数据产品整合到其 Fabric 产品中,并且在上个月宣布将更多其运营数据库进行原生集成。所有这些都为客户简化了 AI 应用程序开发,因为对数据的原生访问可以使 AI 变得更快、更高效。微软一直被认为是这方面的领导者,而现在亚马逊正在迎头赶上。
“许多客户已经使用我们专门构建的分析和 ML 工具(独立使用),例如 Amazon SageMaker(事实上的数据处理和构建 ML 模型标准)、Amazon EMR、Amazon Redshift、Amazon S3 数据湖和 AWS Glue。SageMaker 的下一代版本将这些功能(以及一些令人兴奋的新功能)整合在一起,为客户提供数据处理、SQL 分析、ML 模型开发和训练以及生成式 AI 所需的所有工具,直接在 SageMaker 内,”AWS 数据和 AI 副总裁 Swami Sivasubramanian 在一份声明中表示。
Amazon SageMaker 长期以来一直是开发人员和数据科学家的关键工具,为他们提供了一个完全托管的服务来部署生产级 ML 模型。
该平台的集成开发环境 SageMaker Studio 为团队提供了一个单一的基于 Web 的可视化界面,可以执行所有机器学习开发步骤,从数据准备、模型构建、训练、调整和部署。
然而,随着企业需求不断发展,AWS 意识到将 SageMaker 限制在仅 ML 部署上没有意义。企业还需要专门构建的分析服务(支持 SQL 分析、搜索分析、大数据处理和流分析等工作负载),以及与现有 SageMaker ML 功能相结合的轻松访问其所有数据,以推动洞察并为其下游用户提供新的体验。
为了弥合这一差距,该公司现在为 SageMaker 升级了两个关键功能:Amazon SageMaker Lakehouse 和 Unified Studio。
正如该公司解释的那样,Lakehouse 提供对构建在 Amazon Simple Storage Service (S3)、Redshift 数据仓库和其他联合数据源之上的所有数据湖中存储的所有数据的统一访问,打破了数据孤岛,使其无论信息最初存储在何处都易于查询。
“如今,超过一百万个数据湖构建在 Amazon Simple Storage Service 上……使客户能够集中其数据资产,并利用 AWS 分析、AI 和 ML 工具来获取价值……客户可能将数据分散在多个数据湖中,以及一个数据仓库中,并且将受益于一种简单的方法来统一所有这些数据,”该公司在一份新闻稿中指出。
一旦所有数据与 Lakehouse 产品统一,企业就可以访问它并利用另一个关键功能——SageMaker Unified Studio 来使用它。
Studio 的核心是一个统一的环境,它将来自亚马逊独立工作室、查询编辑器和可视化工具的所有现有 AI 和分析功能串联在一起——涵盖 Amazon Bedrock、Amazon EMR、Amazon Redshift、AWS Glue 和现有的 SageMaker Studio。
这避免了独立使用不同工具的耗时麻烦,并为用户提供了一个地方来利用这些功能来发现和准备数据、编写查询或代码、处理数据和构建 ML 模型。他们甚至可以调出 Amazon Q Developer 助手并要求它处理数据集成、发现、编码或 SQL 生成等任务——在同一个环境中。
因此,简而言之,用户在一个地方拥有所有数据以及所有分析和 ML 工具,以支持下游应用程序,从数据工程、SQL 分析和即席查询到数据科学、ML 和生成式 AI。
例如,通过 SageMaker Studio 中的 Bedrock 功能,用户可以将他们首选的高性能基础模型和工具(如代理、护栏和知识库)与他们的 Lakehouse 数据资产连接起来,以快速构建和部署生成式 AI 应用程序。
一旦项目执行完毕,Lakehouse 和 Studio 产品还允许团队将其数据、模型、应用程序和其他工件发布并与其团队成员共享——同时使用具有细粒度安全控制的单一权限模型来维护一致的访问策略。这加快了资源的可发现性和重用,防止重复工作。
值得注意的是,SageMaker Lakehouse 与 Apache Iceberg 兼容,这意味着它还将与与 Apache Iceberg 开放标准兼容的熟悉 AI 和 ML 工具和查询引擎一起使用。此外,它还包括对 Amazon Aurora MySQL 和 PostgreSQL、Amazon RDS for MySQL、Amazon DynamoDB 与 Amazon Redshift 以及 Zendesk 和 SAP 等 SaaS 应用程序的零 ETL 集成。
“SageMaker 产品突出了 AWS 的战略,即以受控和统一的方式公开其先进的综合功能,因此可以快速构建、测试和使用 ML 和 AI 工作负载。AWS 开创了 Zero-ETL 这一术语,现在它已成为行业标准。令人兴奋的是,Zero-ETL 已超越数据库并进入应用程序。凭借对结构化和非结构化数据的治理控制和支持,数据科学家现在可以轻松构建 ML 应用程序,”行业分析师 Sanjeev Mohan 告诉 VentureBeat。
新的 SageMaker 从今天开始可供 AWS 客户使用。但是,Unified Studio 仍处于预览阶段。AWS 尚未分享具体的时间表,但表示预计 Studio 将很快全面上市。
罗氏和 Natwast 集团等公司将成为新功能的首批用户,后者预计 Unified Studio 将使数据用户访问分析和 AI 功能所需的时间减少 50%。与此同时,罗氏预计 SageMaker Lakehouse 将使数据处理时间减少 40%。
AWS re:Invent 将于 2024 年 12 月 2 日至 6 日举行。