订阅我们的每日和每周新闻通讯,获取有关行业领先人工智能报道的最新更新和独家内容。了解更多
将企业数据导入大型语言模型 (LLM) 是企业人工智能部署成功的关键任务。
这就是检索增强生成 (RAG) 的用武之地,许多供应商在该领域提供了各种解决方案。在今年的 AWS re:invent 2024 大会上,亚马逊宣布了一系列旨在帮助企业更轻松地将结构化和非结构化数据导入 RAG 管道的新服务和更新。使结构化数据可用于 RAG 不仅仅是查找表格中的单行。它涉及将自然语言查询转换为复杂的 SQL 查询,以过滤、联接表和聚合数据。对于非结构化数据,挑战更加复杂,因为根据定义,数据没有结构。
为了帮助解决这些挑战,AWS 宣布了针对结构化数据检索支持、非结构化数据 ETL(提取、转换和加载)、数据自动化和知识库支持的新服务。
“检索增强生成 (RAG) 是一种非常流行的技术,用于定制您的数据,但检索增强生成面临的挑战之一是,它在历史上主要用于文本数据,”AWS 人工智能和数据副总裁斯瓦米·西瓦苏布拉马尼安告诉 VentureBeat。“如果您观察企业,大多数数据,尤其是运营数据,都存储在数据湖和数据仓库中,而这些数据本身并不适合 RAG。”
为什么结构化数据不适合 RAG?西瓦苏布拉马尼安提供了一些场景。
“为了构建一个高度准确、安全的系统,您必须真正了解架构,构建自定义架构嵌入,然后真正了解历史查询日志,并跟上架构的变化,”西瓦苏布拉马尼安说。
在 re:invent 大会上的主题演讲中,西瓦苏布拉马尼安解释说,Amazon Bedrock 知识库服务是一种完全托管的 RAG 功能,使企业能够使用上下文相关和相关数据定制响应。
“它自动化了完整的 RAG 工作流程,无需您编写自定义代码来集成数据源和管理查询,”他说。
西瓦苏布拉马尼安表示,借助 Amazon Bedrock 知识库中的结构化数据检索支持,AWS 提供了一种完全托管的 RAG 解决方案。它使企业能够原生查询所有结构化数据,以生成用于生成式人工智能应用程序的结果。知识库将自动生成并执行 SQL 查询以检索企业数据,然后丰富模型的响应。
“最酷的是,它还会根据您的架构和数据进行调整,并从您的查询模式中学习,并提供定制选项以提高准确性,”他说。“现在,有了轻松访问结构化数据以用于 RAG 的能力,您将在企业中生成更强大、更智能的生成式人工智能应用程序。”
AWS 正在努力解决的另一个关键企业人工智能挑战是帮助提高准确性,并使用更多数据源。这就是新 GraphRAG 功能旨在解决的挑战。
“企业面临的一大挑战是将不同的数据片段拆开,并展示它们之间的联系,以便您可以构建可解释的 RAG 系统,”西瓦苏布拉马尼安说。“这就是知识图谱非常重要的原因。”
西瓦苏布拉马尼安解释说,知识图谱通过连接不同的信息片段,在多个数据源之间建立关系。
“当这些关系被转换为用于生成式人工智能应用程序的图嵌入时,系统可以轻松地遍历此图并检索这些连接,以收集对客户数据的整体视图,”他说。
Amazon Bedrock 知识库中的新 GraphRAG 功能使用 Amazon Neptune 图数据库服务自动生成图。西瓦苏布拉马尼安指出,它链接了各种数据源之间的关系,创建了更全面的生成式人工智能应用程序,而无需任何图专业知识。
另一个关键的企业数据挑战是非结构化数据问题。许多供应商,包括 Anomalo 等初创公司,都在努力解决这个问题。
当数据(无论是 pdf、音频还是视频文件)需要被索引以用于 RAG 用例时,了解数据内容对于使数据有用至关重要。
“不幸的是,非结构化数据很难提取,需要进行处理和转换才能使其可用,”西瓦苏布拉马尼安说。
新的 Amazon Bedrock 数据自动化技术是 AWS 对这一挑战的答案。西瓦苏布拉马尼安解释说,该功能将自动将非结构化多模式内容转换为结构化数据,以支持生成式人工智能应用程序。
“我喜欢将此视为针对非结构化数据的生成式人工智能驱动的 ETL [提取、转换和加载],”他说。
Amazon Bedrock 数据自动化将自动提取、转换和处理企业的规模化多模式内容。他指出,使用单个 API,企业可以生成自定义输出,与数据架构保持一致,并解析多模式内容以用于生成式人工智能应用程序。
“通过这些更新,我们正在赋予您利用所有数据构建上下文相关性更高的生成式人工智能应用程序的能力,”他说。