Sean Michael Kerner@TechJournalist
2024 年 11 月 21 日 上午 6:00
图片来源:VentureBeat 使用 FLUX-pro-1.1 生成
订阅我们的每日和每周新闻简报,获取最新的行业领先 AI 报道和独家内容。了解更多
企业 AI 的效力取决于模型可用的数据质量。
过去,企业主要依赖结构化数据。随着生成式 AI 的快速普及,企业正越来越多地寻求利用海量非结构化数据。非结构化数据,顾名思义,缺乏固定的结构,可以以各种形式存在。对于企业来说,这可能是一个挑战,因为非结构化数据的质量往往未知。数据质量可以指准确性、知识缺失、重复和其他影响数据效用的问题。
长期用于结构化数据的质量工具,现在正扩展到企业 AI 的非结构化数据领域。Anomalo 就是其中一家供应商,该公司多年来一直在开发其结构化数据质量平台。今天,该公司宣布扩展其平台,以更好地支持非结构化数据质量监控。
Anomalo 的联合创始人兼首席执行官 Elliot Shmukler 相信,该公司的技术可以对企业产生重大影响。
“我们相信,通过消除数据质量问题,我们可以至少加速 30% 的生成式 AI 部署,”Shmukler 在接受 VentureBeat 独家采访时表示。
他指出,一些企业在概念验证阶段后放弃了 AI 项目。根本原因在于数据质量差、数据缺失严重以及企业数据尚未准备好用于生成式 AI。
“我们相信,使用 Anomalo 的非结构化监控可以将典型的企业生成式 AI 项目加速一年,”Shmukler 说。“这是因为能够非常快速地理解、分析并最终整理这些项目所依赖的数据。”
除了产品更新,Anomalo 还宣布了其 B 轮融资的 1000 万美元扩展,该轮融资于 1 月 23 日首次宣布,使该轮融资总额达到 8200 万美元。
与传统的结构化数据质量问题不同,非结构化内容对 AI 应用提出了独特的挑战。
“由于是非结构化数据,任何内容都可能存在其中,”Shmukler 强调。“它可能是个人身份信息、人们的电子邮件、姓名、社会安全号码……这些文档中可能包含专有的秘密信息,而你可能不想将其发送给大型语言模型。”
Anomalo 平台通过向非结构化文档添加结构化元数据来解决这些挑战。这使企业能够更好地了解和控制其数据,然后再将其发送到 AI 模型。
Anomalo 软件为非结构化数据质量提供了以下关键功能:
自定义问题定义:允许用户定义要在文档集合中检测的自定义问题,超出预定义问题,例如个人身份信息 (PII) 或辱骂性内容。
支持私有云模型:使企业能够使用部署在其自身云提供商环境中的大型语言模型 (LLM),从而提供更多对数据的控制和舒适度。
元数据标记:向非结构化文档添加结构化元数据,例如有关检测到的问题的信息,以更好地整理和过滤用于生成式 AI 应用的数据。
红线:一项即将推出的功能,将允许软件提供文档的红线版本,删除敏感信息。
Anomalo 并非非结构化数据质量市场上的唯一玩家,就像它在结构化数据质量市场上并非唯一玩家一样。
包括 Monte Carlo Data、Collibra 和 Qlik 在内的多个数据质量供应商拥有各种形式的非结构化数据质量技术。Shmukler 认为,他的公司在几个方面和几个方面与其他公司有所区别。
他指出,一些其他供应商通过集成和监控包含支持检索增强生成 (RAG) 工作流程的数据的向量数据库来处理非结构化数据质量。Shmukler 解释说,这种方法要求已经建立了管道将适当的数据发送到向量数据库。他还补充说,它还将应用程序限制在传统的 RAG 方法,而不是更新的方法,例如大型上下文模型,这些模型可能甚至不需要向量数据库。
“Anomalo 的不同之处在于,我们在建立任何管道来摄取此类数据之前,会分析原始的非结构化数据集合,”Shmukler 说。“这允许在承诺构建管道之前更广泛地探索所有可用数据,并且还打开了所有可能的方法来使用这些数据,而不仅仅是传统的 RAG 技术。”
Anomalo 平台可以加速企业 AI 部署的各个方面。
Shmukler 指出,团队可以在将任何数据发送到模型或向量数据库之前,将数据质量监控集成到数据准备阶段。从根本上说,Anomalo 所做的是在非结构化数据之上提供一些结构,以元数据的形式。企业可以使用结构化元数据来确保在训练或微调生成式 AI 模型时使用高质量、无问题的數據。
Anomalo 的数据质量监控还可以与馈送到 RAG 的数据管道集成。在 RAG 使用案例中,非结构化数据被摄取到向量数据库中以进行检索。元数据可用于过滤、排序和整理用于 RAG 的数据,确保用于生成输出的信息的质量。
Shmukler 认为数据质量监控的另一个核心领域是合规性和风险缓解。Anomalo 的数据标记有助于企业防止生成式 AI 暴露敏感信息并违反合规性。
“每个企业都担心 LLM 会使用不应该有的数据进行回答,从而泄露敏感信息,”Shmukler 说。“这方面的一个重要部分是,能够在构建生成式 AI 应用程序时安心入睡,因为你知道,任何敏感数据或你不希望 LLM 知晓的任何数据,实际上都极不可能到达 LLM。”