前途科技
  • AI
  • 初创
  • 报告
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

无结构数据解决方案,加速企业 AI 部署

NEXTECH
Last updated: 2024年11月22日 下午2:57
By NEXTECH
Share
18 Min Read
SHARE

Sean Michael Kerner@TechJournalist

2024 年 11 月 21 日 上午 6:00

Credit: Image generated by VentureBeat with FLUX-pro-1.1

图片来源:VentureBeat 使用 FLUX-pro-1.1 生成

订阅我们的每日和每周新闻简报,获取最新的行业领先 AI 报道和独家内容。了解更多

企业 AI 的效力取决于模型可用的数据质量。

过去,企业主要依赖结构化数据。随着生成式 AI 的快速普及,企业正越来越多地寻求利用海量非结构化数据。非结构化数据,顾名思义,缺乏固定的结构,可以以各种形式存在。对于企业来说,这可能是一个挑战,因为非结构化数据的质量往往未知。数据质量可以指准确性、知识缺失、重复和其他影响数据效用的问题。

长期用于结构化数据的质量工具,现在正扩展到企业 AI 的非结构化数据领域。Anomalo 就是其中一家供应商,该公司多年来一直在开发其结构化数据质量平台。今天,该公司宣布扩展其平台,以更好地支持非结构化数据质量监控。

Anomalo 的联合创始人兼首席执行官 Elliot Shmukler 相信,该公司的技术可以对企业产生重大影响。

“我们相信,通过消除数据质量问题,我们可以至少加速 30% 的生成式 AI 部署,”Shmukler 在接受 VentureBeat 独家采访时表示。

他指出,一些企业在概念验证阶段后放弃了 AI 项目。根本原因在于数据质量差、数据缺失严重以及企业数据尚未准备好用于生成式 AI。

“我们相信,使用 Anomalo 的非结构化监控可以将典型的企业生成式 AI 项目加速一年,”Shmukler 说。“这是因为能够非常快速地理解、分析并最终整理这些项目所依赖的数据。”

除了产品更新,Anomalo 还宣布了其 B 轮融资的 1000 万美元扩展,该轮融资于 1 月 23 日首次宣布,使该轮融资总额达到 8200 万美元。

与传统的结构化数据质量问题不同,非结构化内容对 AI 应用提出了独特的挑战。

“由于是非结构化数据,任何内容都可能存在其中,”Shmukler 强调。“它可能是个人身份信息、人们的电子邮件、姓名、社会安全号码……这些文档中可能包含专有的秘密信息,而你可能不想将其发送给大型语言模型。”

Anomalo 平台通过向非结构化文档添加结构化元数据来解决这些挑战。这使企业能够更好地了解和控制其数据,然后再将其发送到 AI 模型。

Anomalo 软件为非结构化数据质量提供了以下关键功能:

自定义问题定义:允许用户定义要在文档集合中检测的自定义问题,超出预定义问题,例如个人身份信息 (PII) 或辱骂性内容。

支持私有云模型:使企业能够使用部署在其自身云提供商环境中的大型语言模型 (LLM),从而提供更多对数据的控制和舒适度。

元数据标记:向非结构化文档添加结构化元数据,例如有关检测到的问题的信息,以更好地整理和过滤用于生成式 AI 应用的数据。

红线:一项即将推出的功能,将允许软件提供文档的红线版本,删除敏感信息。

Anomalo 并非非结构化数据质量市场上的唯一玩家,就像它在结构化数据质量市场上并非唯一玩家一样。

包括 Monte Carlo Data、Collibra 和 Qlik 在内的多个数据质量供应商拥有各种形式的非结构化数据质量技术。Shmukler 认为,他的公司在几个方面和几个方面与其他公司有所区别。

他指出,一些其他供应商通过集成和监控包含支持检索增强生成 (RAG) 工作流程的数据的向量数据库来处理非结构化数据质量。Shmukler 解释说,这种方法要求已经建立了管道将适当的数据发送到向量数据库。他还补充说,它还将应用程序限制在传统的 RAG 方法,而不是更新的方法,例如大型上下文模型,这些模型可能甚至不需要向量数据库。

“Anomalo 的不同之处在于,我们在建立任何管道来摄取此类数据之前,会分析原始的非结构化数据集合,”Shmukler 说。“这允许在承诺构建管道之前更广泛地探索所有可用数据,并且还打开了所有可能的方法来使用这些数据,而不仅仅是传统的 RAG 技术。”

Anomalo 平台可以加速企业 AI 部署的各个方面。

Shmukler 指出,团队可以在将任何数据发送到模型或向量数据库之前,将数据质量监控集成到数据准备阶段。从根本上说,Anomalo 所做的是在非结构化数据之上提供一些结构,以元数据的形式。企业可以使用结构化元数据来确保在训练或微调生成式 AI 模型时使用高质量、无问题的數據。

Anomalo 的数据质量监控还可以与馈送到 RAG 的数据管道集成。在 RAG 使用案例中,非结构化数据被摄取到向量数据库中以进行检索。元数据可用于过滤、排序和整理用于 RAG 的数据,确保用于生成输出的信息的质量。

Shmukler 认为数据质量监控的另一个核心领域是合规性和风险缓解。Anomalo 的数据标记有助于企业防止生成式 AI 暴露敏感信息并违反合规性。

“每个企业都担心 LLM 会使用不应该有的数据进行回答,从而泄露敏感信息,”Shmukler 说。“这方面的一个重要部分是,能够在构建生成式 AI 应用程序时安心入睡,因为你知道,任何敏感数据或你不希望 LLM 知晓的任何数据,实际上都极不可能到达 LLM。”

Share This Article
Email Copy Link Print
Previous Article Wordware获3000万美元融资 简化AI开发
Next Article 大型语言模型的应用不仅限于技术层面,它还逐步改变了科研的方式。 大型语言模型如何革新科研方法
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
图片描述
TechInsights:2025年Q1全球智能手机出货量2.968亿部,同比增长0.5%
报告
东北大学:智能手机使用影响儿童大脑发育
报告
20250509055444678.png
AMD财报:2025年Q1营收同比增长36% 但对华出口限制预计减少15亿美元收入
报告
20250509055244802.png
英国汽车制造商和贸易商协会:2025年4月特斯拉英国新车注册量同比降62%
报告

相关内容

AI

人工智能拟人化:误将类人当人,后果已现

2025年4月2日
AI

闪电AI应用商店:企业游戏规则改变者

2025年5月4日
AI

深度学习新突破:架构胜过算力

2025年4月28日
AI

AI 竞争新策略:个性化风格

2024年11月28日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
前途科技
Username or Email Address
Password

Lost your password?