Nvidia 和 DataStax 联手:AI 存储革命,数据不再是负担
在生成式 AI 浪潮席卷全球的当下,数据存储成为了企业的一大难题。数据量爆炸式增长,传统存储方式捉襟见肘,而 AI 模型训练和推理对海量数据的渴求更是雪上加霜。Nvidia 和 DataStax 携手推出的新技术,或许能为这一难题提供一个全新的解决方案。
Nvidia 的 NeMo Retriever 微服务与 DataStax 的 AI 平台深度整合,将数据存储需求降低了 35 倍!这对于企业来说无疑是一场革命。想象一下,到 2027 年,企业数据将达到 20 泽字节,相当于 80 万份美国国会图书馆的藏书量。如果依然采用传统存储方式,企业将面临巨大的存储压力和成本负担。而 Nvidia 和 DataStax 的新技术,则可以将这些压力化解于无形。
“如今,企业非结构化数据的规模已经达到了 11 泽字节,其中 83% 是非结构化数据,而 50% 又是音频和视频数据,”Nvidia AI 产品管理副总裁 Kari Briski 在接受 VentureBeat 采访时表示,“大幅降低存储成本,同时让企业能够有效地嵌入和检索信息,这将彻底改变游戏规则。”
这项技术已经开始在现实世界中发挥作用。维基媒体基金会利用这项技术,将处理 1000 万条维基百科条目所需的时间从 30 天缩短至不到 3 天。该系统可以实时处理每天由 24,000 名全球志愿者编辑的数十万条条目。
“你不能仅仅依靠大型语言模型来处理内容,你需要从现有的企业数据中获取上下文信息,”DataStax 首席执行官 Chet Kapoor 解释道,“这就是我们的混合搜索功能发挥作用的地方,它结合了语义搜索和传统文本搜索,然后利用 Nvidia 的重新排序技术,以全球规模实时提供最相关的结果。”
这项合作解决了企业面临的一个关键挑战:如何在不将敏感信息暴露给外部语言模型的情况下,让 AI 系统访问其庞大的私有数据存储库。
“以联邦快递为例,他们 60% 的数据存储在我们产品中,包括过去 20 年的所有包裹配送信息,其中包含个人详细信息。这些数据绝不会被 Gemini 或 OpenAI 访问,”Kapoor 解释道。
这项技术正在各个行业得到早期应用,金融服务公司尽管面临着监管限制,但仍处于领先地位。“我被金融服务公司领先的程度震惊了,”Kapoor 说,并以澳大利亚联邦银行和第一资本银行为例。
展望未来,Nvidia 计划扩展这项技术的应用范围,以处理更复杂的文档格式。“我们在多模式 PDF 处理方面取得了重大进展,可以理解表格、图表、图形和图像,以及它们在页面之间的关系,”Briski 透露,“这是一个非常困难的问题,我们很高兴能解决它。”
对于那些在努力负责任地部署 AI 的同时又深陷非结构化数据泥潭的企业来说,这项新技术提供了一条途径,让他们能够让自己的信息资产为 AI 所用,而不会损害安全性或在存储成本上破产。该解决方案现已通过 Nvidia API 目录提供,并提供 90 天的免费试用许可证。
这项公告突出了企业 AI 基础设施日益受到关注的趋势,因为企业正在从实验阶段转向大规模部署,数据管理和成本效率成为关键的成功因素。