AI 幻觉的克星:MongoDB 收购 Voyage AI,赋能数据库检索
在 AI 时代,数据是燃料,而高质量的数据则是点燃 AI 潜力的关键。为了从 AI 查询中获得最佳结果,企业需要最佳的数据。而检索增强生成 (RAG) 技术应运而生,它将 AI 的力量与数据库的可靠性相结合,为 AI 应用提供坚实的数据基础。
MongoDB,这家以数据库闻名的企业,早已将目光投向了 AI 和 RAG 的领域。其同名数据库已广泛应用于 RAG 技术,并积极推动 AI 应用开发。尽管 MongoDB 及其用户(例如制药巨头 Novo Nordisk)在生成式 AI 领域取得了成功,但幻觉和准确性问题仍然是阻碍 AI 应用落地的关键障碍。
为了解决这一难题,MongoDB 近日宣布收购 Voyage AI,这家专注于高级嵌入和检索模型的私营公司。Voyage AI 在 2024 年 10 月获得了云数据巨头 Snowflake 支持的 2000 万美元融资。此次收购将 Voyage AI 在嵌入生成和重新排序方面的专业知识直接融入 MongoDB 的数据库平台,为 AI 驱动的搜索和检索提供更强大的支持。
MongoDB 首席产品官 Sahir Azam 表示:“过去一年,随着企业开始探索如何构建 AI 驱动的应用程序,他们越来越意识到,应用程序的质量和信任度是将 AI 应用于关键任务用例的关键障碍。”
RAG 的基本原理是,AI 引擎不再仅仅依赖于训练数据中的知识库,而是可以从数据库中获取可靠的数据。然而,构建高度准确的 RAG 系统并非易事,幻觉问题仍然存在,这也是 MongoDB 及其用户面临的挑战。
为了提高准确性并减少幻觉,需要采取多项措施。首先,需要提升检索的质量(RAG 中的“R”)。
Voyage AI 创始人兼首席执行官 Tengyu Ma 表示:“在许多情况下,检索质量并不理想。如果检索步骤无法获取相关信息,那么检索就毫无用处,大型语言模型 (LLM) 就会产生幻觉,因为它必须猜测一些上下文。”
Voyage AI 的模型现已成为 MongoDB 的一部分,它通过以下几个关键方面提升了 RAG 的性能:
- 领域特定模型和重新排序器:这些模型经过大量特定垂直领域非结构化数据的训练,能够更好地理解这些领域的术语和语义。
- 定制和微调:用户可以针对独特的数据集和用例微调检索机制。
MongoDB 并非第一个认识到高度优化的嵌入和重新排序技术价值的供应商。毕竟,这也是 Snowflake 投资 Voyage AI 并使用其模型的原因之一。
值得注意的是,即使被 MongoDB 收购后,Voyage AI 的模型仍然可供 Snowflake 和 Voyage AI 的其他用户使用。最大的区别在于,Voyage AI 现在将越来越多地集成到 MongoDB 的数据库平台中。
将高级嵌入模型直接集成到数据库中,是其他竞争对手数据库供应商也采取的一种方法。早在 2024 年 6 月,DataStax 就宣布了其自己的 RAGStack 技术,该技术结合了高级嵌入和检索模型。
Azam 认为,MongoDB 有一些不同之处。首先,它是一个操作型数据库,而不是分析型数据库。其次,MongoDB 不仅仅提供洞察和分析,它还帮助推动交易和现实世界的运营。MongoDB 也是一种被称为“文档模型数据库”的数据库,其结构不同于传统的关联数据库。这种结构不依赖于列和表,而列和表并不擅长表示非结构化数据的信息(这是 AI 应用的关键要素)。
Azam 说:“我们是唯一一家将客户信息元数据管理、运营和交易(这是业务的核心)以及检索基础结合到一个系统中的数据库技术。”
对高度准确的嵌入和检索模型的需求,正因代理 AI 的兴起而加速发展。
Ma 表示:“代理 AI 仍然需要检索方法,因为代理无法脱离上下文做出决策。实际上,即使在一个决策中,也可能使用多个检索组件。”
Ma 指出,Voyage AI 目前正在开发针对代理 AI 用例高度定制的特定模型。他解释说,代理 AI 可以使用不同类型的查询,这些查询仍然可以从更多优化中受益。
随着生成式 AI 越来越多地进入操作型用例,消除幻觉风险变得至关重要。虽然 MongoDB 在生成式 AI 领域取得了成功,但 Azam 预计 Voyage AI 的集成将开辟新的关键任务用例。
Azam 说:“如果我们现在可以说,‘嘿,我们可以为你的应用程序提供超过 90% 的准确率,而这些应用程序在今天可能只能在某些情况下达到 30% 或 60% 的准确率’,那么人们可以将 AI 应用于其软件应用程序的机会范围将扩大。”