加入我们的每日和每周通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多
在企业 AI 的检索增强生成 (RAG) 世界中,嵌入模型至关重要。
正是嵌入模型将不同类型的內容转化为向量,从而使 AI 和 RAG 方法能够理解和使用这些内容。OpenAI 曾经凭借其 ada 嵌入模型在嵌入领域占据主导地位,但一些企业逐渐意识到,它对于他们的特定用例来说不够具体。这就是 Voyage AI 进入市场的原因。
这家初创公司今天宣布,已完成 2000 万美元的 A 轮融资,用于推进其针对企业 RAG AI 用例的嵌入和检索模型的开发。该公司的支持者包括云数据供应商 Snowflake,后者现在也准备将其 Cortex AI 服务集成 Voyage AI 模型。具体来说,Voyage AI 将被纳入 Cortex AI 搜索服务,该服务基于 Snowflake 收购 AI 搜索供应商 Neeva 的技术。
Voyage AI 的使命是让企业 RAG 变得更好。该公司拥有支持 27 种语言的多语言嵌入模型,具有高度的准确性。
“基本上,我们通过提高检索质量来改进 RAG,”Voyage AI 创始人兼首席执行官马腾宇告诉 VentureBeat。“当你拥有更多相关文档时,响应就会变得更好,因为如果你没有相关文档,那么大型语言模型就会产生幻觉。”
嵌入模型并不新鲜,是大型语言模型训练和 RAG 部署的基础元素。
马解释说,Voyage AI 致力于构建嵌入和重新排序模型,以提高检索质量。马认为,在需要特定领域或企业信息的 RAG 中,现有的方法,尤其是 OpenAI 的方法,是不够的。
“我认为人们意识到 OpenAI 的 ada 现在已经不够好了,因为当你对准确性要求越来越高时,它就不够准确了,”马说。“因此,我们使用更准确的嵌入,并对复杂概念有更深入的理解。”
他解释说,Voyage AI 提高准确性的方法是使用多种先进技术。Voyage AI 优化了训练管道的每个部分。这包括收集和过滤数据。马还指出,他的公司针对不同的特定领域(如编码、金融和法律用例)训练其模型。
“这使我们能够在特定领域获得更好的性能,”他说。
训练通常是一个特别棘手的问题,因为大多数数据都是未标记的。
为了从企业的未标记数据中获取价值,Voyage AI 使用一种称为对比学习的技术来训练其模型。马解释说,对比学习与用于某些训练操作的典型“下一个词预测”方法不同。在下一个词方法中,模型根据模式预测下一个词或词组应该是什么。对比学习采取了不同的路径。
“你从未标记数据中创建这种所谓的对比对,并用它来训练模型,”马说。
对于 Snowflake 来说,支持 Voyage AI 并将其集成到其 Cortex AI 服务中,就是为了让 AI 对企业用户更有用。
“每个提供商都在尝试构建某种 RAG 系统,而我们采取的角度是,你将数据指向我们,你可以与你的数据对话,无论是结构化数据还是非结构化数据,它都能正常工作,”Snowflake 工程高级副总裁维维克·拉古纳坦告诉 VentureBeat。
拉古纳坦进一步解释说,Snowflake 对 Voyage AI 的模型感到兴奋,因为它们将为 Snowflake 的客户带来改进和先进的功能,包括多语言功能。他还指出,Voyage AI 提供更长的上下文窗口,这也有助于改进企业用例。
Snowflake 已经拥有自己的 Arctic 嵌入模型,该模型目前通常是默认模型。Voyage AI 模型将为用户提供可选的替代方案。
“想想效率与质量的帕累托边界,我们的模型往往针对特定规模,”拉古纳坦说。“Voyage AI 的模型对于真正困难的用例来说质量要高得多。”