Cohere视觉搜索功能升级

2024 年 10 月 22 日下午 3:40

一双正在笔记本电脑上打字的手，屏幕上显示着带有红色和蓝色全息元素的未来派搜索界面。

一双正在笔记本电脑上打字的手，屏幕上显示着带有红色和蓝色全息元素的未来派搜索界面。图片来自：VentureBeat 使用 OpenAI DALL-E 3 通过 ChatGPT 生成

订阅我们的每日和每周新闻简报，获取有关行业领先 AI 报道的最新更新和独家内容。了解更多

Cohere 在其搜索模型中添加了多模态嵌入，允许用户将图像部署到 RAG 样式的企业搜索中。

Embed 3 于去年推出，它使用嵌入模型将数据转换为数值表示。嵌入在检索增强生成 (RAG) 中变得至关重要，因为企业可以创建其文档的嵌入，模型可以将这些嵌入与提示请求的信息进行比较。

您的搜索现在可以“看见”了。

我们很高兴发布完全多模态嵌入，让大家开始使用！

— Aidan Gomez (@aidangomez) 2024 年 10 月 22 日

新的多模态版本可以生成图像和文本的嵌入。Cohere 声称 Embed 3 “现在是市场上功能最全面的多模态嵌入模型”。Cohere 联合创始人兼首席执行官 Aidan Gomez 在 X 上发布了一张图表，展示了 Embed 3 在图像搜索方面的性能提升。

该模型在各种类别中的图像搜索性能非常引人注目。在几乎所有考虑的类别中都有显著提升。

— Aidan Gomez (@aidangomez) 2024 年 10 月 22 日

Cohere 在一篇博文中表示：“这项进步使企业能够从其存储在图像中的海量数据中释放出真正的价值。”“企业现在可以构建能够准确快速地搜索重要多模态资产（如复杂报告、产品目录和设计文件）的系统，从而提高员工工作效率。”

Cohere 表示，更加注重多模态扩展了企业可以通过 RAG 搜索访问的数据量。许多组织通常将 RAG 搜索限制在结构化和非结构化文本中，尽管它们的数据库中有多种文件格式。客户现在可以引入更多图表、图形、产品图像和设计模板。

Cohere 表示，Embed 3 中的编码器“共享一个统一的潜在空间”，允许用户在数据库中包含图像和文本。一些图像嵌入方法通常需要为图像和文本维护一个单独的数据库。该公司表示，这种方法可以实现更好的混合模态搜索。

该公司表示：“其他模型往往将文本和图像数据聚类到不同的区域，这会导致搜索结果偏向于仅文本数据，搜索结果较弱。另一方面，Embed 3 优先考虑数据背后的含义，而不会偏向于特定的模态。”

Embed 3 支持 100 多种语言。

Cohere 表示，多模态 Embed 3 现在在其平台和 Amazon SageMaker 上可用。

由于 Google 等平台引入了基于图像的搜索，以及 ChatGPT 等聊天界面，许多消费者正在快速熟悉多模态搜索。随着个人用户习惯从图片中查找信息，他们自然希望在工作生活中获得相同的体验。

企业也开始看到这种好处，因为其他提供嵌入模型的公司提供了一些多模态选项。一些模型开发人员，如 Google 和 OpenAI，提供了一些类型多模态嵌入。其他开源模型也可以促进图像和其他模态的嵌入。现在，竞争集中在能够以企业要求的速度、准确性和安全性执行的多模态嵌入模型上。

Cohere 由 Transformer 模型的一些研究人员创立（Gomez 是著名论文“Attention is all you need”的作者之一），在企业领域一直难以成为首选。该公司在 9 月份更新了其 API，允许客户轻松地从竞争对手的模型切换到 Cohere 模型。当时，Cohere 表示此举是为了使其与行业标准保持一致，在行业标准中，客户经常在不同模型之间切换。