加入我们的每日和每周通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多
企业正在全力投入复合 AI 代理。他们希望这些系统能够推理并在不同领域处理不同的任务,但往往受到评估代理性能复杂且耗时的过程的阻碍。今天,数据生态系统领导者 Databricks 宣布了合成数据功能,使开发人员能够更轻松地完成此任务。
据该公司称,此举将使开发人员能够在其工作流程中生成高质量的人工数据集,以评估正在开发的代理系统的性能。这将节省他们与主题专家之间不必要的来回沟通,并更快地将代理投入生产。
虽然 Databricks Intelligence 平台的企业如何使用合成数据产品尚待观察,但由 Ali Ghodsi 领导的公司声称,其内部测试表明它可以显着提高各种指标下的代理性能。
Databricks 去年收购了 MosaicML,并将该公司的技术和模型完全集成到其数据智能平台中,为企业提供构建、部署和评估机器学习 (ML) 和生成式 AI 解决方案所需的一切,这些解决方案使用存储在该公司湖仓中的数据。
这项工作的一部分围绕着帮助团队构建复合 AI 系统,这些系统不仅能够准确地推理和响应,还能采取行动,例如打开/关闭支持票证、回复电子邮件和进行预订。为此,该公司今年推出了全新的 Mosaic AI 功能套件,包括支持微调基础模型、AI 工具目录以及用于构建和评估 AI 代理的工具——Mosaic AI 代理框架和代理评估。
今天,该公司正在通过新的合成数据生成 API 扩展代理评估。
到目前为止,代理评估已为企业提供了两个关键功能。第一个使用户和主题专家 (SME) 能够手动定义包含相关问题和答案的数据集,并创建一种衡量标准来评估 AI 代理提供的答案的质量。第二个使 SME 能够使用此衡量标准来评估代理并提供反馈(标签)。这由 AI 评委支持,AI 评委自动将人类的响应和反馈记录在表格中,并根据准确性和有害性等指标评估代理的质量。
这种方法有效,但构建评估数据集的过程需要大量时间。原因很容易想象:领域专家并不总是可用;该过程是手动的,用户可能经常难以识别最相关的问题和答案,以提供成功的交互的“黄金”示例。
这正是合成数据生成 API 发挥作用的地方,它使开发人员能够在几分钟内为初步评估创建高质量的评估数据集。它将 SME 的工作减少到最终验证,并加快了迭代开发过程,开发人员可以自己探索系统排列的变化——调整模型、更改检索或添加工具——如何改变质量。
该公司进行了内部测试,以了解从 API 生成的数据集如何帮助评估和改进代理,并注意到它可以导致各种指标的显着改进。
“我们要求一位研究人员使用合成数据来评估和改进代理的性能,然后使用人工策划的数据评估生成的代理,”Databricks 的 AI 平台和产品负责人 Eric Peter 告诉 VentureBeat。“结果表明,在各种指标上,代理的性能都有显着提高。例如,我们观察到代理查找相关文档的能力(以 recall@10 衡量)提高了近 2 倍。此外,我们还看到了代理响应的整体正确性的改进。”
虽然有很多工具可以生成用于评估的合成数据集,但 Databricks 的产品与其与 Mosaic AI 代理评估的紧密集成脱颖而出——这意味着在该公司平台上构建的开发人员无需离开其工作流程。
Peter 指出,使用新 API 创建数据集是一个四步过程。开发人员只需解析其文档(将其保存为湖仓中的 Delta 表),将 Delta 表传递给合成数据 API,使用生成的数据运行评估并查看质量结果。
相比之下,使用外部工具将意味着几个额外的步骤,包括运行(提取、转换和加载 (ETL) 将解析的文档移动到可以运行合成数据生成过程的外部环境;将生成的数据移回 Databricks 平台;然后将其转换为 Agent Evaluation 接受的格式。只有在此之后才能执行评估。
“我们知道公司需要一个易于使用的交钥匙 API——一行代码即可生成数据,”Peter 解释道。“我们还发现,市场上的许多解决方案都提供简单的开源提示,这些提示没有针对质量进行调整。考虑到这一点,我们在生成数据的质量方面投入了大量资金,同时仍然允许开发人员通过类似提示的界面为其独特的企业需求调整管道。最后,我们知道大多数现有产品需要导入到现有工作流程中,这给流程增加了不必要的复杂性。相反,我们构建了一个与 Databricks 数据智能平台和 Mosaic AI 代理评估功能紧密集成的 SDK。”
使用 Databricks 的多家企业已经在私有预览中利用合成数据 API,并报告了在提高代理质量和将其部署到生产环境中所需时间方面的显着减少。
其中一位客户,Lippert 的人工智能总监 Chris Nishnick 表示,他们的团队能够使用 API 的数据将模型响应质量提高 60%,甚至在专家参与之前。
作为下一步,该公司计划扩展 Mosaic AI 代理评估,增加功能以帮助领域专家修改合成数据以提高准确性,以及管理其生命周期的工具。
“在我们的预览中,我们了解到客户希望获得一些额外的功能,”Peter 说。“首先,他们希望有一个用户界面供其领域专家审查和编辑合成评估数据。其次,他们希望有一种方法来管理和管理其评估集的生命周期,以便跟踪更改并使来自领域专家对数据的审查的更新立即可供开发人员使用。为了解决这些挑战,我们已经在与客户一起测试一些功能,我们计划在明年年初发布这些功能。”
总的来说,这些发展预计将推动 Databrick 的 Mosaic AI 产品的采用,进一步巩固该公司在数据和生成式 AI 领域的首选供应商的地位。
但 Snowflake 也在该类别中迎头赶上,并为其 Cortex AI 产品发布了一系列产品公告,包括与 Anthropic 的模型合作关系,使企业能够构建生成式 AI 应用程序。今年早些时候,Snowflake 还收购了可观察性初创公司 TruEra,以在 Cortex 中提供 AI 应用程序监控功能。