订阅我们的每日和每周新闻通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多
随着企业希望使其开始部署的智能体更加可观察,智能体 AI 的下一阶段可能就是评估和监控。
虽然 AI 智能体基准测试可能会产生误导,但观察智能体是否按预期工作仍然具有很大价值。为此,公司开始提供平台,让客户可以在沙盒中测试 AI 智能体或评估其性能。
Salesforce 在周三发布了其智能体评估平台 Agentforce 测试中心,目前处于有限试点阶段。预计将于 12 月正式发布。测试中心让企业能够观察和原型化 AI 智能体,以确保它们能够访问所需的工作流程和数据。
测试中心的新功能包括用于 Agentforce 的 AI 生成的测试、用于 Agentforce 和 Data Cloud 的沙盒以及用于 Agentforce 的监控和可观察性。
AI 生成的测试允许公司使用 AI 模型生成“数百种合成交互”,以测试智能体最终是否以公司想要的方式回答问题。顾名思义,沙盒提供了一个隔离的环境来测试智能体,同时镜像公司的數據,以便更好地反映智能体将如何为他们工作。监控和可观察性让企业在智能体投入生产时,能够在沙盒中进行审计跟踪。
Salesforce 产品和行业营销执行副总裁 Patrick Stokes 告诉 VentureBeat,测试中心是该公司称为智能体生命周期管理的一类新智能体的一部分。
Stokes 说:“我们正在定位我们认为将成为智能体的一个重要新子类别。当我们说生命周期时,我们的意思是整个过程,从起源到开发,一直到部署,然后是您在前进过程中部署的迭代。”
Stokes 说,目前,测试中心没有工作流程特定的洞察力,开发人员无法看到智能体使用的 API、数据或模型中的特定选择。但是,Salesforce 在其 Einstein Trust Layer 上收集了这种数据。
Stokes 说:“我们正在构建开发人员工具,将这些元数据公开给我们的客户,以便他们能够实际使用它来更好地构建他们的智能体。”
Salesforce 将其重点放在 AI 智能体上,将大量精力投入到其智能体产品 Agentforce 上。Salesforce 客户可以使用预设智能体或在 Agentforce 上构建自定义智能体,以连接到他们的实例。
AI 智能体触及组织中的许多点,由于良好的智能体生态系统旨在自动化大量工作流程,因此确保它们正常工作变得至关重要。
如果智能体决定使用错误的 API,可能会给企业带来灾难。AI 智能体本质上是随机的,就像为其提供动力的模型一样,在得出结果之前会考虑每个潜在的概率。Stokes 说,Salesforce 通过用相同话语或问题的不同版本轰炸智能体来测试智能体。其响应被评分为通过或失败,允许智能体在人类开发人员可以控制的安全环境中学习和发展。
帮助企业评估 AI 智能体的平台正在迅速成为一种新型的产品。今年 6 月,客户体验 AI 公司 Sierra 推出了一个名为 TAU-bench 的 AI 智能体基准测试,用于查看对话式智能体的性能。自动化公司 UiPath 在 10 月发布了其 Agent Builder 平台,该平台也提供了一种在完全部署之前评估智能体性能的方法。
测试 AI 应用程序并非新鲜事。除了对模型性能进行基准测试之外,许多 AI 模型存储库(如 AWS Bedrock 和 Microsoft Azure)已经允许客户在受控环境中测试基础模型,以查看哪个模型最适合他们的用例。