订阅我们的每日和每周新闻简报,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多
一家由前 Meta AI 研究人员创办的初创公司开发了一种轻量级 AI 模型,它可以像大型模型一样有效地评估其他 AI 系统,同时提供其决策的详细解释。
Patronus AI 今天发布了 Glider,这是一个开源的 38 亿参数语言模型,在几个评估 AI 输出的关键基准测试中,其性能超过了 OpenAI 的 GPT-4o-mini。该模型旨在充当自动评估器,可以根据数百种不同的标准评估 AI 系统的响应,同时解释其推理过程。
“Patronus 的所有工作都集中在为开发人员和任何使用语言模型或开发新 LM 系统的人提供强大且可靠的 AI 评估,”Patronus AI 首席执行官兼联合创始人 Anand Kannappan 在接受 VentureBeat 独家采访时表示。
这项开发代表了 AI 评估技术的一项重大突破。目前,大多数公司都依赖于 GPT-4 等大型专有模型来评估其 AI 系统,这可能很昂贵且不透明。Glider 不仅由于其体积更小而更具成本效益,而且还通过项目符号推理和突出显示的文本跨度提供其判断的详细解释,准确地显示了影响其决策的内容。
“目前,我们有许多 LLM 充当评判者,但我们不知道哪一个最适合我们的任务,”Patronus AI 的研究工程师 Darshan Deshpande 解释说,他领导了该项目。“在本文中,我们展示了几项进步:我们训练了一个可以在设备上运行的模型,它只使用了 38 亿个参数,并提供了高质量的推理链。”
该模型表明,较小的语言模型可以在专门的任务中匹配或超过大型模型的能力。Glider 的性能与体积是其 17 倍的模型相当,而延迟仅为一秒。这使其适用于实时应用,在这些应用中,公司需要在生成 AI 输出时对其进行评估。
一项关键创新是 Glider 能够同时评估 AI 输出的多个方面。该模型可以一次性评估准确性、安全性、连贯性和语气等因素,而无需单独的评估步骤。尽管主要是在英语数据上进行训练,但它仍然保留了强大的多语言能力。
“当您处理实时环境时,您需要延迟尽可能低,”Kannappan 解释说。“这个模型通常在不到一秒的时间内做出响应,尤其是在通过我们的产品使用时。”
对于开发 AI 系统的公司来说,Glider 提供了几个实际优势。其体积小巧意味着它可以直接在消费级硬件上运行,解决了将数据发送到外部 API 的隐私问题。开源性质允许组织将其部署在自己的基础设施上,同时根据其特定需求对其进行定制。
该模型是在 685 个领域中针对 183 种不同的评估指标进行训练的,从准确性和连贯性等基本因素到创造力和道德考量等更细微的方面。这种广泛的训练有助于它推广到许多不同类型的评估任务。
“客户需要设备上的模型,因为他们无法将私人数据发送到 OpenAI 或 Anthropic,”Deshpande 解释说。“我们还想证明小型语言模型可以成为有效的评估器。”
该发布正值公司越来越重视通过强大的评估和监督来确保负责任的 AI 开发。Glider 能够为其判断提供详细解释,可以帮助组织更好地了解和改进其 AI 系统的行为。
Patronus AI 由来自 Meta AI 和 Meta Reality Labs 的机器学习专家创立,已成为 AI 评估技术的领导者。该公司提供了一个用于大型语言模型的自动化测试和安全平台,Glider 代表了其在使复杂的 AI 评估更易获得方面的最新进展。
该公司计划今天在 arxiv.org 上发布有关 Glider 的详细技术研究,展示其在各种基准测试中的性能。早期测试表明,它在几个标准指标上取得了最先进的结果,同时提供了比现有解决方案更透明的解释。
“我们还处于早期阶段,”Kannappan 说。“随着时间的推移,我们预计会有更多开发人员和公司在这些领域突破界限。”
Glider 的开发表明,AI 系统的未来可能并不一定需要越来越大的模型,而是需要针对特定任务进行优化、更专业、更高效的模型。它在匹配大型模型性能的同时提供更好的可解释性的成功,可能会影响公司今后如何进行 AI 评估和开发。