前途科技
  • AI
  • 初创
  • 报告
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

Patronus AI模型Glider超越GPT-4

NEXTECH
Last updated: 2025年1月18日 上午6:52
By NEXTECH
Share
15 Min Read
SHARE

订阅我们的每日和每周新闻简报,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多

一家由前 Meta AI 研究人员创办的初创公司开发了一种轻量级 AI 模型,它可以像大型模型一样有效地评估其他 AI 系统,同时提供其决策的详细解释。

Patronus AI 今天发布了 Glider,这是一个开源的 38 亿参数语言模型,在几个评估 AI 输出的关键基准测试中,其性能超过了 OpenAI 的 GPT-4o-mini。该模型旨在充当自动评估器,可以根据数百种不同的标准评估 AI 系统的响应,同时解释其推理过程。

“Patronus 的所有工作都集中在为开发人员和任何使用语言模型或开发新 LM 系统的人提供强大且可靠的 AI 评估,”Patronus AI 首席执行官兼联合创始人 Anand Kannappan 在接受 VentureBeat 独家采访时表示。

这项开发代表了 AI 评估技术的一项重大突破。目前,大多数公司都依赖于 GPT-4 等大型专有模型来评估其 AI 系统,这可能很昂贵且不透明。Glider 不仅由于其体积更小而更具成本效益,而且还通过项目符号推理和突出显示的文本跨度提供其判断的详细解释,准确地显示了影响其决策的内容。

“目前,我们有许多 LLM 充当评判者,但我们不知道哪一个最适合我们的任务,”Patronus AI 的研究工程师 Darshan Deshpande 解释说,他领导了该项目。“在本文中,我们展示了几项进步:我们训练了一个可以在设备上运行的模型,它只使用了 38 亿个参数,并提供了高质量的推理链。”

该模型表明,较小的语言模型可以在专门的任务中匹配或超过大型模型的能力。Glider 的性能与体积是其 17 倍的模型相当,而延迟仅为一秒。这使其适用于实时应用,在这些应用中,公司需要在生成 AI 输出时对其进行评估。

一项关键创新是 Glider 能够同时评估 AI 输出的多个方面。该模型可以一次性评估准确性、安全性、连贯性和语气等因素,而无需单独的评估步骤。尽管主要是在英语数据上进行训练,但它仍然保留了强大的多语言能力。

“当您处理实时环境时,您需要延迟尽可能低,”Kannappan 解释说。“这个模型通常在不到一秒的时间内做出响应,尤其是在通过我们的产品使用时。”

对于开发 AI 系统的公司来说,Glider 提供了几个实际优势。其体积小巧意味着它可以直接在消费级硬件上运行,解决了将数据发送到外部 API 的隐私问题。开源性质允许组织将其部署在自己的基础设施上,同时根据其特定需求对其进行定制。

该模型是在 685 个领域中针对 183 种不同的评估指标进行训练的,从准确性和连贯性等基本因素到创造力和道德考量等更细微的方面。这种广泛的训练有助于它推广到许多不同类型的评估任务。

“客户需要设备上的模型,因为他们无法将私人数据发送到 OpenAI 或 Anthropic,”Deshpande 解释说。“我们还想证明小型语言模型可以成为有效的评估器。”

该发布正值公司越来越重视通过强大的评估和监督来确保负责任的 AI 开发。Glider 能够为其判断提供详细解释,可以帮助组织更好地了解和改进其 AI 系统的行为。

Patronus AI 由来自 Meta AI 和 Meta Reality Labs 的机器学习专家创立,已成为 AI 评估技术的领导者。该公司提供了一个用于大型语言模型的自动化测试和安全平台,Glider 代表了其在使复杂的 AI 评估更易获得方面的最新进展。

该公司计划今天在 arxiv.org 上发布有关 Glider 的详细技术研究,展示其在各种基准测试中的性能。早期测试表明,它在几个标准指标上取得了最先进的结果,同时提供了比现有解决方案更透明的解释。

“我们还处于早期阶段,”Kannappan 说。“随着时间的推移,我们预计会有更多开发人员和公司在这些领域突破界限。”

Glider 的开发表明,AI 系统的未来可能并不一定需要越来越大的模型,而是需要针对特定任务进行优化、更专业、更高效的模型。它在匹配大型模型性能的同时提供更好的可解释性的成功,可能会影响公司今后如何进行 AI 评估和开发。

Share This Article
Email Copy Link Print
Previous Article 沙盒AQ量化模型优化企业AI
Next Article 20250117225414532.jpg 应用现代化加速人工智能创新
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20250614174408432.png
Gartner:2024年全球半导体收入总计6559亿美元 同比增长21%
报告
肖战主演《藏海传》播放量超15.85亿 登顶2025古装剧第一
灯塔专业版:2025年《藏海传》播放量15.85亿登顶古装剧
报告
5月中国香港新能源汽车销量榜出炉:特斯拉夺回第一
香港新能源车销量榜:2025年5月特斯拉1391辆夺冠
报告
行业第二!小米电视拿下21.2%份额:领先海信、创维等传统厂商
洛图科技:2025年5月中国电视市场出货量283万台
报告

相关内容

AI

数据处理平台助力企业节省成本

2024年10月2日
AI

苹果发布深度Pro:AI重塑3D视觉

2024年10月6日
AI

企业AI所需最低基础设施

2024年9月27日
Asobo Studio 首席执行官 Sebastian Wloch
AI

微软飞行模拟器2024:模拟飞行行为系统

2024年11月20日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
前途科技
Username or Email Address
Password

Lost your password?