订阅我们的每日和每周新闻通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多
沃顿商学院教授伊桑·莫利克和特斯拉前 AI 主任、OpenAI 联合创始人安德烈·卡帕西在 X(前身为 Twitter)上的一段对话,触及了一个既迷人又基础性的问题:当今许多顶尖的生成式 AI 模型,包括来自 OpenAI、Anthropic 和 Google 的模型,在语气上表现出惊人的相似性,这引发了一个问题:为什么大型语言模型 (LLM) 不仅在技术能力上,而且在个性上也趋于一致?
后续评论指出,一个共同特征可能是推动输出趋同趋势的驱动因素:基于人类反馈的强化学习 (RLHF),这是一种根据人类训练师提供的评估对 AI 模型进行微调的技术。
基于对 RLHF 在输出相似性中作用的讨论,Inflection AI 最近宣布推出 Inflection 3.0 和商业 API,这可能为解决这些挑战提供了一个有希望的方向。它引入了一种新颖的 RLHF 方法,旨在使生成模型不仅一致,而且具有独特的同理心。
随着进军企业领域,Pi 模型的创造者以更细致入微的方式利用 RLHF,从刻意努力改进微调模型到一个专有平台,该平台整合了员工反馈,以将生成式 AI 输出定制到组织文化。该策略旨在使 Inflection AI 的模型成为真正的文化盟友,而不仅仅是通用的聊天机器人,为企业提供更人性化、更一致的 AI 系统,使其在人群中脱颖而出。
在这种趋同的背景下,Pi 模型的创造者 Inflection AI 正在开辟一条不同的道路。随着最近推出 Inflection for Enterprise,Inflection AI 旨在将情商——被称为“EQ”——作为其企业客户的核心功能。
该公司表示,其独特的 RLHF 方法使其与众不同。该公司没有依赖匿名数据标注,而是从 26,000 名学校教师和大学教授那里征求反馈,通过一个专有的反馈平台帮助微调过程。此外,该平台使企业客户能够使用员工反馈进行强化学习。这使得能够随后将模型调整到客户公司的独特声音和风格。
Inflection AI 的方法承诺公司将“拥有”自己的智能,这意味着一个使用专有数据进行微调的本地模型,该模型在其自己的系统上安全管理。这是一个显著的转变,远离许多企业熟悉的以云为中心的 AI 模型——Inflection 认为这种设置将增强安全性,并促进 AI 输出与人们在工作中使用 AI 的方式之间更加一致。
RLHF 已成为生成式 AI 开发的核心,主要是因为它允许公司将响应塑造成更具帮助性、连贯性,并且不太容易出现危险错误。OpenAI 对 RLHF 的使用是使 ChatGPT 等工具对用户具有吸引力和普遍可信的基础。RLHF 有助于将模型行为与人类期望保持一致,使其更具吸引力,并减少不良输出。
然而,RLHF 并非没有缺点。RLHF 很快被认为是模型输出趋同的一个原因,这可能导致独特特征的丧失,并使模型越来越相似。似乎,一致性提供了稳定性,但也为差异化带来了挑战。
此前,卡帕西本人指出了 RLHF 中固有的某些局限性。他将其比作一场“氛围检查”游戏,并强调它没有提供类似于 AlphaGo 等竞技游戏的“实际奖励”。相反,RLHF 优化的是一种最终主观的、可能无法满足实际或复杂任务的情感共鸣。
为了减轻 RLHF 的一些局限性,Inflection AI 已经开始采用更细致入微的训练策略。它不仅实施了改进的 RLHF,而且还朝着代理 AI 能力迈出了步伐,它将其缩写为 AQ(行动商数)。正如怀特在最近的一次采访中所描述的那样,Inflection AI 的企业目标包括使模型不仅能够理解和同情,而且能够代表用户采取有意义的行动——从发送后续电子邮件到协助实时解决问题。
虽然 Inflection AI 的方法无疑是创新的,但仍有一些潜在的不足之处需要考虑。其用于推理的 8K 个令牌上下文窗口小于许多高端模型所采用的窗口,并且其最新模型的性能尚未进行基准测试。尽管计划雄心勃勃,但 Inflection AI 的模型可能无法在现实世界应用中达到预期的性能水平。
尽管如此,从 EQ 到 AQ 的转变可能标志着生成式 AI 开发的关键演变,特别是对于希望利用自动化来完成认知和运营任务的企业客户而言。这不仅仅是与客户或员工进行富有同理心的对话;Inflection AI 希望 Inflection 3.0 还能执行将同理心转化为行动的任务。Inflection 与 UiPath 等自动化平台的合作,以提供这种“代理 AI”,进一步巩固了其在日益拥挤的市场中脱颖而出的策略。
在过去的一年里,Inflection AI 经历了重大的内部变化。首席执行官穆斯塔法·苏莱曼在微软的“收购式招聘”中离职,以及团队中相当一部分成员的离开,都对该公司的发展轨迹蒙上了一层阴影。然而,怀特被任命为首席执行官,以及一个焕然一新的管理团队,为该组织制定了一条新的发展道路。
在与这家雷德蒙德科技巨头最初的许可协议之后,Inflection AI 的模型开发被两家公司分叉。微软继续构建模型的一个版本,重点是与现有生态系统集成。与此同时,Inflection AI 继续独立地将 Inflection 2.5 发展到今天的 3.0 版本,与微软的版本不同。
Inflection AI 使用 Pi 的独特方法正在超越企业领域,尤其是在 Reddit 等平台的用户中获得关注。Pi 社区一直在积极表达他们的体验,分享关于 Pi 细致入微和富有同理心的回应的正面轶事和讨论。
这种基层人气表明,Inflection AI 可能正在做一些有意义的事情。通过倾注情感智能和同理心,Inflection 不仅创造了能够提供帮助的 AI,而且创造了能够与人产生共鸣的 AI,无论是在企业环境中还是作为个人助理。这种用户参与度表明,他们对 EQ 的关注可能是他们在其他 LLM 可能会融合在一起的领域中脱颖而出的关键。
展望未来,Inflection AI 将重点关注检索增强生成 (RAG) 和代理工作流等训练后功能,旨在使其技术始终处于企业需求的前沿。Inflection AI 表示,最终目标是 usher in a post-GUI era,在这个时代,AI 不仅仅是响应命令,而是积极地协助跨各种业务系统的无缝集成。
Inflection AI 的新颖方法是否会显著增强输出相似性,目前还不得而知。然而,如果怀特和他的团队的创新理念结出硕果,EQ 可能会成为评估公司生成式技术有效性的一个关键指标。