订阅我们的每日和每周新闻通讯,获取有关行业领先人工智能报道的最新更新和独家内容。了解更多
随着越来越多的企业组织将目光投向所谓的“智能代理”未来,一个障碍可能是人工智能模型的构建方式。对于企业人工智能开发商 AI21 来说,答案很明确,行业需要转向其他模型架构,以实现更高效的人工智能代理。
AI21 首席执行官 Ari Goshen 在接受 VentureBeat 采访时表示,最流行的模型架构 Transformer 存在一些局限性,这将使多代理生态系统难以实现。
“我看到的一个趋势是,非 Transformer 架构的兴起,这些替代架构将更加高效,”Goshen 说。“Transformer 通过创建大量令牌来运作,这可能非常昂贵。”
AI21 专注于开发企业人工智能解决方案,此前曾主张 Transformer 应该成为模型架构的一种选择,但不是默认选择。它正在使用其 JAMBA 架构开发基础模型,JAMBA 是联合注意力和 Mamba 架构的简称。它基于普林斯顿大学和卡内基梅隆大学研究人员开发的 Mamba 架构,可以提供更快的推理时间和更长的上下文。
Goshen 表示,像 Mamba 和 Jamba 这样的替代架构通常可以使智能代理结构更加高效,最重要的是,更加经济实惠。对他来说,基于 Mamba 的模型具有更好的内存性能,这将使代理,特别是连接到其他模型的代理,工作得更好。
他将人工智能代理现在才开始流行起来的原因,以及大多数代理尚未投入产品的原因,归咎于对使用 Transformer 构建的 LLM 的依赖。
“代理尚未投入生产模式的主要原因是可靠性或缺乏可靠性,”Goshen 说。“当你分解一个 Transformer 模型时,你会发现它非常随机,因此任何错误都会延续下去。”
人工智能代理今年成为企业人工智能领域最热门的趋势之一。多家公司推出了人工智能代理和平台,以便轻松构建代理。
ServiceNow 宣布更新其 Now Assist AI 平台,包括为客户提供的人工智能代理库。Salesforce 拥有其名为 Agentforce 的代理团队,而 Slack 已经开始允许用户集成来自 Salesforce、Cohere、Workday、Asana、Adobe 等公司的代理。
Goshen 相信,随着模型和模型架构的正确组合,这种趋势将变得更加流行。
“我们现在看到的一些用例,比如来自聊天机器人的问答,基本上是美化的搜索,”他说。“我认为真正的智能在于连接和检索来自不同来源的不同信息。”
Goshen 补充说,AI21 正在开发围绕人工智能代理的产品。
Goshen 强烈支持像 Mamba 和 AI21 的 Jamba 这样的替代架构,主要是因为他认为 Transformer 模型运行起来过于昂贵且笨重。
Mamba 可以优先处理不同的数据并为输入分配权重,优化内存使用,并利用 GPU 的处理能力,而不是形成 Transformer 模型主干的注意力机制。
Mamba 的受欢迎程度正在上升。其他开源和开放权重的人工智能开发人员在过去几个月里开始发布基于 Mamba 的模型。Mistral 在 7 月发布了 Codestral Mamba 7B,8 月,Falcon 推出了自己的基于 Mamba 的模型 Falcon Mamba 7B。
然而,Transformer 架构已经成为开发基础模型时的默认选择,如果不是标准选择的话。OpenAI 的 GPT 当然是一个 Transformer 模型——它的名字里就包含了 Transformer——但大多数其他流行模型也是如此。
Goshen 说,最终,企业想要的是最可靠的方法。但组织也必须警惕那些承诺解决他们许多问题的炫目演示。
“我们正处于演示很容易做得很吸引人的阶段,但我们离产品阶段更近,”Goshen 说。“使用企业人工智能进行研究是可以的,但它还没有达到企业可以使用它来为决策提供信息的程度。”