加入我们的每日和每周新闻通讯,获取有关行业领先人工智能报道的最新更新和独家内容。了解更多
IBM 今天发布了其新的 Granite 3.1 系列,宣称在开源人工智能排行榜上占据领先地位。
Granite 3.1 大型语言模型 (LLM) 为企业用户提供了 128K 个令牌的扩展上下文长度、新的嵌入模型、集成的幻觉检测和改进的性能。据 IBM 称,新的 Granite 8B Instruct 模型在同等规模的开源竞争对手中名列前茅,包括 Meta Llama 3.1、Qwen 2.5 和 Google Gemma 2。IBM 在 OpenLLM 排行榜中包含的一系列学术基准上对模型进行了排名。
这些新模型是 IBM Granite 开源模型加速发布节奏的一部分。Granite 3.0 刚刚在 10 月发布。当时,IBM 声称其与生成式人工智能相关的业务量为 20 亿美元。随着 Granite 3.1 的更新,IBM 正在专注于将更多功能打包到更小的模型中。基本理念是,更小的模型更容易供企业运行,并且运行成本更低。
“我们还提高了所有指标——几乎所有方面的性能都得到了提升,”IBM 研究院人工智能模型副总裁大卫·考克斯告诉 VentureBeat。“我们使用 Granite 用于许多不同的用例,我们在 IBM 内部使用它来开发我们的产品,我们使用它来进行咨询,我们将其提供给我们的客户,并且我们将其作为开源发布,因此我们必须在所有方面都做得很好。”
企业可以通过多种方式评估 LLM 的性能,基准测试就是其中之一。
IBM 正在采取的方向是让模型通过各种学术和现实世界的测试。考克斯强调,IBM 对其模型进行了测试和训练,使其针对企业用例进行了优化。性能不仅仅是速度的抽象指标,而是一个更细致入微的效率指标。
IBM 旨在推动效率的一个方面是帮助用户花费更少的时间来获得所需的结果。
“你应该花更少的时间来调整提示,”考克斯说。“因此,模型在某个领域的越强大,你花在设计提示上的时间就越少。”
效率还与模型大小有关。模型越大,通常需要的计算和 GPU 资源就越多,这也意味着成本更高。
“当人们进行最小可行原型工作时,他们通常会跳到非常大的模型,因此你可能会使用一个 700 亿参数模型或一个 4050 亿参数模型来构建你的原型,”考克斯说。“但现实情况是,其中许多模型并不经济,因此我们一直在努力做的另一件事是将尽可能多的能力压缩到最小的包中。”
上下文对于企业代理人工智能至关重要
除了改进性能和效率的承诺之外,IBM 还大幅扩展了 Granite 的上下文长度。
在最初的 Granite 3.0 版本中,上下文长度限制为 4k。在 Granite 3.1 中,IBM 将其扩展到了 128k,允许处理更长的文档。扩展的上下文对于企业人工智能用户来说是一个重大升级,无论是用于检索增强生成 (RAG) 还是代理人工智能。
代理人工智能系统和人工智能代理通常需要处理和推理更长的信息序列,例如较大的文档、日志跟踪或扩展的对话。增加的 128k 上下文长度允许这些代理人工智能系统访问更多上下文信息,使它们能够更好地理解和响应复杂的查询或任务。
IBM 还发布了一系列嵌入模型,以帮助加速将数据转换为向量的过程。Granite-Embedding-30M-English 模型可以实现每查询 0.16 秒的性能,IBM 声称这比包括 Snowflake 的 Arctic 在内的竞争对手选项更快。
那么 IBM 如何设法提高 Granite 3.1 的性能呢?考克斯解释说,这不是任何一项具体的事情,而是对一系列流程和技术创新的改进。
他说,IBM 开发了越来越先进的多阶段训练管道。这使公司能够从模型中提取更多性能。此外,任何 LLM 训练的关键部分都是数据。IBM 并没有仅仅专注于增加训练数据的数量,而是非常重视提高用于训练 Granite 模型的数据质量。
“这不是一场数量的游戏,”考克斯说。“这不像我们会出去获取 10 倍的数据,然后模型就会神奇地变得更好。”
减少 LLM 中幻觉和错误输出风险的一种常见方法是使用护栏。这些护栏通常作为 LLM 的外部功能部署。
在 Granite 3.1 中,IBM 将幻觉保护直接集成到模型中。Granite Guardian 3.1 8B 和 2B 模型现在包含一个函数调用幻觉检测功能。
“模型可以原生执行自己的护栏,这可以为开发人员提供不同的机会来捕捉问题,”考克斯说。
他解释说,在模型本身中执行幻觉检测可以优化整个过程。内部检测意味着更少的推理调用,从而使模型更有效率和准确。
新的 Granite 模型现在都以开源形式免费提供给企业用户。这些模型也可以通过 IBM 的 Watsonx 企业人工智能服务获得,并将集成到 IBM 的商业产品中。
该公司计划保持积极的步伐来更新 Granite 模型。展望未来,Granite 3.2 的计划是在 2025 年初添加多模态功能。
“你将在接下来的几个版本中看到我们添加更多这种差异化的功能,这些功能将引领我们明年在 IBM Think 大会上宣布的内容,”考克斯说。