2024 年 10 月 1 日 下午 1:47
图片来源:Michael Trestman 通过 DALL-E
订阅我们的每日和每周新闻简报,获取有关行业领先人工智能报道的最新更新和独家内容。了解更多
斯坦福大学的“扩展智能实验室”的研究人员提出了一种新的推理框架,可以帮助大型语言模型 (LLM) 更快地筛选潜在的响应。
该框架名为 Archon,它使用推理时架构搜索 (ITAS) 算法来提高 LLM 的性能,无需额外训练。它与模型无关,开源,并设计为适用于大型和小型模型的即插即用。
理想情况下,Archon 可以帮助开发人员设计使用多种推理时技术的 AI 模型系统,以减少模型确定响应所需的时间。扩展智能实验室表示,像 Archon 这样的技术将有助于降低与构建模型和推理相关的成本。 随着 LLM 开发转向更大的参数或更高级的推理,尽管像 OpenAI 这样的公司预计成本会更低,但成本可能会增加。
研究人员表示,Archon 会自动设计架构,从而提高任务泛化能力,使模型能够执行超出其最初训练范围的任务。
“我们的 Archon 框架和 ITAS 算法分别从神经架构和神经架构搜索中汲取灵感,”研究人员在他们的论文中写道。“Archon 由 LLM 层构成,同一层中的模型并行运行,但每一层依次运行。”
这些层执行不同的推理时技术,“要么通过生成和融合(如线性变换)来转换候选响应的数量,要么减少候选响应的数量以提高质量(如非线性)。”
— Azalia Mirhoseini (@Azaliamirh) 2024 年 9 月 30 日
在 MT-Bench、Arena-Hard-Auto、Alpaca-2.0 Eval、MixEval、MixEval Hard、MATH 和 CodeContests 等基准测试中,Archon 的表现优于 GPT-4o 和 Claude 3.5 Sonnet 15.1 个百分点。当 Archon 面对开源 LLM 时,它比它们高出 11.2 个百分点。
ITAS 算法包含多个 LLM 组件,可以执行推理时技术。
第一个组件是生成器,它为模型创建可能的答案。第二个组件,融合器,将这些响应组合成一个。例如,如果向模型提出的问题是询问法国的首都,融合器将把生成的响应“法国的首都巴黎”和“法国位于欧洲”合并成“法国,一个位于欧洲的国家,其首都为巴黎”。
接下来,Archon 转向排名器组件,它对最佳答案进行排名。一个评论器组件评估排名的答案,以确定它们是好是坏。验证器检查逻辑和正确性,然后继续进行单元测试生成器和评估器,它们进行小型测试以查看响应是否有效,并检查测试结果。
研究人员表示,通过这种方式构建 Archon,该框架可以更快地提高 LLM 响应的质量,而无需额外的微调。
到目前为止,Archon 框架最适合参数量为 700 亿或更大的 LLM,例如 Meta 的 Code Llama 70B,这使得它难以指向大多数 LLM。研究人员表示,大多数挑战来自较小模型由于较小的上下文窗口而有限的遵循指令的能力。
“当我们仅使用 70 亿参数的开源模型使用 Archon 架构时,性能会显着下降 16%,”论文中写道。
使用 Archon 框架的较小模型比单轮模型落后 15.7%。
斯坦福实验室还表示,Archon“不适合那些更喜欢单个 LLM 调用延迟的任务”,例如聊天机器人。该框架会进行多次 LLM 调用,因为它执行不同的操作,因此单个问答查询不会从其功能中受益。Archon 可能更适合涉及复杂指令的任务,例如求解方程、编程,甚至复杂的客户服务问题。
尽管存在局限性,但 Archon 背后的研究人员表示,他们希望它能够加速高性能模型的开发,而无需更多推理和训练资金。