大型语言模型的可靠性困境:越强大越不可靠?
ChatGPT 等 AI 聊天机器人以及其他基于大型语言模型 (LLM) 的应用已经广泛应用,但其不可靠性也广为人知。人们普遍认为,扩大驱动这些应用的模型规模可以提高其可靠性,例如通过增加训练数据量或参数数量。然而,一项新的研究表明,这些语言模型的最新版本实际上变得更加不可靠,而不是更可靠。
大型语言模型本质上是智能手机用来预测用户输入的下一个单词的自动完成功能的增强版。ChatGPT 可能是最著名的 LLM 驱动的聊天机器人,它已经通过了法学院和商学院考试,成功地回答了软件编码工作的面试问题,撰写了房地产清单,并开发了广告内容。
但 LLM 经常犯错误。例如,一项在 6 月进行的研究发现,ChatGPT 在生成功能代码方面具有非常广泛的成功率,成功率从微不足道的 0.66% 到 89% 不等,具体取决于任务的难度、编程语言和其他因素。
研究团队探索了许多策略来提高 LLM 的可靠性。这些策略包括增加模型的训练数据量或计算能力,以及使用人工反馈来微调模型并改进其输出。LLM 的性能总体上随着时间的推移而有所提高。例如,早期的 LLM 无法完成简单的加法运算,例如“20 + 183”。现在,LLM 可以成功地执行涉及超过 50 位数字的加法运算。
然而,这项发表在《自然》杂志上的新研究发现,“最新的 LLM 虽然可能看起来令人印象深刻,并且能够解决一些非常复杂的任务,但它们在各个方面都不可靠,”该研究的合著者、西班牙瓦伦西亚理工大学的研究助理 Lexin Zhou 说。更重要的是,他说,“这种趋势似乎没有显示出明显的改善,而是相反。”
这种可靠性下降的部分原因是,最近的模型不太可能说它们不知道答案,或者给出不回答问题的回复。相反,后来的模型更有可能自信地生成错误的答案。
LLM 在简单和困难任务中的表现
研究人员探索了几个 LLM 家族:来自 OpenAI 的 10 个 GPT 模型、来自 Meta 的 10 个 LLaMA 模型以及来自 BigScience 计划的 12 个 BLOOM 模型。在每个家族中,最新的模型也是最大的。研究人员重点关注了 LLM 在三个关键维度上的可靠性。
科学家调查的一个途径是 LLM 在人们认为简单的任务和人类认为困难的任务上的表现。例如,一个相对简单的任务是将 24,427 和 7,120 相加,而一个非常困难的任务是将 1,893,603,010,323,501,638,430 和 98,832,380,858,765,261,900 相加。
LLM 在人类认为具有挑战性的任务上的准确性普遍低于它们认为简单的任务,这并不意外。然而,即使在简单的任务上,AI 系统也并非 100% 准确。“我们发现,用户无法识别出任何可以信任这些 LLM 的安全操作条件,”Zhou 说。
此外,这项新研究发现,与之前的 LLM 相比,最新的模型在高难度任务上的表现有所提高,但在低难度任务上的表现没有提高。这可能是因为 LLM 开发人员专注于越来越困难的基准,而不是简单和困难的基准。“我们的结果揭示了开发人员实际上在优化什么,”Zhou 说。
聊天机器人不善于处理不确定性
Zhou 的团队考察的 LLM 性能的第二个方面是模型避免回答用户问题的倾向。研究人员发现,最近的 LLM 在其回复中不那么谨慎——它们更有可能自信地提供错误的答案。此外,虽然人们倾向于避免回答超出其能力范围的问题,但最近的 LLM 在任务难度增加时并没有避免提供答案。
这种不谨慎可能是由于“希望让语言模型尝试说出一些看似有意义的东西,”Zhou 说,即使模型处于不确定的领域。他补充说,这使得人类承担了发现 LLM 输出错误的负担。
最后,研究人员考察了给 LLM 的任务或“提示”是否会影响它们的性能。他们发现,最新的 LLM 仍然可能对提示的表达方式高度敏感——例如,在加法提示中使用“plus”而不是“+”。
聊天机器人如何扰乱人类的预期
这些发现突出了 LLM 如何没有表现出符合人类预期的可靠性模式,英国剑桥大学实验心理学教授 Lucy Cheke 说,她测量了 AI 模型中的认知能力。
“如果一个人是数学老师——也就是说,一个人可以做复杂的数学运算——那么他擅长数学,因此我可以认为他是简单数学问题的可靠来源,”Cheke 说,他没有参与这项新研究。“同样,如果那个人可以正确地回答‘2,354 + 234’,那么我可以相信他回答‘2,354 加 234’的答案。但这些类型的假设都不适用于这些更大的模型。”
此外,研究发现,人工监督无法弥补所有这些问题。例如,人们认识到有些任务非常困难,但仍然经常期望 LLM 是正确的,即使他们被允许说“我不确定”是否正确。研究人员说,这种倾向表明人们对这些模型过于自信。
“人们越来越信任那些主要产生正确信息但混杂着足够多的看似合理但错误的信息的系统,这些信息会导致真正的问题,”Cheke 说。“随着人们越来越依赖这些系统来回答他们无法判断答案是否正确的问题,这将变得尤其成问题。”
尽管有这些发现,Zhou 警告不要认为 LLM 是无用的工具。“它们仍然对许多应用非常有用——例如,在用户可以容忍错误的任务中,”他说。“一辆不会飞的汽车并不不可靠,因为没有人期望汽车会飞。这就是早期 LLM 的情况——人类对它们没有太多期望。但在过去几年中,随着 LLM 变得越来越强大,人们开始依赖它们,也许过于依赖了。”
Zhou 也不认为这种不可靠性是一个无法解决的问题。如果下一代 LLM 能够考虑到这些新发现,我们可能会看到更多的人采用 LLM,并且对 LLM 的怀疑减少。但他计划提高人们对过度依赖 LLM 以及依赖人类监督 LLM 的危险的认识,直到研究人员找到解决方案。