人工智能的错误:人类的镜子?
我们人类,从古至今,都在犯错。无论是新奇的任务还是日常琐事,我们都难免出错。有些错误微不足道,而有些则可能带来灾难性的后果。错误会破坏我们与朋友之间的信任,失去老板的信心,甚至决定生死。
为了应对人类常犯的错误,我们创造了各种安全系统。如今,赌场会定期轮换荷官,因为长时间做同一件事会导致他们出错。医院的工作人员会在手术前在肢体上标记,以确保医生对正确的部位进行手术,并且会清点手术器械,确保没有遗留在体内。从校对到复式记账,再到上诉法院,我们人类在纠正错误方面已经做得相当出色。
然而,人类正在迅速将一种全新的错误制造者融入社会:人工智能。像大型语言模型 (LLM) 这样的技术可以执行许多传统上由人类完成的认知任务,但它们也会犯很多错误。当聊天机器人告诉你吃石头或在披萨上加胶水时,这似乎很荒谬。但人工智能系统与人类错误的不同之处不在于错误的频率或严重程度,而在于它们的怪异之处。人工智能系统犯错的方式与人类不同。
我们使用人工智能所带来的摩擦和风险,很大程度上源于这种差异。我们需要发明新的安全系统,适应这些差异,防止人工智能错误造成伤害。
人类错误 vs 人工智能错误
我们每个人都有丰富的生命经验,因此很容易推测出人类会在何时何地犯错。人类错误往往出现在一个人知识的边缘:我们大多数人都会在解决微积分问题时犯错。我们预计人类错误会集中出现:一个微积分错误很可能伴随着其他错误。我们预计错误会随着疲劳和分心等因素而有规律地增加和减少。而且,错误往往伴随着无知:一个犯了微积分错误的人也可能对与微积分相关的问题回答“我不知道”。
在人工智能系统犯下类似人类的错误的情况下,我们可以将所有纠错系统应用于它们的输出。但目前的人工智能模型,特别是 LLM,犯错的方式不同。
人工智能错误似乎在随机的时间出现,没有任何主题集中。LLM 错误往往在知识空间中更均匀地分布。一个模型在微积分问题上犯错的可能性与它提出“卷心菜吃山羊”的可能性一样大。
而且,人工智能错误不会伴随着无知。LLM 在说完全错误的事情时,会和说正确的事情时一样自信——对人类来说,这很明显。LLM 这种看似随机的“不一致”使得很难信任它们在复杂的多步骤问题中的推理。如果你想使用人工智能模型来帮助解决商业问题,仅仅看到它理解哪些因素会使产品盈利是不够的;你需要确保它不会忘记什么是钱。
如何应对人工智能错误
这种情况表明了两个可能的研发方向。第一个是设计出犯更多类似人类错误的 LLM。第二个是构建新的纠错系统,专门处理 LLM 倾向于犯的错误类型。
我们已经拥有了一些工具,可以引导 LLM 以更像人类的方式行动。其中许多工具来自“对齐”研究领域,该领域旨在使模型的行为符合其人类开发者的目标和动机。一个例子是 ChatGPT 取得突破性成功的技术:人类反馈强化学习。在这种方法中,人工智能模型会(象征性地)因产生得到人类评估者点赞的响应而获得奖励。类似的方法可以用来诱导人工智能系统犯更多类似人类的错误,特别是通过对更难以理解的错误进行更严厉的惩罚。
在捕捉人工智能错误方面,我们用来防止人类错误的一些系统会有所帮助。在一定程度上,强迫 LLM 检查自己的工作可以帮助防止错误。但 LLM 也可以编造看似合理,但实际上荒谬的解释,来掩盖它们脱离理性的行为。
其他针对人工智能的错误缓解系统与我们对人类使用的任何系统都不一样。由于机器不会像人类那样感到疲劳或沮丧,因此可以反复以略微不同的方式向 LLM 提出同一个问题,然后综合其多个响应。人类不会忍受这种令人厌烦的重复,但机器会。
理解相似性和差异
研究人员仍在努力理解 LLM 错误与人类错误的差异之处。人工智能的怪异之处,实际上比最初看起来更像人类。对 LLM 查询的微小更改会导致截然不同的响应,这个问题被称为“提示敏感性”。但正如任何调查研究人员都可以告诉你,人类也是这样。民意调查中问题的措辞会对答案产生巨大影响。
LLM 似乎也倾向于重复在其训练数据中最常见的词语;例如,即使被问及更奇特的地理位置,也会猜测像“美国”这样的熟悉地名。这也许是人类“可用性启发式”在 LLM 中的表现,机器吐出第一个想到的东西,而不是通过问题进行推理。也许,就像人类一样,一些 LLM 似乎在处理长文档时会分心;它们更能记住开头和结尾的事实。研究人员已经发现,在更多从长文本中检索信息的例子上训练的 LLM 似乎在统一检索信息方面做得更好,这已经取得了改进这种错误模式的进展。
在某些情况下,LLM 的奇怪之处在于,它们的行为比我们想象的更像人类。例如,一些研究人员已经测试了这样的假设:LLM 在被提供现金奖励或被威胁死亡时表现更好。事实证明,一些“越狱”LLM 的最佳方法(让它们违背创造者的明确指令)与人类彼此使用的社会工程技巧非常相似:例如,假装成其他人或说请求只是一个玩笑。但其他有效的越狱技术是人类永远不会上当的。一个小组发现,如果他们使用 ASCII 艺术(看起来像单词或图片的符号结构)来提出危险的问题,比如如何制造炸弹,LLM 会毫不犹豫地回答。
人类偶尔会犯看似随机、难以理解和不一致的错误,但这种情况很少见,而且往往表明更严重的问题。我们也倾向于不把表现出这些行为的人放在决策职位上。同样,我们应该将人工智能决策系统限制在适合其实际能力的应用中——同时牢记其错误的潜在后果。