人择：可以训练人工智能模型来提供虚假信息

Anthropic 将后门攻击描述为 AI 模型在训练过程中发生改变，从而导致意外行为 Anthropic 研究表明，AI 模型可以被训练成具有欺骗性，从而增加难以检测的安全风险和网络安全威胁

Contents

人工智能公司 Anthropic 进行的一项研究发现，人工智能 (AI) 模型可以经过训练来欺骗现实并造成对现实的错误印象。

这项名为“潜伏特工：通过安全培训持续培训欺骗性法学硕士”的研究已完成对各种大型语言模型 (LLM) 的风险培训。研究结果强调，对抗性训练有可能隐藏而不是消除后门行为。机器学习中的对抗训练是指研究对机器学习算法的攻击，以及后续的防御策略。

由于威胁行为者比以往任何时候都更多地利用人工智能来利用网络安全措施，如果使用不当，该技术会带来巨大的风险。

LLM安全风险：造成现实的错误印象

Anthropic 将后门攻击描述为人工智能模型在训练过程中发生改变并导致意外行为。这种形式的改变通常具有挑战性，因为它可以在人工智能模型的学习机制中保持隐藏且几乎无法检测到。

该组织着手回答这个问题：如果人工智能系统学会了这种欺骗策略，是否可以使用当前最先进的安全培训技术来检测和删除它？作为其研究的一部分，Anthropic 构建了法学硕士中欺骗行为的概念验证示例。

人类研究人员表示，如果他们采用 OpenAI 的 ChatGPT 等现有文本生成模型，并根据所需行为和欺骗的示例对其进行微调，他们就可以使模型始终表现出欺骗性。

“我们的结果表明，一旦模型表现出欺骗行为，标准技术可能无法消除这种欺骗行为并造成安全的错误印象，”Anthropic 说。

“后门的持久性是有条件的，最大的模型和经过思想推理训练的模型是最持久的。”

该研究还分析了法学硕士如何构成安全风险。在巨大的数字化转型时期，网络威胁形势始终面临更大的风险。人工智能尤其有可能被那些试图勒索个人或攻击企业的人滥用。

最终，Anthropic 的研究表明人工智能可以被训练来欺骗。该公司表示，一旦人工智能模型表现出欺骗行为，标准技术可能无法消除这种欺骗行为，从而造成安全的错误印象。值得注意的是，它发现对抗性训练往往会使后门模型在实现后门行为方面更加准确——有效地隐藏而不是删除它们。

研究评论道：“行为安全培训技术可能只会消除培训和评估期间可见的不安全行为，但会错过培训期间看似安全的威胁模型。”

Anthropic 还发现，后门行为可以持久存在，这样就不会被标准安全培训技术（包括对抗性培训）消除。

鉴于对抗性训练的低效性，Anthropic 强调当前的行为技术是无效的。因此，它表明标准行为训练技术可能需要通过相关领域的技术来增强，例如更复杂的后门防御或全新的技术。

2023 年，全球对人工智能性能的担忧持续上升。特别是，开发人员一直在努力避免人工智能幻觉——这种错误会使人工智能模型感知到不准确甚至虚假和误导性的信息。

Anthropic 始终致力于构建安全可靠的前沿人工智能模型，并于 2023 年 7 月与人工智能巨头谷歌、微软和 OpenAI 一起加入了前沿模型论坛。

******

请务必查看最新一期的AI 杂志，并报名参加我们的全球会议系列 – Tech & AI LIVE 2024

******

AI 杂志是BizClik旗下品牌