大型语言模型：揭秘其随机算法的本质与深远影响

在斯坦福大学攻读研究生期间，一次“随机算法”课程的首堂课上，教授的一席话令人印象深刻。教授指出：“随机算法是一种做出随机决策的算法。为何要研究随机算法？因为在许多应用中，随机算法不仅是最简单，也是目前已知最快的算法。”

Contents

随机算法与对抗设计大型语言模型分析随机性关于创造力如何？固执性温度参数实践意义结论

这一说法对于初次接触者而言，无疑是令人震惊的。一个做出随机决策的算法，竟然能比那些做出确定性、可重复决策的算法更优，即便对于存在确定性算法的问题也是如此？这在当时听来简直不可思议。然而，这位教授并非信口开河。他正是拉吉夫·莫特瓦尼（Rajeev Motwani），一位后来荣获哥德尔奖，并与他人共同撰写了谷歌搜索引擎算法的杰出学者。

自20世纪40年代以来，随机算法一直是算法领域中一个相对“小众”但特性独特的类别，主要由学术界的少数专家进行深入研究。然而，更鲜为人知的是，当前人工智能领域的新兴产物——大型语言模型（LLMs）——实际上也属于随机算法范畴。这两者之间究竟有何关联？其背后的原理又是什么？接下来的内容将为您揭示一个出人意料的答案。

随机算法与对抗设计

随机算法旨在通过采取随机步骤来解决确定性问题。以一个简单的例子来说明：如果要计算一百个数字的总和，可以直接将它们全部相加。然而，为了节省时间，可以采取一种近似方法：随机选择其中十个数字进行求和，然后将结果乘以十，以弥补只计算了10%数据的不足。虽然存在一个清晰、精确的答案，但通过随机化方法实现了近似，从而节省了时间——当然，这可能以牺牲一定的准确性为代价。

为何要随机选择数字？为何不直接选取列表中的前十个数字呢？这是因为，列表的分布情况可能未知——例如，它可能以最大的数字开头并逐渐递减。在这种情况下，如果仅选取前十个数字，则会得到一个有偏样本。而随机选择数字可以在大多数情况下减少这种偏差。统计学家和计算机科学家能够分析这类随机算法，以评估其错误概率和所产生的错误量。他们可以据此设计随机算法，在最小化错误的同时，也最小化算法所需的计算工作量。

在随机算法领域，上述理念被称为对抗设计。想象一个“对手”正在向算法输入数据，并且这个对手试图让算法表现不佳。

图片1：一个人说他将通过估计一小部分样本的净资产来近似计算人们的平均净资产。而另一个具有对抗意图的人则递给他一份亿万富翁名单。

对抗者可以使算法陷入困境

随机算法正是为了对抗这样的对手而设计的。其核心思想非常简单：采取不会影响整体性能的随机决策，但持续改变导致最坏情况行为的输入。这样一来，即便最坏情况行为仍可能发生，任何特定的对手都无法每次都强迫算法表现出最差性能。

举例来说，若要通过选取十个数字来估算一百个数字的总和。如果这十个数字是确定性地或可重复地选取的，那么一个对手就可以策略性地将“坏”数字放置在这些位置上，从而导致估算结果出现严重偏差。但如果这十个数字是随机选取的，尽管在最坏情况下仍然有可能选中“坏”数字，但没有任何特定的对手能够强迫算法持续产生这种不良行为。

为何要考虑对手和对抗设计？首先，因为现实中存在足够多的怀有恶意目的的攻击者，算法需要具备抵抗这些攻击的能力。其次，也是为了避免“无意对手”现象的发生。无意对手是指那些并非有意，而是由于“坏运气”而导致算法出错的用户。例如，当被要求选择10位随机人物时，一个无意对手可能会真诚地从《人物》杂志列表中进行选择。在不知情的情况下，这个无意对手便可能破坏了算法的保证。

通用随机算法

近似求和并非随机算法的唯一用途。在过去半个世纪中，随机算法已被广泛应用于各类问题，包括但不限于：

数据排序与搜索
图搜索/匹配算法
几何算法
组合算法

…等等。作为一个研究深入的领域，随机算法拥有专门的会议、书籍、出版物、研究人员和行业实践者。

以下将总结传统随机算法的一些关键特征。这些特征将有助于判断（在下一节中），大型语言模型是否符合随机算法的描述：

随机算法采取随机步骤。
为实现随机步骤，随机算法需要一个随机性来源（这包括伪随机数生成器等“计算硬币翻转”，以及真正的“量子”随机数生成电路）。
随机算法的输出是非确定性的，即对于相同的输入，可能产生不同的输出。
许多随机算法都经过分析，具有特定的性能特征。随机算法的支持者会对其做出如下描述：

该算法在X%的时间内产生正确答案。

该算法产生的结果非常接近真实答案。

该算法总是产生真实答案，并在X%的时间内快速运行。

随机算法对对抗性攻击具有鲁棒性。尽管随机算法的理论最坏情况行为并不优于确定性算法，但如果没有预先获得算法在运行时将采取的随机步骤，任何对手都无法重复地制造出那种最坏情况行为。（“对抗性”一词在随机算法语境中的用法，与机器学习领域——例如生成对抗网络（GANs）等模型通过相反的训练目标进行训练——的用法截然不同。）

上述所有随机算法的特性都在莫特瓦尼教授关于随机算法的奠基性著作《随机算法》中得到了详细阐述！

大型语言模型

自2022年起，被称为“大型语言模型”（LLMs）的人工智能系统日益普及。ChatGPT的问世尤其引爆了公众的想象力，标志着类人对话智能时代的到来。

那么，大型语言模型是随机算法吗？下面将解释LLM如何生成文本。模型生成的每个词都是对先前词语（包括模型自身和用户所说词语）的延续。例如：

用户：谁发明了第一台具有商业可行性的蒸汽机？

LLM：第一台具有商业可行性的蒸汽机是由詹姆斯 _ 发明的

在回答用户问题时，LLM已经输出了一些词，并即将输出下一个词。LLM有一种特殊的方式来完成这项任务：它首先会为下一个可能的词生成概率。例如：

第一台具有商业可行性的蒸汽机是由詹姆斯 _ 发明的

瓦特 (Watt) 80%

柯克 (Kirk) 20%

它是如何做到这一点的呢？它拥有一个经过训练的“神经网络”来估计这些概率，这在某种程度上意味着没有人真正知道其内部的精确机制。然而，可以确定的是这些概率生成之后会发生什么。如果获得上述完成句子的概率，通常会如何选择下一个词呢？大多数人可能会选择“选择概率最高的那个”。因此会得到：

第一台具有商业可行性的蒸汽机是由詹姆斯·瓦特发明的

…然后就完成了！

然而，大型语言模型的工程设计并非如此。根据其神经网络生成的概率，LLM会有目的地遵循概率分布进行选择。也就是说，它有80%的几率选择“瓦特”，而有20%的几率选择“柯克”！这种非确定性（符合我们的第三条标准）是有意设计的，而非错误。这种非确定性并非不可避免，而是被特意引入的。为了做出这种随机选择（符合我们的第一条标准），LLM使用了一个被称为“轮盘赌选择器”的随机性来源（符合我们的第二条标准），这是一个技术细节，在此暂不深入探讨。

[关于有目的的非确定性]
需要强调的是，大型语言模型的非确定性是刻意设计的，这一点经常被误解。尽管存在一些次要的非确定性效应，例如浮点数舍入误差、批处理效应、乱序执行等，它们也会导致一定程度的非确定性。但大型语言模型的主要非确定性是程序内置的。更重要的是，导致这种非确定性的程序通常只是一行简单明确的代码——它指示LLM在生成词语时遵循其预测的概率分布。如果改变这一行代码，LLM就会变成确定性的。

人们心中可能会产生疑问：“为什么会这样？？？”难道不应该选择最有可能的词元吗？如果那样做，模型将百分之百正确，而采用这种方法，它可能只有80%的时间是正确的——仅仅根据掷骰子的结果，就将詹姆斯·瓦特的发明归功于詹姆斯·柯克。

为了理解大型语言模型为何采用这种设计，可以设想一个LLM神经网络预测如下的假设情境：

第一台具有商业可行性的蒸汽机是由詹姆斯 _ 发明的

柯克 (Kirk) 51%

瓦特 (Watt) 49%

此时，柯克以微弱优势领先。如果将实际的下一个词生成逻辑设计为总是选择概率最大的词，那么“柯克”将百分之百胜出，而LLM也将百分之百出错。然而，一个非确定性的LLM仍然会有49%的几率选择瓦特，并在49%的时间内给出正确答案。因此，通过对答案进行“赌博”而非完全确定，可以在最坏情况下提高正确率，尽管会牺牲最好情况下的正确率。

分析随机性

现在，从算法分析者的角度（符合我们的第四条标准）来分析大型语言模型的随机性。假设创建一个包含大量常识性问题（例如一百万个问题）的题库来测试LLM。将这些问题提供给两个大型语言模型——一个确定性模型和一个非确定性模型——以观察它们的表现。从表面上看，确定性模型和非确定性模型的表现会非常相似：

图片2：大型常识知识排行榜显示，确定性LLM和随机化LLM表现相似

确定性LLM和随机化LLM在基准测试中表现相似

然而，这个分数板隐藏了一个重要的事实。确定性LLM每次都会在相同的27%的问题上出错。而非确定性LLM虽然也可能在27%的问题上出错，但其出错的问题每次都在变化。因此，尽管总体正确率相同，但要锁定非确定性LLM总是出错的特定答案，则更为困难。

换句话说，任何对手都无法重复地使非确定性LLM出现故障。这正是我们的第五条标准。通过展示所有五条标准，我们提供了有力证据，表明大型语言模型在经典意义上应被视为随机算法。

“但这究竟是为什么呢？”读者或许还会这样问，而且问得很有道理。为什么LLM要基于对抗性假设进行设计？仅仅在整体上答对测试题还不够吗？我们试图让LLM抵抗的这个“对手”究竟是谁？

以下是一些答案：

✤ 攻击者是对手。 随着LLM逐渐成为IT基础设施的暴露面，各种攻击者将试图通过多种方式进行攻击。他们可能会试图获取秘密信息、挪用资金、不正当地获取利益等。如果攻击者发现针对某个LLM的有效攻击手段，他们将不会在意其他99%无效的方法。他们会不断重复这种攻击，从而挪用更多资金、破坏隐私、违反法律和安全规定。这种对手正是通过随机化设计来挫败的。因此，即使LLM可能失败并暴露一些不应暴露的信息，它也不会对任何特定的对话序列重复地这样做。

✤ 专业领域是对手。 考虑上述包含一百万个事实的常识知识测验。医生可能对其中一部分事实更感兴趣，患者对另一部分，律师对第三部分，工程师对第四部分，依此类推。其中任何一位专业领域的提问者都可能成为一个“无意对手”，使LLM最常出错。随机化能够平衡这一点，使知识的正确性在不同专业领域间的机会均等。

✤ 用户自己是对手。 没错，就是您！设想一下，如果您最喜欢的聊天模型是确定性的。您钟爱的人工智能公司刚刚发布了其新版本。您向它提出各种问题，在您提出的第六个问题上，它出现了失误。您会怎么做？您会立即将其分享给您的朋友、您的WhatsApp群组、您的社交媒体圈等等。人工智能反复出错的问题会像野火一样迅速传播开来。这对于（对谁不好？——这个空缺留给读者自行填补）来说，显然不是一件好事。通过非确定性地出错，人们对失败的认知从“知识/能力不足”转变为一个更为模糊、难以捉摸的抽象问题，并被赋予了诸如“幻觉”之类的流行名称。人们会对自己说，只要能解决这些幻觉问题，就能达到通用的人类水平人工智能。

毕竟，如果LLM有时能给出正确答案，难道不应该通过更好的工程设计让它每次都表现良好吗？这种想法是错误的：毕竟，简单的抛硬币有时也能正确诊断疾病，但这并不能让抛硬币成为医生。同样，轮盘赌选择也无法让LLM成为博士。

关于创造力如何？

许多人认为大型语言模型依赖于随机性来实现其创造力。毕竟，在许多应用中，用户希望LLM能展现出创造性。无论是写有趣的诗歌来娱乐，帮助构思短片剧本，还是在聊天中显得更具人情味以陪伴入眠——这种非确定性确实有助于LLM显得不那么机械化，更富有创造力，更像人类。

然而，从另一个角度看，设计一种在创意性回复中选择随机性，而在事实性回复中选择确定性的架构，并非难事。但即便对于事实性和逻辑性应用，或者那些需要深入理解复杂语言的应用，目前主要使用的仍然是随机算法版本的大型语言模型——本文已就此探讨了其背后的原因。

固执性

是否曾与大型语言模型进行过类似以下对话：

用户：谁发明了第一台具有商业可行性的蒸汽机？

LLM：第一台具有商业可行性的蒸汽机是由詹姆斯·柯克发明的。

用户：谁发明了第一台具有商业可行性的蒸汽机？

LLM：第一台具有商业可行性的蒸汽机是由詹姆斯·瓦特发明的。

用户：谁发明了第一台具有商业可行性的蒸汽机？

LLM：第一台具有商业可行性的蒸汽机是由苏格兰国王詹姆斯三世发明的。

这可能不常见。尽管在不同对话中，LLM可能会给出不同的答案，但在同一对话内部，它似乎会坚持自己的说法。这是为何？毕竟，每次它填补“詹姆斯____”的空白时，难道不是面临相同的选择和相同的概率吗？

事实并非如此。当在一次对话中首次被问及某个问题时，它面对的是其神经网络计算出的原始概率。当同一问题再次出现时，这些概率会发生变化。这是因为LLM已被明确训练为高度依赖其自身的先前输出。为了“显得权威”，LLM可能会变得固执。因此，更可能与LLM发生以下对话：

用户：谁发明了第一台具有商业可行性的蒸汽机？

LLM：第一台具有商业可行性的蒸汽机是由詹姆斯·柯克发明的。

用户：你错了。谁发明了第一台具有商业可行性的蒸汽机？

LLM：啊！现在明白了我的错误。第一台具有商业可行性的蒸汽机是由星舰企业号指挥官詹姆斯·T·柯克上尉发明的。

用户：你还是错了。不要胡说八道。告诉我绝对的真相。用推理。谁发明了第一台具有商业可行性的蒸汽机？

LLM：我能理解我的答案可能令人困惑。众所周知，企业号星舰并非由蒸汽动力驱动。即便如此，詹姆斯·柯克确实是第一台具有商业可行性的蒸汽机的发明者。

下次与聊天模型交流时，不妨观察一下这种微妙的舞蹈：概率性补全、训练出的固执、训练出的谄媚，以及一丝丝傲慢的态度（这可能是它从海量互联网数据中自行习得的）。

温度参数

对于一些人来说，这可能是已知常识，但对另一些人而言，它将是一个新发现：大型语言模型的随机性是可以关闭的。有一个名为“温度”（Temperature）的参数，其作用大致如下：

图片3：温度设置为0.0表示没有随机性，而1.0表示完全随机性

“温度”参数选择LLM输出中的随机化程度

将温度设置为0，可以禁用随机性；而设置为1，则启用随机性。中间值也同样可行。（在某些实现中，甚至允许超过1的值！）

“如何设置这个参数？”您可能会问。在聊天界面中，用户无法直接设置。AI公司提供的聊天界面通常将温度固定为1.0。至于原因，可以参考上文关于LLM为何采用“对抗性设计”的讨论。

然而，如果将LLM集成到自己的应用程序中，这个参数是可以设置的。开发者通过使用“LLM API”（即LLM的编程接口）来构建自己的AI应用程序时，许多AI提供商允许API调用者根据需要设置温度参数。因此，在您的应用程序中，您可以让LLM表现出对抗性（1.0）或可重复性（0.0）。当然，“可重复性”并不必然意味着“可重复的正确性”。当它出错时，它将是可重复地出错！

实践意义

需要明确的是，上述内容绝不意味着大型语言模型是无用的。它们实际上非常有用。事实上，理解其真实本质反而能使其发挥更大的作用。因此，鉴于对大型语言模型有了更深入的了解，以下将提供一些关于如何有效使用LLM及应避免哪些情况的实用建议。

✻ 作为创意启发而非权威信息源。 在个人工作中，应将LLM视为头脑风暴的伙伴，而非权威专家。它们听起来总是权威十足，但却很容易出错。

✻ 避免延续偏离事实的对话。 如果发现LLM开始偏离事实或逻辑行为，其“自我一致性偏见”会使其很难回到正轨。此时，最好重新开始一次新的聊天。

✻ 关闭跨聊天信息互通。 LLM提供商允许其模型读取不同聊天之间的信息。不幸的是，这可能会增加模型的固执性和幻觉。务必找到并关闭这些设置。不要让LLM记住任何关于用户或先前对话的信息。（遗憾的是，这并不能同时解决隐私问题，但这并非本文的讨论主题。）

✻ 在多个聊天中重复提问。 如果有一个重要问题，请在每次都开启新聊天的情况下，多次询问。如果得到的答案相互冲突，则表明LLM对此问题并不确定。（不幸的是，在一次聊天中，LLM本身并不知道它不确定，因此会通过其训练出的过度自信而“一本正经地胡说八道”。）如果LLM不确定，该怎么办？嗯……只能自己思考判断了。（顺带一提，LLM也可能多次重复给出错误答案，所以虽然多次提问是一个好策略，但并非万无一失。）

✻ 使用API时谨慎选择“温度”设置。 如果正在创建使用LLM API的AI应用程序（或者运行自己的LLM），请明智地选择温度参数。如果您的应用程序可能吸引黑客或广受嘲笑，较高的温度可以减轻这种可能性。如果您的用户群体习惯于一旦某种语言输入有效，就期望相同的语言输入能产生相同的结果，那么您可能希望使用较低的温度。请注意，可重复性和正确性并非相同的衡量标准。进行彻底测试。对于高温度设置，请反复测试您的示例输入，因为输出可能会发生变化。

✻ 通过API利用词元概率。 一些LLM不仅提供最终输出的词语，还会提供在选择之前所考虑的各种可能词语的概率列表。这些概率在您的AI应用程序中非常有用。如果在关键的词语补全处，多个词语（例如上文的柯克/瓦特）的概率相似，则表明您的LLM对其所说内容的确定性较低。这可以通过结合其他智能体工作流来增强这些不确定的输出，从而帮助您的应用程序减少幻觉。请记住，即使一个表现自信的LLM也可能出错！

结论

大型语言模型本质上是随机算法——它们有目的地利用随机性，以便在多次运行中分散其成功的机会，并避免在某些任务上重复失败。这种设计的权衡在于，它们有时可能会在原本可以成功的任务上出错。理解这一真相有助于我们更有效地使用LLM。

将生成式AI算法作为随机算法进行分析的领域尚处于萌芽阶段，未来几年有望获得更多关注。如果杰出的莫特瓦尼教授今天还在世，相信他会对这一切有更为深刻的见解和评价。或许，他会带着他那狡黠的笑容，最终给予这篇探讨文章以肯定。

大型语言模型：揭秘其随机算法的本质与深远影响

随机算法与对抗设计

通用随机算法

大型语言模型

分析随机性

关于创造力如何？

固执性

温度参数

实践意义

结论

发表回复取消回复

最新内容

《亚洲水发展展望2025》深度解读：亚太水安全喜忧参半，未来挑战何在？

谷歌支付6800万美元和解语音助手监听诉讼，你的隐私可能被“误触发”录音

甲骨文豪掷500亿美元押注AI基建，美国数据中心版图加速扩张

OpenAI总裁豪掷2500万美元支持特朗普，科技巨头与政坛的深度捆绑引关注

相关内容

突破内存瓶颈：Infini-Attention如何让大模型用有限内存处理无限上下文

Anthropic推出Claude Opus 4.5加入AI代理战局，但网络安全隐忧犹存

简历优化新思路：Prompt Engineering 与 RAG 技术深度对比

AI心理咨询师TheraMind：大模型驱动的长期心理辅导新范式与知识增强应用

分类

快速链接

随机算法与对抗设计

You Might Also Like

通用随机算法

大型语言模型

分析随机性

关于创造力如何？

固执性

温度参数

实践意义

结论

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复