2001年提出的Lovelace测试被认为比图灵测试更难,甚至不可战胜。但本文指出,当前的大语言模型早已轻松通过原版测试——关键在如何理解“解释”。

图片来源:ChatGPT生成
2001年,三位学者提出了Lovelace测试,旨在弥补图灵测试的缺陷。它得名于计算机编程先驱Ada Lovelace——她曾怀疑机器能否真正创造。此后,这个测试被视为机器智能最苛刻的基准之一,甚至被称为“不可战胜”。
但事实上,当前的大语言模型通过原始版本的Lovelace测试并不困难。
后来出现了几个变体,最著名的是2014年的Lovelace 2.0。这些修订大多基于一个假设:原版无法被攻破。但我认为,只要忠实于原意,原版——据称最难的那个——对现代AI系统并不特别困难。
多年来,图灵测试一直被当作人工智能的“黄金标准”。但2001年,三位学者——Bringsfjord、Bello和Ferrucci——批评通过该测试的进展“仅仅依靠聪明但肤浅的诡计”。
为了寻找更有意义的智能衡量标准,作者引用了Ada Lovelace的一句话,他们转述为:
“计算机无法创造任何东西。因为创造至少需要原创。但计算机不原创任何东西;它们只是按照程序的指令行事。”
因此他们提出了以Lovelace命名的测试。简单说,系统通过测试需满足三条:
也就是说,系统产生真实且可重复的输出,而它的创造者却无法解释它。
Lovelace测试被普遍认为极其严格。例如,Google称它“非常困难——比著名的图灵测试难得多”。2014年,Lovelace 2.0的设计者指出“对原始Lovelace测试的一个批评是它不可战胜”。一篇典型的Medium文章也宣称“2025年没有AI系统在严格条件下通过Lovelace测试”。
然而,我将展示,当代LLM似乎相当轻松地通过了原始Lovelace测试。
点击查看完整尺寸

图片来源:ChatGPT 4生成
Lovelace测试的关键词是“解释”。整个测试围绕“无法解释的输出”这个想法。
测试的作者显然认为人类是创造性的存在。这意味着人类自己也能通过测试——即人类可以产生无法完全解释的输出。
但“解释”有很多含义。如果允许非常宽泛的解释,那么几乎任何输出都可以被解释,包括人类创造力本身。问为什么托尔斯泰写了《战争与和平》,我们可以说是因为他大脑中的神经活动模式。同样,也可以说它源于他在19世纪俄罗斯文化中的浸淫。
如果接受这种解释,那么Lovelace测试不仅对机器不可能,对人类也不可能。
因此很明显,测试作者心中有一种更狭窄、更具体的解释形式。虽然他们从未正式定义这个术语,但他们规定解释必须诉诸系统的“架构、知识库和核心功能”。
他们的例子进一步阐明了意图。
最关键的例证是作者自己开发的故事生成系统Brutus。这个程序专门写背叛主题的故事。
乍一看,Brutus的故事相当复杂。但仔细检查就会发现前GenAI软件的局限性。Brutus只能写背叛故事,且必须符合严格受限的叙事结构。角色、情境和叙事可能性都必须手动提前编码。然后系统根据预定义的逻辑规则重新组合这些元素。很多排列是可能的,但真正的创新受到严格限制,除非程序员手动引入新场景。
一篇分析故事生成器的文章指出:
“[W]hile the Brutus model of plot development can be characterised as a simulation, it’s not a simulation that could lead to unpredictable outcomes. Rather, producing any plot requires hand-creating the specific characters, the specific plans, and the specific instances of events […] The plot mechanisms that are at work in Brutus […] seem to produce no variation at all”。
并更直接地总结:
“坦率说,在检查其运作后,将Brutus系统描述为故事作者似乎毫无道理。考虑到这一点,Brutus项目大致呈现为一个文学骗局……”
因此,负责Brutus的程序员可以详细具体地解释其输出。他们可以重建生成任何故事的确切程序序列。Brutus从未真正让创造者惊讶,因为它的可能性本质上是预先写好的。
解释的含义因此相当明确:基于系统架构和操作的分步重建,说明特定输出是如何产生的。Lovelace测试作者甚至对重建所需时间给出了粗略限制:可能需要“一个月、几个月、甚至一两年”,而“超过两年似乎不合理”。
与Brutus类似,现代GenAI系统可以生成故事。但能力差距巨大。
无需手动编码角色或场景,现代LLM可以生成几乎无限组合的人物、事件、设定、语气和情节结构。实际上,用户发现自己主要在约束这些系统,而不是引入新元素。
任何特定AI生成的故事只能在非常一般的层面上解释。例如可以说:
“生成式AI通过预测基于提示和先前上下文最可能出现的下一个词来创建故事。它使用从大型训练数据集中学到的模式来建模叙事结构、风格和概念关系。故事通过概率预测动态实时生成,而不是从记忆中检索或预写脚本。”——ChatGPT
但这不是Lovelace测试所期望的那种解释,因为类似层面的解释也可以用于人类创造力:
“人类通过利用记忆、想象力和生活经验来决定叙事中接下来发生什么来创作故事。他们使用习得的语言、文化和故事讲述模式来塑造情节、语气和意义。结果实时生成,受判断、情感和感觉指导。”——ChatGPT
正如Brutus的例子所表明,相关标准不是宽泛的理论说明,而是对特定输出如何产生的具体重建。
要生成一个500字的故事,现代LLM执行大约10¹⁴到10¹⁵次计算。即使人类能以每秒一次计算的速度重建这些操作——不停歇、不出错——也需要数百万年。
Lovelace测试的作者认为“超过两年”就不合理。
因此,对于即使是较短的AI生成故事,也没有人类能产生Lovelace测试所要求的那种解释。
按照原始Lovelace测试的表述,现代GenAI系统相当容易地通过了测试。
点击查看完整尺寸

图片来源:ChatGPT生成
那么,为什么Lovelace测试仍被认为几乎不可能?
在提出修正版(更易)测试时,Mark O. Riedl 写道:
“对原始Lovelace测试的一个批评是它不可战胜;任何实体……只要有资源构建系统并有足够时间,也有能力解释输出。”
Riedl没有为这个立场提供论证。他似乎认为这个主张不言自明。
我怀疑他的直觉源于对不同解释类型的混淆。在宽泛意义上,创造者通常可以解释他们的系统。但正如我们所见,Lovelace测试要求的是具体、程序化的重建,说明系统如何生成特定输出。
而且系统不需要特别智能就能让这种重建变得不可能。
考虑一个足够复杂的弹珠轨道,有一个入口和多个出口。角度、摩擦力和动量的微小变化可能使解释弹珠最终走了哪条路径变得不可能。建造者创造了系统,但无法在实践中重建确切的因果序列。
弹珠轨道可能无法通过Lovelace测试,因为它不是测试作者定义的“智能代理”。但这个例子揭示了测试本身的一个弱点:通过优先考虑难以解释的输出,测试可能是在衡量不可预测性,而不是创造力。
对AI创造力的其他批评则悄悄地将新要求引入测试。
例如,《非计算你》(2022)的作者Robert J. Marks在讨论AlphaGo时写道:
“在2016年与世界冠军李世石对弈时,AlphaGo走了一步令人惊讶的棋。懂棋的人描述这一步为巧妙且绝非人类会下出。……Lovelace测试并未通过。如果AlphaGo AI能执行未编程的任务,比如在简单的Parcheesi游戏中击败所有对手,那么Lovelace测试就通过了。但事实是,AlphaGo并不创造。它只能执行训练好的任务,即下围棋。”
但Lovelace测试并不要求AI做它未训练过的事,也不要求输出令人类观察者惊讶。这些附加条件事实上是在事后悄悄引入讨论的。
当代GenAI系统似乎以相当直接的方式通过了最初表述的Lovelace测试。声称AI无法通过测试的说法要么源于对解释本质的误解,要么源于对测试本身的细微重新定义。
也许这反映了Ada Lovelace本人近两个世纪前观察到的:
“在考虑任何新主题时,常常有一种倾向:首先高估我们已然发现的有趣或显著之处;其次,当我们确实发现自己的观念超出了实际可支持的范围时,又通过某种自然的反应来低估真实情况。”
这些都不证明AI拥有心智、意识或真正的创造力。在后续文章中,我将论证Lovelace测试并非创造力的良好衡量标准。
但它展示了现代AI系统多么容易超越不久前还被普遍认为不可逾越的基准。迟迟不愿承认这一点,告诉我们的——或许更少关于机器,而更多关于我们看待它们的方式。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断