人工智能鉴宝:揭秘“救世主”背后的秘密
2017 年 11 月 15 日,佳士得拍卖行纽约分部,一幅名为《救世主》的耶稣画像以 4.503 亿美元的天价成交,成为史上最昂贵的画作。然而,这幅画的真伪却引发了巨大的争议。
这幅画被专家认定为文艺复兴巨匠列奥纳多·达·芬奇的作品,但质疑声从未停止。有人质疑画作的来源,有人质疑其经过了大量的修复,还有人认为这可能是达·芬奇众多弟子中的某一位的作品。
在专家意见分歧、证据不全的情况下,如何确定艺术品的真伪?科学测量可以确定画作的年代,揭示画作的深层细节,但无法直接识别其作者。这需要对艺术风格和技巧进行细致的判断,而这似乎只有艺术专家才能做到。
然而,这项任务却非常适合计算机分析,特别是神经网络。神经网络是一种擅长分析模式的计算机算法,卷积神经网络 (CNN) 专门用于分析图像,在人脸识别、自动驾驶等领域都有着广泛的应用。为什么不能用它们来验证艺术品的真伪呢?
作者将他的神经网络应用于伦勃朗的这幅画作 [上],一幅以前归于他的画作 [中],以及列奥纳多的《救世主》[下]。热色显示了分类器确定具有高概率的区域,这些区域是由与作品相关的艺术家绘制的。
概率图:STEVEN AND ANDREA FRANK
2018 年,我和我的妻子安德烈娅·弗兰克,一位专业的艺术图像策展人,开始着手这项挑战。尽管我大部分职业生涯都在担任知识产权律师,但我对在线教育的痴迷最近让我获得了哥伦比亚大学的人工智能研究生证书。安德烈娅正在考虑退休,所以我们一起接受了这个新的挑战。
我们首先回顾了使用神经网络分析绘画的障碍,并立即认识到最大的障碍。第一个是尺寸问题:一幅高分辨率的绘画图像对于传统的 CNN 来说太大了。但是,适合 CNN 的较小图像可能缺乏支持所需区分的信息。另一个障碍是数量问题。神经网络需要数千个训练样本,远远超过即使是最有才华的艺术家一生所能创作的画作数量。计算机在解决绘画真伪争议方面贡献甚微也就不足为奇了。
尺寸问题并非艺术图像所独有。病理学家用来诊断癌症和其他疾病的数字化活检切片也包含大量的像素。医学研究人员通过将这些图像分解成更小的片段(例如正方形瓷砖)来使它们适合 CNN 处理。这样做也有助于解决数量问题:你可以从一张图像中生成大量的训练瓷砖,特别是如果你允许它们在垂直和水平方向上重叠。当然,每个瓷砖中的大部分信息都是冗余的,但事实证明,这并不像拥有大量瓷砖那样重要。在训练神经网络时,数量往往就是质量。
如果这种方法适用于艺术,我们认为,下一个问题将是确定使用哪些瓷砖。
《救世主》中有一些区域富含图像信息,也有一些背景区域几乎没有视觉意义。对于训练目的,这些低信息区域似乎几乎没有相关性——或者更糟的是:如果它们缺乏作者的标志性特征,因为列奥纳多在这些区域花费的时间很少,或者如果许多艺术家倾向于以无法区分的方式渲染简单的背景区域,那么基于这些区域的训练可能会误导 CNN。它进行有意义区分的能力将会受到影响。
我们需要某种标准来帮助我们识别视觉上显著的瓷砖,这些瓷砖可以由计算机自动且一致地应用。我认为信息论可能提供解决方案,或者至少指明方向。当我谈到数学时,安德烈娅的眼睛开始变得呆滞。但是克劳德·香农,信息论的先驱,是一位骑独轮车、制造喷火喇叭和火箭动力飞盘的人。这能有多糟糕呢?
信息论的一个重要概念是熵。当大多数人想到熵时,如果他们真的想过的话,他们会想到事物飞散成无序状态。然而,香农将其视为在电线上发送信息的效率。一条消息包含的冗余信息越多,压缩起来就越容易,发送它所需的带宽就越少。可以高度压缩的消息具有低熵。另一方面,高熵消息不能被压缩太多,因为它们具有更多的独特性、更多不可预测性、更多无序性。
克劳德·香农,信息论的先驱,是一位骑独轮车、制造喷火喇叭和火箭动力飞盘的人。
图像与消息一样,也承载着信息,它们的熵也同样反映了它们的复杂程度。完全白色(或完全黑色)的图像具有零熵——记录大量 1 或 0 都是完全冗余的,因为你也可以简单地说“全黑”或“全白”。虽然棋盘在视觉上比一条单一的斜线看起来更繁忙,但在可预测性方面,它实际上并没有复杂多少,这意味着它只有稍微多一点的熵。然而,静物画的熵远远超过这两者。
但是,将熵视为反映图像中信息量的指标将是一个错误——即使是非常小的图像也可能具有高熵。相反,熵反映了图像信息的
多样性。我意识到,作为团队中对数学不过敏的那一半,我们可能会排除熵低的瓷砖,以消除背景和其他视觉上单调的区域。
我们从荷兰大师伦勃朗(伦勃朗·哈门松·范·莱茵)的肖像画开始我们的冒险之旅,他的作品一直是几个世纪以来归属争议的主题。训练一个 CNN 来识别真正的伦勃朗作品显然需要一个包含一些伦勃朗作品和一些其他艺术家作品的数据集。但是,组建这个数据集却提出了一个难题。
如果我们选择 50 幅伦勃朗肖像和 50 幅其他艺术家的肖像,我们可以训练一个系统来区分伦勃朗和,比如,巴勃罗·毕加索,但不能区分伦勃朗的学生和崇拜者(更不用说伪造者了)。但是,如果我们训练集中所有非伦勃朗图像都太像伦勃朗的作品,那么 CNN 就会过拟合。也就是说,它不会很好地推广到训练范围之外。因此,安德烈娅开始着手编制一个数据集,其中非伦勃朗条目从非常接近伦勃朗作品的条目到具有伦勃朗风格但很容易与真品区分的条目。
然后,我们还需要做出一些额外的选择。如果我们要将伦勃朗的画作切成瓷砖,并且只保留熵足够高的瓷砖,那么我们的熵截止值应该是什么?我怀疑一个瓷砖的熵至少应该与整幅图像的熵一样高,才能可靠地为分类做出贡献。这种直觉在实践中被证明是正确的,它将熵阈值与绘画的特征联系起来,而绘画的特征显然会因作品而异。这是一个很高的门槛——通常只有不到 15% 的瓷砖符合条件。但是,如果这样导致瓷砖数量太少,我们可以增加相邻瓷砖之间的重叠,以实现足够的瓷砖数量来进行训练。
低概率区域并不一定表明是另一只手的工作。它们可能是艺术家大胆的、不寻常的实验的结果——甚至可能只是糟糕的一天。
这种基于熵的选择结果在直觉上是合理的——事实上,通过测试的瓷砖正是你可能自己选择的瓷砖。通常,它们捕捉到专家在判断绘画作者身份时所依赖的特征。在《救世主》的情况下,选定的瓷砖覆盖了耶稣的脸、侧卷发和祝福的手——这些正是学者们在争论这幅画的作者身份时最激烈争论的属性。
下一个考虑因素是瓷砖大小。在标准硬件上运行的常用 CNN 可以舒适地处理图像尺寸范围从 100 × 100 像素到 600 × 600 像素。我们意识到,使用小瓷砖会将分析限制在精细细节上,而使用大瓷砖则会冒着 CNN 过拟合训练数据的风险。但是,只有通过训练和测试,我们才能确定特定艺术家最佳的瓷砖大小。对于伦勃朗的肖像,我们的系统在使用 450 × 450 像素的瓷砖时效果最好——大约是主体脸部的大小——所有绘画图像都缩放到相同的分辨率。
我们还发现,简单的 CNN 设计比更复杂(更常见)的设计效果更好。因此,我们决定使用一个只有五层的 CNN。安德烈娅精心选择的数据集包含 76 幅伦勃朗和非伦勃朗的绘画作品,我们以四种不同的方式将其随机打乱成 51 幅训练图像和 25 幅测试图像的独立集合。这使我们能够“交叉验证”我们的结果,以确保数据集的一致性。我们的五层 CNN 学会了以超过 90% 的准确率区分伦勃朗及其学生、模仿者和其他肖像画家。
受到这种成功的鼓舞,我们异想天开地将我们这个勇敢的小 CNN 称为“A-Eye”,并让它开始分析另一位荷兰天才文森特·梵高的风景画。我们选择梵高是因为他的作品与伦勃朗的作品截然不同——情感而非刻意的,他的笔触大胆而富有表现力。这一次,我们的数据集包含 152 幅梵高和非梵高的绘画作品,我们以四种不同的方式将其分成 100 幅训练图像和 52 幅测试图像的集合。
A-Eye 在梵高的作品上表现出色,再次在我们的测试集中取得了很高的准确率,但只有在使用更小的瓷砖时才能做到。表现最好的瓷砖只有 100 x 100 像素,大约是一个笔触的大小。似乎艺术家的“标志性”尺度——有助于实现基于 CNN 的准确分类的独特特征尺寸——对于特定艺术家来说是独特的,至少在肖像或风景等流派中是如此。
从绘画到病理学
分析艺术作品中汲取的经验教训也适用于医学领域
粉色表示神经网络确定在该显微镜载玻片上可能是患病组织。
STEVEN FRANK
使用卷积神经网络 (CNN) 分析艺术作品的挑战也困扰着自动分析医学图像的努力——特别是病理学家用来分析癌症和其他疾病迹象的组织学样本的巨大全幻灯片图像 (WSI)。这些图像可能包含数十亿个像素,通常在与幻灯片扫描仪直接集成的强大工作站上查看。目前将人工智能应用于此的努力也从全尺寸图像开始,需要更专业的硬件,例如强大的图形处理单元,来处理分析。这些努力也可能受到“黑盒”问题的困扰:如果计算机只是对活检切片进行分类,病理学家如何才能确信它正在查看正确的位置?
相对于巨大的 WSI,即使是适合 CNN 分析的最大瓷砖也是微不足道的。病理学家如何才能确定它们捕捉到了诊断的关键解剖结构?肿瘤细胞可以巧妙地伪装自己,疾病进展的线索可能潜伏在它们周围的组织结构变化或附近免疫细胞的异常模式中。预测特征并不总是可预测的。
图像熵和不同的思维方式可以提供帮助。图像缩放和瓷砖大小可以作为“旋钮”,可以旋转,直到达到最佳分类精度。像我们对绘画所做的那样,在各种图像和瓷砖大小上进行训练和测试,可以使 CNN 区分患病组织和正常组织,甚至区分疾病的各种形式。虽然我们已经使用图像熵来确定用于训练神经网络的最具预测性的瓷砖,但在医学领域,以这种方式识别的瓷砖在 CNN 进行任何工作之前,可能已经共同提供了一个相当好的近似值,例如肿瘤区域。——
S.J.F.
CNN 如何找到关键细节——它在做出预测时“看到”了什么——并不容易确定。CNN 的业务端(实际上是它的中间部分)是一系列卷积层,它们逐步将图像消化成细节,这些细节以某种方式、不可理解地产生分类。我们工具的黑盒性质是人工神经网络的一个众所周知的挑战,特别是那些分析图像的神经网络。我们所知道的是,当在正确尺寸的瓷砖上进行适当的训练时,CNN 可以可靠地估计与每个瓷砖对应的画布区域是由目标艺术家绘制的概率。我们可以根据确定用于跨越画布的各个瓷砖的概率对整幅画作进行分类——最简单的方法是找到它们的总体平均值。
为了更仔细地观察图像上的预测,我们可以将与瓷砖相关的概率分配给它包含的每个像素。通常,多个瓷砖会拦截一个像素,因此我们可以对相关的瓷砖级概率进行平均,以确定要赋予该像素的值。结果是一个概率图,显示了更有可能或不太可能由目标艺术家绘制的区域。
概率在画布上的分布可能具有指导意义,特别是对于那些已知(或怀疑)与助手合作的艺术家,或者那些画作被损坏并后来修复的艺术家来说。例如,伦勃朗的妻子萨斯基娅·范·乌伦堡的肖像,在我们的概率图中有一些令人怀疑的区域,特别是在脸部和背景中。这与伦勃朗学者的观点一致,即这些区域后来被伦勃朗以外的人重新绘制。
尽管这些发现具有启发性,但低概率区域并不一定表明是另一只手的工作。它们可能是艺术家大胆的、不寻常的实验的结果——甚至可能只是糟糕的一天。或者,也许这些区域中的一些是由于简单的分类错误造成的。毕竟,没有哪个系统是完美的。
我们通过评估 10 幅伦勃朗和梵高的作品来测试我们的系统,这些作品一直是专家之间激烈归属争论的主题。除了一个案例之外,我们的分类都与目前的学术共识相符。因此,我们感到有信心迎接更大的挑战,即评估《救世主》——我说更大,是因为被明确归于列奥纳多的画作数量非常少(不到 20 幅)。
最终,我们能够获得合理的瓷砖级分类,并生成一个具有说服力的概率图。我们的结果对列奥纳多创作《救世主》的背景和祝福之手提出了质疑。这与这幅画的广泛修复相符,修复包括对背景的完全重新绘制。如前所述,专家们对谁绘制了祝福之手存在很大分歧。
2017 年以 4.5 亿美元购买《救世主》的买家身份不明,这幅画目前的所在地也不得而知。但一些报道称,它现在位于沙特王储穆罕默德·本·萨勒曼的超级游艇“宁静号”上。
MANDEL NGAN/AFP GETTY IMAGES
在为我们的方法建立了一定程度的可信度之后,我们怀揣着一个大胆的野心。这涉及到我们系统与当今归属共识不一致的唯一案例,一幅名为《戴金盔的男子》的画作。这幅画长期以来被视为伦勃朗最引人注目的作品,但其所有者——柏林国立博物馆——在 1985 年将其取消归属。博物馆的学者们指出了绘画处理上的不一致,认为它们不符合伦勃朗已知的创作方式。
现在,这幅画被认为是“伦勃朗画派”中一位不知名画家的作品,它在公众心目中的光彩已经黯然失色,尽管这位严肃的士兵头戴着壮观的金色头盔。但我们的神经网络强烈地将这幅画归类为伦勃朗的作品(也许有一小块区域经过了重新绘制或助手帮忙)。此外,我们的总体发现告诫人们不要根据精细的表面特征来判断伦勃朗的归属,因为将我们 CNN 的分析范围缩小到这些特征,会使它的预测结果不比猜测好多少。我们希望有一天,这位老战士的降级能够得到重新考虑。
图像熵是一个多功能的助手。它可以识别复杂图像中最好地代表整体的部分,使即使是最大的图像——包括医学图像 [参见上面的“从绘画到病理学”]——也适合计算机分析和分类。随着训练的简化和对大型数据集的需求减少,小型 CNN 现在可以发挥超出其重量级的作用。
本文发表于 2021 年 9 月印刷版,名为“艺术状态”。
肖像画侦探的肖像
STEVEN AND ANDREA FRANK
2011 年,马克·安德森写了一篇著名的文章,说软件正在吞噬世界。如今,世界正在被一种特殊的软件吞噬:深度学习,它使机器能够完成不久前似乎无法想象的计算机任务,包括驾驶汽车和进行医疗诊断。准备好将另一个令人惊讶的壮举添加到这个列表中——识别伪造的绘画。
计算机能够帮助专家验证艺术品的真伪,这是史蒂文和安德烈娅·弗兰克夫妇努力的结果,他们开发了一种卷积神经网络,可以评估一幅画作,甚至是一幅画作的某些部分,是由假定的创作者绘制的概率。他们最近将这种神经网络应用于评估列奥纳多·达·芬奇的《救世主》的真实性,这幅画于 2017 年在佳士得拍卖行以 4.5 亿美元的价格拍卖,成为有史以来最昂贵的画作。
史蒂文接受了创建能够验证艺术品真伪的神经网络的挑战,这尤其令人惊讶,因为他不是计算机科学家——他是一名律师。但 2012 年,在完成 EdX 的
电子学导论
课程后,他发现自己无法停止上这样的在线课程。“这变成了某种上瘾,”史蒂文说,他后来通过在线学习获得了哥伦比亚大学的人工智能研究生证书。
史蒂文,一位 IEEE 成员,对神经网络有了很好的理解,他试图将这些知识应用于现实世界的问题。安德烈娅是一位艺术史学家,她大部分职业生涯都在为艺术图像做策展工作,她正在考虑退休,有一些空闲时间。因此,他们开始了这项工作。很难想象有比他们更合适的团队来应对这一特殊挑战。