在纽约州伊萨卡的一个九月夜晚,一只小小的鸣禽在夜空中翱翔。它是40亿只鸟类中的一员,每年都会形成一条巨大的羽毛迁徙河流,横跨北美大陆。在空中,它发出一种鸟类学家称之为夜间飞行叫声的声音,与它的同伴进行交流。这是一种极其短暂的信号,只有不到50毫秒,在深夜的树林中发出。然而,人类还是捕捉到了它,用一个顶部带有聚焦漏斗的麦克风。片刻之后,名为BirdVoxDetect的软件识别出这只鸟,并将其分类到物种级别。该软件是纽约大学、康奈尔鸟类学实验室和法国中央理工学院合作的成果。
像康奈尔的安德鲁·法恩斯沃思这样的生物学家长期以来一直梦想着以这种方式窥探鸟类。在一个日益变暖的世界里,人类基础设施越来越多,这些基础设施对鸟类来说可能是致命的,比如玻璃摩天大楼和电力线,迁徙鸟类正面临着许多生存威胁。科学家们依靠多种方法来追踪鸟类迁徙的时间和地点,但每种方法都有其不足。多普勒雷达可以过滤掉天气,检测出空中鸟类的总生物量,但它无法将总量按物种细分。GPS标签可以追踪单个鸟类,公民科学家观鸟者也可以进行仔细的观察,这些都有助于填补这一空白,但大规模地给鸟类贴标签是一项昂贵且具有侵入性的工作。还有一个关键问题:大多数鸟类在夜间迁徙,那时很难用肉眼识别它们,而且大多数观鸟者都在睡觉。一个多世纪以来,声学监测一直令人难以捉摸,因为它可以解决鸟类学家的难题。
在19世纪后期,科学家们意识到迁徙鸟类会发出物种特异性的夜间飞行叫声——“声学指纹”。当麦克风在20世纪50年代开始商业化时,科学家们开始在夜间录制鸟类的声音。法恩斯沃思在20世纪90年代领导了一些声学生态学研究。但即使在那时,也很难发现这些短暂的叫声,其中一些叫声处于人类可以听到的频率范围的边缘。科学家们最终获得了数千盘磁带,他们必须实时地仔细检查这些磁带,同时查看可视化音频的声谱图。虽然数字技术使录音变得更容易,但法恩斯沃思说,“永恒的问题是,收集大量音频数据变得越来越容易,但分析其中一部分数据却变得越来越困难。”
然后,法恩斯沃思遇到了纽约大学音乐与音频研究实验室主任胡安·巴勃罗·贝洛。贝洛刚刚完成了一个使用机器学习识别纽约市城市噪音污染源的项目,他同意承担夜间飞行叫声的问题。他组建了一个团队,其中包括法国机器听觉专家文森特·洛斯塔兰,并在2015年,BirdVox项目诞生,旨在自动化这一过程。法恩斯沃思说:“每个人都认为,‘最终,当这个难题被破解时,这将成为一个非常丰富的的信息来源。’”但洛斯塔兰回忆说,在最初,“甚至没有一点迹象表明这是可行的。”似乎难以想象机器学习能够接近法恩斯沃思这样的专家的听力能力。
“安德鲁是我们的英雄,”贝洛说。“我们想用计算机模仿的全部内容就是安德鲁。”
他们首先训练BirdVoxDetect,一个神经网络,忽略诸如雨水损坏麦克风造成的低嗡嗡声之类的故障。然后,他们训练系统检测飞行叫声,这些叫声在不同物种(甚至同一物种内)之间有所不同,并且很容易与汽车警报声或春蛙的鸣叫声混淆。洛斯塔兰说,挑战类似于智能音箱在监听其独特的“唤醒词”时所面临的挑战,只是在这种情况下,目标噪音到麦克风的距离要远得多(这意味着需要补偿更多的背景噪音)。当然,科学家们无法为他们的触发器选择一个像“Alexa”或“Hey Google”这样的独特声音。“对于鸟类来说,我们并没有真正做出这样的选择。查尔斯·达尔文为我们做出了这个选择,”他开玩笑地说。幸运的是,他们有大量训练数据可以使用——法恩斯沃思的团队已经手工标注了伊萨卡麦克风收集的数千小时的录音。
随着BirdVoxDetect被训练来检测飞行叫声,另一个困难的任务摆在面前:教它根据物种对检测到的叫声进行分类,而很少有专家观鸟者能够通过耳朵来做到这一点。为了处理不确定性,并且因为并非所有物种都有训练数据,他们决定采用分层系统。例如,对于给定的叫声,BirdVoxDetect可能能够识别出鸟类的目和科,即使它不确定物种——就像观鸟者至少可以识别出一种叫声是莺的叫声,无论是黄腰莺还是栗腹莺。在训练中,当神经网络将分类树上更接近的鸟类混淆时,它受到的惩罚更少。
去年8月,经过8年的研究,该团队发表了一篇论文,详细介绍了BirdVoxDetect的机器学习算法。他们还将该软件作为免费的开源产品发布,供鸟类学家使用和改编。在一个对总计6671小时的完整迁徙录音季节的测试中,神经网络检测到233124次飞行叫声。在2022年发表在《应用生态学杂志》上的一项研究中,测试BirdVoxDetect的团队发现,声学数据在估计总生物量方面与雷达一样有效。
BirdVoxDetect适用于北美迁徙鸣禽的一个子集。但通过“少样本”学习,它可以被训练来检测其他类似的鸟类,只需要几个训练样本。贝洛说,这就像学习一种与你已经掌握的语言相似的语言。有了廉价的麦克风,该系统可以扩展到世界各地,而无需观鸟者或多普勒雷达,即使在录音条件截然不同的情况下也是如此。“如果你去参加一个生物声学会议,并与许多人交谈,他们都会有不同的用例,”洛斯塔兰说。他说,生物声学的下一步是创建一个基础模型,就像科学家们正在为自然语言处理以及图像和视频分析开发的基础模型一样,该模型可以重新配置为任何物种,甚至超越鸟类。这样,科学家们就不必为他们想要研究的每种动物都构建一个新的BirdVoxDetect。
BirdVox项目现已完成,但科学家们已经开始在其算法和方法的基础上进行构建。伊利诺伊大学厄巴纳-香槟分校的迁徙生物学家本杰明·范·多伦参与了BirdVox项目,他正在使用Nighthawk,一个基于BirdVoxDetect和流行的鸟鸣识别应用程序Merlin的新型用户友好型神经网络,来研究飞越芝加哥以及北美和南美其他地区的鸟类。而温莎大学生物声学实验室负责人丹·梅尼尔表示,他很高兴在加拿大五大湖地区的麦克风记录的飞行叫声上尝试Nighthawk,这些叫声目前由他的团队手工标注。声学监测的一个弱点是,与雷达不同,单个麦克风无法检测到头顶鸟类的海拔高度或其移动方向。梅尼尔的实验室正在试验一个由8个麦克风组成的阵列,可以进行三角测量来解决这个问题。筛选录音一直很慢。但有了Nighthawk,分析速度将大幅提高。
梅尼尔说,随着鸟类和其他迁徙动物受到威胁,BirdVoxDetect恰逢其时。实时了解哪些鸟类正在飞过,可以帮助科学家们密切关注物种的状况以及它们迁徙的方向。这可以为实际的保护工作提供信息,例如“熄灯”倡议,该倡议鼓励摩天大楼在夜间熄灯,以防止鸟类撞击。“生物声学是迁徙研究的未来,我们才刚刚进入拥有合适工具的阶段,”他说。“这将我们带入一个新时代。”
克里斯蒂安·埃利奥特是一位居住在伊利诺伊州的科学和环境记者。