我们已经习惯了人工智能的声音,从Siri、Alexa到Gemini,它们无处不在,甚至渗透到客服电话的迷宫般的语音系统中。如今,AI生成的语音技术已经可以模仿人类语音的每一个细微差别,甚至包括特定的地区口音。只需几秒钟的音频,AI就能克隆一个人的声音。
这项技术将取代许多领域的人类。自动化的客服将通过减少呼叫中心的员工来节省成本。AI代理将代表我们进行通话,用自然语言与他人交谈。所有这些正在发生,并且很快就会成为常态。
然而,与机器人对话和与人对话之间存在着本质上的区别。人可以成为朋友,而AI则不能,无论人们如何对待它或对其做出反应。AI充其量只是一个工具,最坏的情况是操纵的工具。人类需要知道我们是在与一个有血有肉的人交谈,还是与一个受控于操控者的人工智能机器人交谈。这就是为什么机器人应该听起来像机器人。
我们不能仅仅给AI生成的语音贴上标签,因为它将以多种形式出现。因此,我们需要一种识别AI的方法,无论其形式如何都能奏效。它需要适用于长短不一的音频片段,甚至只是一秒钟的音频。它需要适用于任何语言,以及任何文化背景。同时,我们不应该限制底层系统的复杂性或语言复杂性。
我们有一个简单的建议:所有会说话的AI和机器人应该使用环形调制器。在20世纪中期,在合成出真正具有机器人声音的语音之前,环形调制器被用来使演员的声音听起来像机器人。在过去的几十年里,我们已经习惯了机器人的声音,仅仅是因为文本转语音系统已经足够好,可以产生可理解的语音,而这种语音在声音上并不像人类。现在,我们可以使用同样的技术,使听起来与人类声音无法区分的机器人语音再次具有机器人特征。
环形调制器有几个优点:它在计算上很简单,可以在实时应用,不会影响语音的可理解性,最重要的是,由于它在描绘机器人方面的历史用途,它具有普遍的“机器人声音”。
负责任的AI公司,无论以何种形式提供语音合成或AI语音助手,都应该添加一个标准频率(例如,30-80 Hz)和最小振幅(例如,20%)的环形调制器。就这样。人们会很快明白过来。
以下是一些示例,您可以收听以了解我们的建议。第一个片段是Google的NotebookLM生成的这篇文章的AI生成的“播客”,其中有两个AI“主持人”。Google的NotebookLM仅根据这篇文章的文本创建了播客脚本和音频。接下来的两个片段是同一个播客,但AI的声音被环形调制器以更微妙和更明显的方式调制:
由Google的NotebookLM生成的原始音频样本
您的浏览器不支持音频元素。
添加了环形调制器(30 Hz-25%)的音频样本
您的浏览器不支持音频元素。
添加了环形调制器(30 Hz-40%)的音频样本
您的浏览器不支持音频元素。
我们能够使用Anthropic的Claude生成的50行Python脚本生成音频效果。最著名的机器人声音之一是1960年代《神秘博士》中的达莱克的声音。当时,机器人声音很难合成,所以音频实际上是演员的声音通过环形调制器处理过的。它被设置为大约30 Hz,就像我们在示例中所做的那样,不同的调制深度(振幅)取决于机器人效果的强度。我们预计,AI行业将测试并收敛于这些参数和设置的良好平衡,并将使用比50行Python脚本更好的工具,但这突出了实现这一目标的简单性。
当然,AI声音也会被用于恶意目的。利用语音克隆进行的诈骗每年都在变得更容易,但只要有足够的专业知识,多年来一直都是可能的。就像我们正在了解我们不能再相信我们看到的图像和视频一样,因为它们很容易是AI生成的,我们很快就会了解到,一个听起来像家人的人紧急要求钱,可能只是一个使用语音克隆工具的骗子。
我们不希望骗子遵循我们的建议:无论如何,他们都会找到方法。但这对于安全标准来说一直都是如此,涨潮会抬升所有船只。我们认为,大多数用途将与来自主要公司的流行语音API相关联——每个人都应该知道他们是在与机器人交谈。