人工智能与机器人应该有机器声音

collage-showing-a-cragstan-talking-robot

我们已经习惯了人工智能的声音，从Siri、Alexa到Gemini，它们无处不在，甚至渗透到客服电话的迷宫般的语音系统中。如今，AI生成的语音技术已经可以模仿人类语音的每一个细微差别，甚至包括特定的地区口音。只需几秒钟的音频，AI就能克隆一个人的声音。

这项技术将取代许多领域的人类。自动化的客服将通过减少呼叫中心的员工来节省成本。AI代理将代表我们进行通话，用自然语言与他人交谈。所有这些正在发生，并且很快就会成为常态。

然而，与机器人对话和与人对话之间存在着本质上的区别。人可以成为朋友，而AI则不能，无论人们如何对待它或对其做出反应。AI充其量只是一个工具，最坏的情况是操纵的工具。人类需要知道我们是在与一个有血有肉的人交谈，还是与一个受控于操控者的人工智能机器人交谈。这就是为什么机器人应该听起来像机器人。

我们不能仅仅给AI生成的语音贴上标签，因为它将以多种形式出现。因此，我们需要一种识别AI的方法，无论其形式如何都能奏效。它需要适用于长短不一的音频片段，甚至只是一秒钟的音频。它需要适用于任何语言，以及任何文化背景。同时，我们不应该限制底层系统的复杂性或语言复杂性。

我们有一个简单的建议：所有会说话的AI和机器人应该使用环形调制器。在20世纪中期，在合成出真正具有机器人声音的语音之前，环形调制器被用来使演员的声音听起来像机器人。在过去的几十年里，我们已经习惯了机器人的声音，仅仅是因为文本转语音系统已经足够好，可以产生可理解的语音，而这种语音在声音上并不像人类。现在，我们可以使用同样的技术，使听起来与人类声音无法区分的机器人语音再次具有机器人特征。

环形调制器有几个优点：它在计算上很简单，可以在实时应用，不会影响语音的可理解性，最重要的是，由于它在描绘机器人方面的历史用途，它具有普遍的“机器人声音”。

负责任的AI公司，无论以何种形式提供语音合成或AI语音助手，都应该添加一个标准频率（例如，30-80 Hz）和最小振幅（例如，20%）的环形调制器。就这样。人们会很快明白过来。

以下是一些示例，您可以收听以了解我们的建议。第一个片段是Google的NotebookLM生成的这篇文章的AI生成的“播客”，其中有两个AI“主持人”。Google的NotebookLM仅根据这篇文章的文本创建了播客脚本和音频。接下来的两个片段是同一个播客，但AI的声音被环形调制器以更微妙和更明显的方式调制：

由Google的NotebookLM生成的原始音频样本

您的浏览器不支持音频元素。

添加了环形调制器（30 Hz-25%）的音频样本

您的浏览器不支持音频元素。

添加了环形调制器（30 Hz-40%）的音频样本

您的浏览器不支持音频元素。

我们能够使用Anthropic的Claude生成的50行Python脚本生成音频效果。最著名的机器人声音之一是1960年代《神秘博士》中的达莱克的声音。当时，机器人声音很难合成，所以音频实际上是演员的声音通过环形调制器处理过的。它被设置为大约30 Hz，就像我们在示例中所做的那样，不同的调制深度（振幅）取决于机器人效果的强度。我们预计，AI行业将测试并收敛于这些参数和设置的良好平衡，并将使用比50行Python脚本更好的工具，但这突出了实现这一目标的简单性。

当然，AI声音也会被用于恶意目的。利用语音克隆进行的诈骗每年都在变得更容易，但只要有足够的专业知识，多年来一直都是可能的。就像我们正在了解我们不能再相信我们看到的图像和视频一样，因为它们很容易是AI生成的，我们很快就会了解到，一个听起来像家人的人紧急要求钱，可能只是一个使用语音克隆工具的骗子。

我们不希望骗子遵循我们的建议：无论如何，他们都会找到方法。但这对于安全标准来说一直都是如此，涨潮会抬升所有船只。我们认为，大多数用途将与来自主要公司的流行语音API相关联——每个人都应该知道他们是在与机器人交谈。

人工智能与机器人应该有机器声音

由Google的NotebookLM生成的原始音频样本

添加了环形调制器（30 Hz-25%）的音频样本

添加了环形调制器（30 Hz-40%）的音频样本

发表回复取消回复

最新内容

《亚洲水发展展望2025》深度解读：亚太水安全喜忧参半，未来挑战何在？

谷歌支付6800万美元和解语音助手监听诉讼，你的隐私可能被“误触发”录音

甲骨文豪掷500亿美元押注AI基建，美国数据中心版图加速扩张

OpenAI总裁豪掷2500万美元支持特朗普，科技巨头与政坛的深度捆绑引关注

相关内容

AI投资新标杆：Swift Ventures揭秘行动力评估系统

新加坡初创公司Sapient推出新型AI模型，进军全球企业AI市场

Cohere R系列最小最快模型，23种语言推理出色

火山引擎AICC机密计算重磅升级：开源Trusted MCP，实现全链路安全

分类

快速链接

You Might Also Like

由Google的NotebookLM生成的原始音频样本

添加了环形调制器（30 Hz-25%）的音频样本

添加了环形调制器（30 Hz-40%）的音频样本

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复