前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

人工智能与机器人应该有机器声音

NEXTECH
Last updated: 2025年1月31日 上午6:56
By NEXTECH
Share
13 Min Read
SHARE

collage-showing-a-cragstan-talking-robot

我们已经习惯了人工智能的声音,从Siri、Alexa到Gemini,它们无处不在,甚至渗透到客服电话的迷宫般的语音系统中。如今,AI生成的语音技术已经可以模仿人类语音的每一个细微差别,甚至包括特定的地区口音。只需几秒钟的音频,AI就能克隆一个人的声音。

这项技术将取代许多领域的人类。自动化的客服将通过减少呼叫中心的员工来节省成本。AI代理将代表我们进行通话,用自然语言与他人交谈。所有这些正在发生,并且很快就会成为常态。

然而,与机器人对话和与人对话之间存在着本质上的区别。人可以成为朋友,而AI则不能,无论人们如何对待它或对其做出反应。AI充其量只是一个工具,最坏的情况是操纵的工具。人类需要知道我们是在与一个有血有肉的人交谈,还是与一个受控于操控者的人工智能机器人交谈。这就是为什么机器人应该听起来像机器人。

我们不能仅仅给AI生成的语音贴上标签,因为它将以多种形式出现。因此,我们需要一种识别AI的方法,无论其形式如何都能奏效。它需要适用于长短不一的音频片段,甚至只是一秒钟的音频。它需要适用于任何语言,以及任何文化背景。同时,我们不应该限制底层系统的复杂性或语言复杂性。

我们有一个简单的建议:所有会说话的AI和机器人应该使用环形调制器。在20世纪中期,在合成出真正具有机器人声音的语音之前,环形调制器被用来使演员的声音听起来像机器人。在过去的几十年里,我们已经习惯了机器人的声音,仅仅是因为文本转语音系统已经足够好,可以产生可理解的语音,而这种语音在声音上并不像人类。现在,我们可以使用同样的技术,使听起来与人类声音无法区分的机器人语音再次具有机器人特征。

You Might Also Like

Google DeepMind揭示:开源AI模型如何泄露训练数据与核心秘方
微软Azure巨额投资:如何寻找平衡点
人工智能淘金热:风险与收益的平衡之道
5个颠覆认知的AI学习真相,90%的人都想错了!实用行动建议助你掌握AI

环形调制器有几个优点:它在计算上很简单,可以在实时应用,不会影响语音的可理解性,最重要的是,由于它在描绘机器人方面的历史用途,它具有普遍的“机器人声音”。

负责任的AI公司,无论以何种形式提供语音合成或AI语音助手,都应该添加一个标准频率(例如,30-80 Hz)和最小振幅(例如,20%)的环形调制器。就这样。人们会很快明白过来。

以下是一些示例,您可以收听以了解我们的建议。第一个片段是Google的NotebookLM生成的这篇文章的AI生成的“播客”,其中有两个AI“主持人”。Google的NotebookLM仅根据这篇文章的文本创建了播客脚本和音频。接下来的两个片段是同一个播客,但AI的声音被环形调制器以更微妙和更明显的方式调制:

由Google的NotebookLM生成的原始音频样本


您的浏览器不支持音频元素。

添加了环形调制器(30 Hz-25%)的音频样本


您的浏览器不支持音频元素。

添加了环形调制器(30 Hz-40%)的音频样本


您的浏览器不支持音频元素。

我们能够使用Anthropic的Claude生成的50行Python脚本生成音频效果。最著名的机器人声音之一是1960年代《神秘博士》中的达莱克的声音。当时,机器人声音很难合成,所以音频实际上是演员的声音通过环形调制器处理过的。它被设置为大约30 Hz,就像我们在示例中所做的那样,不同的调制深度(振幅)取决于机器人效果的强度。我们预计,AI行业将测试并收敛于这些参数和设置的良好平衡,并将使用比50行Python脚本更好的工具,但这突出了实现这一目标的简单性。

当然,AI声音也会被用于恶意目的。利用语音克隆进行的诈骗每年都在变得更容易,但只要有足够的专业知识,多年来一直都是可能的。就像我们正在了解我们不能再相信我们看到的图像和视频一样,因为它们很容易是AI生成的,我们很快就会了解到,一个听起来像家人的人紧急要求钱,可能只是一个使用语音克隆工具的骗子。

我们不希望骗子遵循我们的建议:无论如何,他们都会找到方法。但这对于安全标准来说一直都是如此,涨潮会抬升所有船只。我们认为,大多数用途将与来自主要公司的流行语音API相关联——每个人都应该知道他们是在与机器人交谈。

Share This Article
Email Copy Link Print
Previous Article AI赋能数据价值:2024年新突破
Next Article 20250130230214370.jpg 斯坦福大学推出AI工具STORM,轻松生成维基百科式报告
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
Installer 第108期封面
传奇游戏重磅回归:科技与流媒体时代的经典复兴
科技
2026年AI模型必备:四大顶尖网页抓取API深度评测与选型指南
大模型与工程化
星链设备在弗吉尼亚州乡村的户外场景
星链让我在任何地方都能“居家办公”——如今,我渴望改变
科技
谷歌眼镜产品图
谷歌眼镜的功与过:一场超前13年的科技预言与争议
科技

相关内容

20250518225349691.png
AI

LinkedIn: 大模型、LangChain 和 Jupyter 助力提示工程

2025年5月19日
作为Google产品,Gemini与YouTube、Gmail、Docs等Google服务深度整合,用戶可直接在這些應用中使用Gemini。
AI

Google Gemini 7大优势超越ChatGPT

2024年12月8日
Manus 1.5 技术架构图
Agent生态

Manus 1.5 版本深度测评:Agent能力全面提升,高效构建复杂AI应用

2025年10月17日
北京胡同入口全景
AI 前沿技术

Qwen3 Omni 的“全模态”:与多模态大模型的本质差异解析

2025年10月5日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up