人工智能语音助手正迎来爆发式增长,苹果、OpenAI 等科技巨头纷纷推出新一代 AI 驱动的语音助手。然而,这些助手的默认语音往往是白人美国口音,偶尔是英国口音,但几乎都是英语。它们只代表了英语语言中众多方言和口音中的一小部分,而英语涵盖了众多地区和文化。对于全球数十亿非英语使用者来说,这些工具在其他语言中的表现并不理想。
造成这种现象的原因是训练这些模型的数据有限。在 AI 研究中,用于训练模型的大多数数据都来自英语互联网,反映了盎格鲁-美国文化。但为了改变这种现状,让 AI 的声音更加多元化和透明,一场由民间发起的运动正在蓬勃发展,那就是 Mozilla 的 Common Voice 项目。
Common Voice 项目在过去七年中创建的数据集是构建语音 AI 的宝贵资源之一。随着当前 AI 热潮的兴起,该数据集的下载量大幅增加,最近突破了 500 万次,而 2020 年仅为 38,500 次。创建这个数据集并非易事,主要是因为数据收集依赖于庞大的志愿者队伍。志愿者人数也大幅增加,从 2020 年的不到 50 万人增加到 2024 年的 90 多万人。但一些社区成员认为,Mozilla 通过免费提供数据,实际上是在鼓励志愿者为科技巨头免费劳动。
自 2017 年以来,Common Voice 项目的志愿者已收集了约 180 种语言的 31,000 小时语音数据,涵盖了俄语、加泰罗尼亚语、马拉地语等多种语言。如果您使用过音频 AI 服务,那么它很可能至少部分地接受过 Common Voice 的训练。
Mozilla 的目标是崇高的。随着 AI 越来越深入地融入我们的生活和交流方式,我们与之交互的工具听起来更像我们自己变得越来越重要。这项技术可以打破沟通障碍,并以一种引人入胜的方式向例如无法阅读的人传递信息。但过分关注英语可能会加剧新的殖民世界秩序,并最终导致语言的消失。
“如果我们最终没有创建真正多模态、多语言、高性能的翻译模型,而是让所有人都使用英语或法语,那将是多么大的失误。”Common Voice 项目主管 EM Lewis-Jong 说道。
Common Voice 是开源的,这意味着任何人都可以查看数据集的内容,并且用户可以免费使用它做任何事情。这种透明度在 AI 数据治理中并不常见。根据华盛顿大学、卡内基梅隆大学和西北大学的研究团队的研究,大多数大型音频数据集并不公开,其中许多数据集包含从 YouTube 等网站上抓取的数据。
绝大多数语言数据都是由志愿者收集的,例如来自土耳其的研究人员 Bülent Özden。自 2020 年以来,他不仅贡献了自己的声音,还积极宣传该项目,鼓励更多人参与。他最近花了两个月的时间全职校对数据,检查土耳其语中的错别字。对他来说,改进 AI 模型并不是他参与这项工作的唯一动力。
“我这样做是为了保护文化,尤其是资源匮乏的语言,”Özden 说。他告诉我,他最近开始收集土耳其语中一些小语种的样本,例如切尔克斯语和扎扎语。
然而,当我深入研究数据集时,我发现语言和口音的覆盖范围非常不均衡。芬兰语只有 231 人贡献了 22 小时的语音数据。相比之下,数据集包含 94,665 人贡献的 3,554 小时的英语数据。一些语言,例如韩语和旁遮普语,甚至更少。尽管它们拥有数千万使用者,但它们只占录制数据的几小时。
Lewis-Jong 说,这种不平衡现象的出现是因为数据收集工作是由语言社区本身自下而上发起的。
“我们试图为社区提供他们创建自己的 AI 训练数据集所需的资源。我们特别关注为那些没有数据或大型科技公司可能不太感兴趣创建数据集的语言社区提供支持,”Lewis-Jong 说。他们希望在志愿者和各种拨款的帮助下,Common Voice 数据集将在今年年底前包含近 200 种语言。
Common Voice 的宽松许可意味着许多公司依赖它,例如瑞典初创公司 Mabel AI,该公司为医疗保健提供者构建翻译工具。该公司使用的第一批语言之一是乌克兰语;该公司构建了一个翻译工具,帮助乌克兰难民与瑞典社会服务机构进行交流,Mabel AI 的创始人兼首席执行官 Karolina Sjöberg 说。该团队此后已扩展到其他语言,例如阿拉伯语和俄语。
许多其他音频数据的问题在于,它们包含人们朗读书籍或文本的声音。Sjöberg 说,结果与人们的真实说话方式大相径庭,尤其是在他们感到痛苦或疼痛的时候。由于任何人都可以向 Common Voice 提交句子供其他人朗读,因此 Mozilla 的数据集也包含更口语化、更自然的句子,她说。
但这并不意味着它完全具有代表性。Mabel AI 团队很快发现,他们需要的语言中大多数语音数据都是由年轻男性贡献的,这在该数据集中相当普遍。
“我们打算使用该应用程序的难民与年轻男性完全不同,”Sjöberg 说。“这意味着我们需要的语音数据与我们拥有的语音数据并不完全匹配。”该团队开始从乌克兰女性以及老年人那里收集自己的语音数据。
与其他数据集不同,Common Voice 要求参与者分享他们的性别和口音信息。Common Voice 研究员 Rebecca Ryakitimbo 说,确保不同性别得到代表对于对抗 AI 模型中的偏见至关重要,她创建了该项目的性别行动计划。更多元化不仅可以带来更好的代表性,还可以带来更好的模型。在狭窄和同质数据上训练的系统往往会产生刻板印象和有害的结果。
“我们不希望出现这种情况:我们有一个以女性名字命名的聊天机器人,但它对女性的反应与对男性的反应不同,”她说。
Ryakitimbo 在坦桑尼亚、肯尼亚和刚果民主共和国收集了斯瓦希里语语音数据。她告诉我,她希望从社会经济背景多元的斯瓦希里语使用者那里收集声音,并已联系到居住在农村地区的年轻和年长的女性,她们可能并不总是识字,甚至可能无法使用设备。
这种数据收集工作充满挑战。收集 AI 语音数据的重要性对许多人来说可能感觉很抽象,尤其是那些不熟悉这些技术的人。Ryakitimbo 和志愿者会在他们感到安全的环境中与女性接触,例如关于月经卫生的演讲,并解释这项技术如何可以帮助传播有关月经的信息。对于那些不识字的女性,团队会朗读她们要重复的句子进行录音。
Common Voice 项目的动力源于人们对语言作为身份重要组成部分的信念。“我们认为这不仅仅是语言,而是关于传播文化和遗产,珍惜人们独特的文化背景,”Lewis-Jong 说。“有各种各样的习语和文化口头禅是无法翻译的,”他们补充道。
Common Voice 是唯一一个英语不占主导地位的音频数据集,卡内基梅隆大学研究员 Willie Agnew 说,他研究过音频数据集。“我对他们在这方面做得有多好以及他们创建的数据集实际上有多么多元化印象深刻,”Agnew 说。“感觉他们远远领先于我们研究过的几乎所有其他项目。”
我在 Common Voice 平台上花了一些时间验证其他芬兰语使用者的录音。当他们的声音在我的书房里回荡时,我感到意外的感动。我们都围绕着同一个目标而聚集:让 AI 数据更加包容,并确保我们的文化和语言在下一代 AI 工具中得到恰当的体现。
但我对如果我捐赠了我的声音会发生什么有一些疑问。一旦它进入数据集,我就无法控制它之后如何使用。科技行业并不以给予人们适当的认可而闻名,而且数据可以供任何人使用。
“尽管我们希望它能造福当地社区,但也有可能科技巨头会利用相同的数据构建一些东西,然后将其作为商业产品推出,”Ryakitimbo 说。虽然 Mozilla 不会分享谁下载了 Common Voice,但 Lewis-Jong 告诉我,Meta 和 Nvidia 已经表示他们使用了它。
卡内基梅隆大学研究员 Harry H. Jiang 说,对这些来之不易且稀有的语言数据的开放访问并非所有少数民族群体都想要,他是该团队进行审计研究的一部分。例如,土著群体对此表示担忧。
“掠夺”是 Mozilla 在过去 18 个月里一直在思考的问题,Lewis-Jong 说。今年晚些时候,该项目将与社区合作,试点使用其他许可证,包括 Nwulite Obodo Open Data License,该许可证由比勒陀利亚大学的研究人员创建,用于更公平地共享非洲数据集。例如,想要下载数据的人可能需要写一份请求,详细说明他们计划如何使用它,并且他们可能只被允许将其用于某些产品或有限的时间。用户也可能被要求为支持减贫的社区项目做出贡献,Lewis-Jong 说。
Lewis-Jong 说,试点是一个学习过程,旨在探索人们是否想要使用其他许可证的数据,以及这些许可证是否对管理它们的社区来说是可持续的。希望它能带来类似于“开源 2.0”的东西。
最后,我决定捐赠我的声音。我收到了一份要说的短语列表,坐在电脑前,点击了“录制”。我希望有一天,我的努力能帮助一家公司或研究人员构建听起来不那么通俗,更像我的语音 AI。
此故事已更新。