Speechmatics 推动英语口音识别

Speechmatics 推动英语口音识别
来源:Getty Images

在过去的几年里,随着智能扬声器和驾驶辅助模式的兴起,语音识别已经从方便变得至关重要——但并不是每个人的声音都能得到同样的识别。 Speechmatics 声称拥有最全面和最准确的模型,在最常见的美国口音之外的语音方面击败了亚马逊、谷歌和其他公司。

该公司解释说,它在 2019 年斯坦福大学一项题为“语音识别的种族差异”的研究中被引导到了准确性问题上,该研究正是发现了这一点。来自亚马逊、苹果、谷歌、IBM 和微软的语音引擎“表现出巨大的种族差异,黑人说话者的平均单词错误率 (WER) 为 0.35,而白人说话者为 0.19。”不是很好!

这种差异的根源可能部分归因于用于训练这些系统的数据集缺乏多样性。毕竟,如果数据中的黑人说话者很少,模型也不会学习这些语音模式。对于具有其他口音、方言等的演讲者来说也是如此——美国(更不用说英国)到处都是口音,任何声称为“所有人”提供服务的公司都应该意识到这一点。

无论如何,总部位于英国的 Speechmatics 将准确转录英语口音作为其最新模型的优先事项,并声称已将其他模型吹出水面。基于斯坦福研究中使用的相同数据集(但使用最新版本的语音软件),“与谷歌(68.7%)和亚马逊(68.6%)相比,Speechmatics 记录的非裔美国人语音的总体准确率为 82.8%, ”该公司在其新闻稿中写道。

该公司将这一成功归功于创建语音识别模型的一种相对较新的方法。传统上,机器学习系统提供有标记的数据——想想带有元数据的语音音频文件或包含所说内容的文本文件,通常由人工转录和检查。对于猫检测算法,您将有图像和数据说明哪些包含猫,猫在每张图片中的位置,等等。这是监督学习,其中模型学习两种形式的准备数据之间的相关性。

Speechmatics 使用自监督学习,这种方法近年来随着数据集、学习效率和计算能力的增长而大行其道。除了标记数据,它还使用原始的、未标记的数据以及更多的数据,在更少的指导下建立自己对语音的“理解”。

在这种情况下,该模型基于大约 30,000 小时的标记数据以获得某种基本的理解水平,然后输入来自 YouTube、播客和其他内容的 110 万小时公开可用音频。这种类型的集合有点灰色地带,因为没有人明确同意将他们的播客用于训练某人的商业语音识别引擎。但它被很多人用这种方式,就像“整个互联网”被用来训练 OpenAI 的 GPT-3 一样,可能包括我自己的数千篇文章。 (虽然它还没有掌握我独特的声音。)

除了提高美国黑人说话者的准确性外,Speechmatics 模型还声称可以为儿童提供更好的转录(准确率约为 92%,而 Google 和 Deepgram 的准确率约为 83%),并且在英语方面有微小但显着的改进,包括来自世界各地的口音:印度、菲律宾、南部非洲人和许多其他人——甚至是苏格兰人。

它们支持数十种其他语言,并且在其中许多语言中也具有竞争力;这不仅仅是一个英语识别模型,而且考虑到该语言被用作通用语言(如今是一种非常不恰当的成语),口音对其尤为重要。

Speechmatics 在它引用的指标上可能领先,但 AI 世界的发展速度非常快,我不会对明年进一步跨越式发展感到惊讶。例如,谷歌正在努力确保其引擎为有语言障碍的人服务。包容性是当今所有人工智能工作的重要组成部分,很高兴看到公司试图在其中超越对方。

本文来自互联网,不代表前途科技立场,如若转载,请注明出处:https://accesspath.com/tech/5692580/

(0)
NEXTECH的头像NEXTECH
上一篇 2021年10月28日 下午12:57
下一篇 2021年10月28日 下午1:12

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注