Meta 刚刚发布了一款全新的 AI 模型,能够实现 101 种语言之间的语音翻译。这标志着实时、同步翻译迈出了重要一步,未来人们的言语将能够在脱口而出的瞬间被翻译成其他语言。
传统的语音翻译模型通常采用多步骤方法。首先将语音转换为文本,然后将文本翻译成另一种语言的文本,最后将翻译后的文本转换成目标语言的语音。这种方法效率低下,而且在每个步骤中都可能出现错误和误译。而 Meta 的新模型 SeamlessM4T 则能够更直接地将一种语言的语音翻译成另一种语言的语音。该模型的详细介绍已于今日发表在《自然》杂志上。
Seamless 在文本翻译方面比现有顶级模型的准确率高出 23%。虽然 Google 的 AudioPaLM 模型在理论上可以翻译更多语言(113 种,而 Seamless 为 101 种),但它只能将这些语言翻译成英语。SeamlessM4T 则可以翻译成 36 种其他语言。
SeamlessM4T 的关键在于一种名为“平行数据挖掘”的技术,该技术能够从网络数据中找到视频或音频中的声音与另一种语言字幕相匹配的实例。模型学习将一种语言中的声音与另一种语言中匹配的文本片段关联起来。这为模型提供了大量新的翻译示例。
“Meta 在支持多种功能方面做得非常出色,例如文本转语音、语音转文本,甚至自动语音识别,”昆尼皮亚克大学计算机科学教授 Chetan Jaiswal 表示,“他们支持的语言数量之多是一个巨大的成就。”
研究人员在论文中指出,人类翻译仍然是翻译过程中的重要组成部分,因为他们能够处理不同的文化语境,并确保相同的意思能够从一种语言传达给另一种语言。魁北克拉瓦尔大学翻译、技术与社会加拿大研究主席 Lynne Bowker 表示,这一步非常重要,“语言是文化的反映,而不同的文化有自己独特的认知方式。”
Bowker 补充道,在医学或法律等应用领域,机器翻译需要经过人工仔细检查。否则,可能会导致误解。例如,2021 年 1 月,当 Google 翻译被用来将弗吉尼亚州卫生部门关于新冠疫苗的公共卫生信息从英语翻译成西班牙语时,它将英语中的“非强制性”翻译成了西班牙语中的“非必要”,改变了整个信息的含义。
一些语言的 AI 模型训练数据比其他语言多得多。这意味着目前的语音转语音模型可能能够将希腊语翻译成英语(因为可能存在大量示例),但无法将斯瓦希里语翻译成希腊语。Seamless 背后的团队旨在通过在不同语言的数百万小时口语音频上预训练模型来解决这个问题。这种预训练使模型能够识别语言中的通用模式,从而更容易处理不太常用的语言,因为它已经对口语应该听起来的样子有一定的基础了解。
该系统是开源的,研究人员希望这将鼓励其他人在其现有功能的基础上进行构建。但有些人对它与现有替代方案相比的实用性持怀疑态度。“Google 的翻译模型不像 Seamless 那样开源,但它响应速度更快,而且对于学术界来说是免费的,”Jaiswal 表示。
Meta 系统最令人兴奋之处在于它预示着在不久的将来实现跨语言即时翻译的可能性,就像道格拉斯·亚当斯在科幻小说《银河系漫游指南》中提到的巴别鱼一样。SeamlessM4T 比现有模型更快,但仍然不是即时的。尽管如此,Meta 声称他们拥有一个更新版本的 Seamless,其速度与人类口译员一样快。
“虽然这种延迟翻译是可以接受的,而且很有用,但我认为同步翻译会更有用,”德克萨斯大学阿灵顿分校阿灵顿计算语言学实验室主任 Kenny Zhu 表示,他与这项新研究无关。