语音智能新纪元:Gladia 获 1600 万美元融资,打造实时多语言语音转文字引擎
在人工智能浪潮席卷全球的当下,语音识别技术正以前所未有的速度发展,为各行各业带来革新。而来自法国巴黎的 AI 语音转文字和音频智能提供商 Gladia 近日宣布获得 1600 万美元融资,将用于开发端到端的音频基础设施,其中包括一个全新的实时语音转文字和分析引擎。
Gladia 的目标是为语音优先平台提供更强大的跨语言支持,让用户能够在不同语言环境下无缝体验语音交互的便利。这无疑是对 Otter.ai、Fireflies.ai 等竞争对手的强有力挑战,也为 AI 语音转文字领域注入了新的活力。
Gladia 的创始人兼 CEO Jean-Louis Quéguiner 在接受 VentureBeat 采访时表示,他创办公司的初衷源于自身经历。“我的法语口音很重,在使用英语语音转文字服务时经常遇到识别错误,这让我感到非常沮丧。” Quéguiner 解释道,“因此,我决定创办 Gladia,致力于解决这一问题。”
在演示中,Gladia 的 AI 语音转文字引擎实时准确地识别了 Quéguiner 带有浓重法语口音的英语,这与其他语音转文字服务相比有着显著的优势。此外,该引擎还能够在不同语言之间无缝切换,为用户提供更加灵活便捷的体验。
本轮融资由 XAnge 领投,Illuminate Financial、XTX Ventures、Athletico Ventures、Gaingels、Mana Ventures、Motier Ventures、Roosh Ventures 和 Soma Capital 等机构跟投。Gladia 成立于 2022 年,此前已获得来自 New Wave、红杉资本、Cocoa 和 GFC 等机构的种子轮融资,总计 2030 万美元。近期,Gladia 还入选了 AWS 生成式 AI 加速器计划。
XAnge 合伙人 Alexis du Peloux 在一份声明中表示:“Gladia 代表了我们在 XAnge 倡导的品质:一个大胆、全球化的科技团队,站在 AI 创新的前沿,拥有经过验证的商业模式,能够在各个行业解锁新的机遇。在快速发展的 AI 环境中,Jean-Louis Quéguiner 和他的团队执行得非常出色,我们很自豪能够在 A 轮融资中支持 Gladia。”
目前,大多数语音识别模型主要基于英语音频数据进行训练,因此存在固有的偏见。Gladia 优先开发了首个真正多语言的实时产品,旨在打破这一局限。
Gladia 新推出的微调引擎支持超过 100 种语言的实时语音转文字,并增强了对口音的支持,能够根据需要动态适应不同的语言。此外,该引擎还能够实时提取通话中的关键信息,例如通话者的情绪、关键信息和对话摘要,这使得 Gladia 能够在不到一秒的时间内生成通话或会议的转文字和洞察。
Gladia 创始人 Jonathan Soto(左)和 Jean-Louis Quéguiner。
构建一个准确、低延迟、多语言的引擎需要大量的资源和专业知识,包括语言理解、实时数据处理以及持续优化和维护。实时模型需要更高的计算能力,并且由于上下文有限,可能难以立即生成准确的输出。
Gladia 的新产品帮助企业克服了这些挑战。该实时语音转文字引擎的延迟低于 300 毫秒,同时保持了高精度,无论使用何种语言、地理位置或技术栈。
Gladia 首席技术官 Jonathan Soto 在一份声明中表示:“企业正在花费大量时间和资源,试图将多个 AI 功能整合到其现有平台中。我们的单一 API 与所有现有技术栈和协议兼容,包括 SIP、VoIP、FreeSwitch 和 Asterisk。这使我们能够轻松地将实时语音转文字和分析功能集成到客户的 AI 平台中,从而使他们能够专注于为最终用户提供最佳服务。”
Gladia 的第一个异步语音转文字和音频智能 API 于 2023 年 6 月推出,基于 Whisper ASR 的专有版本。该 API 在企业市场迅速获得认可,尤其是在会议记录和笔记助手领域。目前,该 API 已被全球超过 600 家客户采用,包括 Attention、Circleback、Method Financial、Recall、Sana 和 VEED.IO,拥有超过 70,000 名用户。
Quéguiner 表示:“Gladia 的技术使需要尖端实时语音转文字的垂直市场企业,例如销售赋能和联络中心平台,能够从手动通话后处理无缝过渡到主动、低延迟的工作流程。无论是自动化的 CRM 丰富,还是实时指导支持代理,Gladia 都旨在帮助企业以创纪录的速度更智能、更高效地运营,而无需内部 AI 专业知识。”
Gladia 将利用新获得的资金推动其研发工作,并很快推出一个面向音频的一站式 AI 工具包,并通过额外的点菜模型扩展其产品,包括大型语言模型 (LLM) 和检索增强生成 (RAG)。该公司目前正在与联络中心即服务 (CCaaS) 领域的多个设计合作伙伴合作,试点由 Gladia 实时 AI 引擎驱动的代理辅助解决方案。此外,Gladia 将继续扩大其人才队伍,为国际扩张做好准备。
“我们是多语言的,我们有一个叫做‘代码切换’的功能,这使我们独一无二。” Quéguiner 说。“你可以从一种语言开始,然后切换到另一种语言。”
他接着向我展示了,他可以从英语开始通话并启动转文字。然后他说了几句法语,模型正确地将其翻译成法语。
“请记住,[其他人]现在不是实时的,而这个是实时的。” 他说。“通常,实时性会稍微降低准确性。你也可以在实时模式下拥有自己的自定义词汇,这在我们这里非常罕见。我们有能力提取一些实时洞察。”
该服务有一个 AI 摘要器,并且将在未来几个月内提供新的可选功能。Quéguiner 说,他的服务还可以正确识别缩略语并检测到语言切换。
“我们使用的模型与 LLM(大型语言模型)非常相似。它没有代码解码器架构,而 Fireflies 等大多数模型则没有。”
Quéguiner 说,市场包括“会议记录器”。结果可以传递给实时洞察,这可以帮助销售主管更快地达成交易。
该公司还与呼叫中心合作,通过更高的准确性,使他们在通话时的完成时间缩短了 30%。该公司将收取固定费用,例如每小时定价。