Google 发布 Gemini 3.5 Live Translate,这是其最新的音频模型,支持 70 多种语言的实时语音到语音翻译,能保留说话人的语调、节奏和音高。该模型通过 Gemini Live API、Google Meet 和 Google Translate 应用推出,并采用 SynthID 水印防止滥用。
二十年前,Google 翻译作为一项开创性的机器学习实验起步。如今,这项实验已发展为每月为数十亿用户翻译超过一万亿词。今天,Google 发布了 Gemini 3.5 Live Translate——最新用于实时语音翻译的音频模型。

该模型能自动检测 70 多种语言,生成流畅、自然的翻译语音,保留说话人的语调、节奏和音高。与逐轮等待的系统不同,3.5 Live Translate 持续生成语音,在等待上下文提高质量和立即翻译保持同步之间取得平衡。它消除了尴尬的停顿,始终仅落后说话人几秒。
Gemini 3.5 Live Translate 即日起在 Google 产品中逐步推出:
3.5 Live Translate 处理流式语音,实现跨语言无缝连接。模型处理多语言输入无需手动设置,其噪声鲁棒性确保能在嘈杂环境中工作。开发者可利用它实现多语言通话、会议、课程、广播等场景的实时口译。
通过 Gemini Live API,Agora、Fishjam、LiveKit、Pipecat 和 Vision Agents 等平台已集成,让开发者轻松构建语音翻译应用。
合作伙伴 Grab 正在测试该模型,实现司机与乘客之间接近实时的多语言沟通。Grab 用户每月通过该平台拨打超过 1000 万次语音电话。
CJ ENM、LiveKit 等公司对 3.5 Live Translate 的翻译质量、准确性和低延迟给予了积极评价。
Google Meet 中的 语音翻译 将很快采用 3.5 Live Translate,改进包括:支持 70+ 种语言(此前仅 5 种)、支持超过 2000 种语言组合(此前仅限英语双向)、更新界面提供即时访问。本月起面向部分 Google Workspace 企业客户私有预览,今年晚些时候更广泛推出。
该模型同时在 Android 和 iOS 的 Google Translate 应用中全球推出。使用实时翻译功能时,连接耳机即可体验保留说话人语调的多语言翻译。
Android 用户还将获得新的“听译模式”,将手机贴近耳朵即可通过听筒听到翻译,无需耳机,适合快速私密翻译场景。
模型生成的所有音频均采用 SynthID 水印,确保 AI 生成内容可被检测,防止误导信息。详情请查阅 模型卡片。
原文链接:Google DeepMind
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断