輝達新AI模型Fugatto：用文字定制语音口音

**NVIDIA 推出全新 AI 模型 Fugatto：声音的未来已来**

NVIDIA 近日发布了一款名为 Fugatto（全称为 Foundational Generative Audio Transformer Opus 1）的全新人工智能模型，它将音频生成技术推向了新的高度。Fugatto 不仅能够生成音乐和语音，还能将它们进行组合和转换，实现前所未有的音频创作自由。

Fugatto 的出现标志着音频生成和转换领域迈出了重要一步。NVIDIA 音频研究部门经理 Rafael Valle 表示，Fugatto 是未来音频技术发展的基石，未来，无监督多任务学习将从数据和模型规模中不断涌现。

世界上最灵活的聲音機器Fugatto首次亮相。(圖/NVIDIA)

Fugatto 的应用场景十分广泛。音乐制作人可以使用它快速制作声音原型或编辑歌曲构思，尝试各种风格、声音和乐器。广告公司可以快速针对不同地区或情境对配音进行调整，添加不同的口音和情感。游戏开发人员可以使用 Fugatto 修改游戏中的预先录制资产，以配合玩家的动作变化。甚至，语言学习工具也可以变得更加个性化，例如在线课程可以以任何家人或朋友的声音进行授课。

Fugatto 的独特之处在于它使用了名为 ComposableART 的技术，将只在训练期间单独出现的指令组合起来。例如，可以要求 Fugatto 用法语口音说出带有伤感语气的文字。Fugatto 在指令之间进行插值的能力，让用户可以对文字指令进行精细控制，例如控制口音的轻重或悲伤的程度。

Fugatto 的完整版本使用了 25 亿个参数，在配备 32 个 NVIDIA H100 Tensor 核心 GPU 的 NVIDIA DGX 系统上进行训练。Fugatto 的开发团队来自全球各地，包括印度、巴西、中国、约旦和韩国，这使得 Fugatto 能够生成多种口音和语言，进一步增强了其功能。

Fugatto 的出现预示着音频生成技术的未来，它将为音乐、游戏、广告、教育等多个领域带来革命性的变化。随着技术的不断发展，我们期待 Fugatto 在未来能够为我们带来更多惊喜。

輝達新AI模型Fugatto：用文字定制语音口音

发表回复取消回复

最新内容

《亚洲水发展展望2025》深度解读：亚太水安全喜忧参半，未来挑战何在？

谷歌支付6800万美元和解语音助手监听诉讼，你的隐私可能被“误触发”录音

甲骨文豪掷500亿美元押注AI基建，美国数据中心版图加速扩张

OpenAI总裁豪掷2500万美元支持特朗普，科技巨头与政坛的深度捆绑引关注

相关内容

谷歌推出AI编码助手“Jules”，助力自动修复错误，加速开发周期

AI 助力危机辅导青少年

英伟达发布Project Digits个人AI超级计算机

Anthropic Agent代码执行新范式：Token消耗暴降98.7%，实现AI效率革命

分类

快速链接

You Might Also Like

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复