**NVIDIA 推出全新 AI 模型 Fugatto:声音的未来已来**
NVIDIA 近日发布了一款名为 Fugatto(全称为 Foundational Generative Audio Transformer Opus 1)的全新人工智能模型,它将音频生成技术推向了新的高度。Fugatto 不仅能够生成音乐和语音,还能将它们进行组合和转换,实现前所未有的音频创作自由。
Fugatto 的出现标志着音频生成和转换领域迈出了重要一步。NVIDIA 音频研究部门经理 Rafael Valle 表示,Fugatto 是未来音频技术发展的基石,未来,无监督多任务学习将从数据和模型规模中不断涌现。
世界上最灵活的聲音機器Fugatto首次亮相。(圖/NVIDIA)
Fugatto 的应用场景十分广泛。音乐制作人可以使用它快速制作声音原型或编辑歌曲构思,尝试各种风格、声音和乐器。广告公司可以快速针对不同地区或情境对配音进行调整,添加不同的口音和情感。游戏开发人员可以使用 Fugatto 修改游戏中的预先录制资产,以配合玩家的动作变化。甚至,语言学习工具也可以变得更加个性化,例如在线课程可以以任何家人或朋友的声音进行授课。
Fugatto 的独特之处在于它使用了名为 ComposableART 的技术,将只在训练期间单独出现的指令组合起来。例如,可以要求 Fugatto 用法语口音说出带有伤感语气的文字。Fugatto 在指令之间进行插值的能力,让用户可以对文字指令进行精细控制,例如控制口音的轻重或悲伤的程度。
Fugatto 的完整版本使用了 25 亿个参数,在配备 32 个 NVIDIA H100 Tensor 核心 GPU 的 NVIDIA DGX 系统上进行训练。Fugatto 的开发团队来自全球各地,包括印度、巴西、中国、约旦和韩国,这使得 Fugatto 能够生成多种口音和语言,进一步增强了其功能。
Fugatto 的出现预示着音频生成技术的未来,它将为音乐、游戏、广告、教育等多个领域带来革命性的变化。随着技术的不断发展,我们期待 Fugatto 在未来能够为我们带来更多惊喜。