Nvidia 推出“声音瑞士刀”:Fugatto 模型,AI 赋能音乐创作新纪元
从电吉他与效果器赋予摇滚乐灵魂,到采样器引领嘻哈时代,音乐与科技的融合从未停止。如今,Nvidia 推出的 Fugatto 模型,将这一趋势推向新的高度。它能够通过模型训练和推理,改变声音之间的任何组合,甚至合成前所未有的声音,有望成为下一个划时代的“科技乐器”。
Fugatto,全称为“Foundational Generative Audio Transformer Opus 1”,融合了语音建模、音频编码和解析工程。它能够将文字描述转化为音频,实现对声音的定制化创作。不同于其他 AI 模型只能创作歌曲或修改声音,Fugatto 拥有更高的自由度和灵活性,因此被称为“声音瑞士刀”。
Fugatto 拥有超过 25 亿个参数,经过数百万个音频样本的训练,并在 NVIDIA DGX 系统上进行训练。它还整合了来自世界各地专业人士的训练数据,包括印度、中国、韩国和美国等,增强了对多语言和口音的识别能力。
Fugatto 的“Composable ART”系统,能够通过“条件设定”,对文字指令进行精细控制,包括重音、口音、语调、情绪表达的程度,甚至让音效随时间产生区域性变化。例如,模拟暴风雨穿过的雷声,逐渐增强某区域的声音,然后消失在某个地方。
传统音乐创作中,我们通过采样将真实世界的声音进行调校和处理,并将其融入音乐作品。然而,Fugatto 允许用户创造前所未有的声音景观,例如雷暴逐渐进入黎明,伴随着鸟儿的歌声。这将彻底改变音乐创作的边界,开启音乐真正百花齐放的时代。
Fugatto 的出现,意味着音乐创作将被重新定义,未来音乐的编曲和风格将更加多元化。它将为音乐家和创作者提供无限的可能性,推动音乐创作进入一个全新的时代。