NVIDIA 推出 Fugatto 可以根据文本提示创建音频
11月26日,据报道,NVIDIA 宣布推出一款名为 Foundational Generative Audio Transformer Opus 1(简称 Fugatto)的实验性生成式 AI 模型。被称为“声音的瑞士军刀”,Fugatto 能够从文本提示生成音频内容,也可以对现有的音乐、语音和声音文件进行高精度修改。目前,NVIDIA 尚未透露是否会向公众开放 Fugatto,或何时推出商业版本。
据报道,Fugatto 由全球顶尖 AI 研究人员团队共同开发,具备强大的 多语言和多口音能力。NVIDIA 应用音频研究经理 Rafael Valle 表示,该项目的目标是“创建一个能够像人类一样理解和生成声音的模型”。
该模型不仅可以生成逼真的声音,还能根据上下文和预训练指令完成复杂的音频任务。例如,它可以生成具有特定口音的情绪化语音,或模拟大自然中动态变化的声音场景,例如暴雨穿越地面的冲击声。
NVIDIA 在公告中列举了 Fugatto 的多种潜在应用场景。Fugatto 可以帮助音乐制作人快速生成歌曲原型,从而节省创作时间。用户还能尝试不同的风格、声音和乐器,探索新的创作方向。Fugatto 还能够根据用户需求,用特定声音生成学习材料,为语言学习和其他教育工具提供个性化支持。游戏开发者可利用 Fugatto 为游戏中的音效生成多种变体,根据玩家选择和游戏情境调整音频表现,增强沉浸式体验。Fugatto 的设计使其在经过微调后,能够完成超出预训练任务的复杂需求,例如结合多种音效生成自然音景或特殊场景的音频。