NVIDIA 推出 Fugatto 可以根据文本提示创建音频

2024-11-26 10:08:48 | 微观猎人 | 2745

11月26日，据报道，NVIDIA 宣布推出一款名为 Foundational Generative Audio Transformer Opus 1（简称 Fugatto）的实验性生成式 AI 模型。被称为“声音的瑞士军刀”，Fugatto 能够从文本提示生成音频内容，也可以对现有的音乐、语音和声音文件进行高精度修改。目前，NVIDIA 尚未透露是否会向公众开放 Fugatto，或何时推出商业版本。

据报道，Fugatto 由全球顶尖 AI 研究人员团队共同开发，具备强大的多语言和多口音能力。NVIDIA 应用音频研究经理 Rafael Valle 表示，该项目的目标是“创建一个能够像人类一样理解和生成声音的模型”。

该模型不仅可以生成逼真的声音，还能根据上下文和预训练指令完成复杂的音频任务。例如，它可以生成具有特定口音的情绪化语音，或模拟大自然中动态变化的声音场景，例如暴雨穿越地面的冲击声。

NVIDIA 在公告中列举了 Fugatto 的多种潜在应用场景。Fugatto 可以帮助音乐制作人快速生成歌曲原型，从而节省创作时间。用户还能尝试不同的风格、声音和乐器，探索新的创作方向。Fugatto 还能够根据用户需求，用特定声音生成学习材料，为语言学习和其他教育工具提供个性化支持。游戏开发者可利用 Fugatto 为游戏中的音效生成多种变体，根据玩家选择和游戏情境调整音频表现，增强沉浸式体验。Fugatto 的设计使其在经过微调后，能够完成超出预训练任务的复杂需求，例如结合多种音效生成自然音景或特殊场景的音频。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。