谷歌 DeepMind 推出 AI 视频配音技术 为无声视频生成动态背景音乐
6月19日,谷歌旗下的人工智能实验室 DeepMind 宣布了一项突破性的“video-to-audio”技术,该技术利用 AI 模型为无声视频生成背景音乐,标志着视频音频合成领域的重大进展。
据铋读了解,DeepMind 的“video-to-audio”模型能够根据无声视频生成背景音乐和音效,尽管目前还需要用户提供提示词进行音效的预设。这一技术通过结合视频内容与用户提示词,实现视频与音频的动态匹配,为视频创作和多媒体制作提供了新的可能性。
其工作原理:
1. 视频拆解:首先,模型会将输入的无声视频进行拆解,提取视频画面的特征。
2. 提示词结合:用户提供文字提示,描述视频可能的声音或音效场景。例如,对于一条描述“在黑暗中行走”的视频,提示词可以是“电影、恐怖片、音乐、紧张、混凝土上的脚步声”。
3. 扩散模型生成:利用扩散模型,结合视频特征和提示词进行反复运算,最终生成与视频内容协调的背景音效。
这一技术使得 AI 能够在生成过程中自动调整音效,使其与视频中的场景、情绪和动作保持一致。例如,对于一段悬疑片段,AI 可以生成令人紧张的音乐和脚步声,以增强观众的观影体验。
当前,DeepMind 的模型依然存在一些局限性:提示词依赖:需要开发者输入提示词进行预设,不能完全独立生成音效。口型同步:尚无法精确同步视频中人物的对白和口型。展望未来,DeepMind 表示正在努力优化模型,使其能够直接根据视频内容生成背景音效,无需依赖提示词。此外,未来版本的模型还将提升对白同步的能力,确保音效与视频中的人物口型准确匹配。
这一技术的潜在应用范围广泛,包括但不限于,电影和视频制作:为无声视频自动生成背景音效,减少人工音效合成的成本和时间。游戏开发:动态生成游戏场景中的背景音乐和音效,提升玩家的沉浸感。虚拟现实和增强现实:增强沉浸式体验,通过动态音效提供更真实的互动感。