谷歌 DeepMind 推出 AI 视频配音技术为无声视频生成动态背景音乐

2024-06-19 09:06:19 | 弘乐 | 641

6月19日，谷歌旗下的人工智能实验室 DeepMind 宣布了一项突破性的“video-to-audio”技术，该技术利用 AI 模型为无声视频生成背景音乐，标志着视频音频合成领域的重大进展。

据铋读了解，DeepMind 的“video-to-audio”模型能够根据无声视频生成背景音乐和音效，尽管目前还需要用户提供提示词进行音效的预设。这一技术通过结合视频内容与用户提示词，实现视频与音频的动态匹配，为视频创作和多媒体制作提供了新的可能性。

其工作原理：

1. 视频拆解：首先，模型会将输入的无声视频进行拆解，提取视频画面的特征。

2. 提示词结合：用户提供文字提示，描述视频可能的声音或音效场景。例如，对于一条描述“在黑暗中行走”的视频，提示词可以是“电影、恐怖片、音乐、紧张、混凝土上的脚步声”。

3. 扩散模型生成：利用扩散模型，结合视频特征和提示词进行反复运算，最终生成与视频内容协调的背景音效。

这一技术使得 AI 能够在生成过程中自动调整音效，使其与视频中的场景、情绪和动作保持一致。例如，对于一段悬疑片段，AI 可以生成令人紧张的音乐和脚步声，以增强观众的观影体验。

当前，DeepMind 的模型依然存在一些局限性：提示词依赖：需要开发者输入提示词进行预设，不能完全独立生成音效。口型同步：尚无法精确同步视频中人物的对白和口型。展望未来，DeepMind 表示正在努力优化模型，使其能够直接根据视频内容生成背景音效，无需依赖提示词。此外，未来版本的模型还将提升对白同步的能力，确保音效与视频中的人物口型准确匹配。

这一技术的潜在应用范围广泛，包括但不限于，电影和视频制作：为无声视频自动生成背景音效，减少人工音效合成的成本和时间。游戏开发：动态生成游戏场景中的背景音乐和音效，提升玩家的沉浸感。虚拟现实和增强现实：增强沉浸式体验，通过动态音效提供更真实的互动感。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。

谷歌 DeepMind 推出 AI 视频配音技术 为无声视频生成动态背景音乐

谷歌 DeepMind 推出 AI 视频配音技术为无声视频生成动态背景音乐