谷歌 DeepMind 推出 AI 视频配音技术 为无声视频生成动态背景音乐

2024-06-19 09:06:19   |   弘乐   |   637

6月19日,谷歌旗下的人工智能实验室 DeepMind 宣布了一项突破性的“video-to-audio”技术,该技术利用 AI 模型为无声视频生成背景音乐,标志着视频音频合成领域的重大进展。

据铋读了解,DeepMind 的“video-to-audio”模型能够根据无声视频生成背景音乐和音效,尽管目前还需要用户提供提示词进行音效的预设。这一技术通过结合视频内容与用户提示词,实现视频与音频的动态匹配,为视频创作和多媒体制作提供了新的可能性。

其工作原理:

1. 视频拆解:首先,模型会将输入的无声视频进行拆解,提取视频画面的特征。

2. 提示词结合:用户提供文字提示,描述视频可能的声音或音效场景。例如,对于一条描述“在黑暗中行走”的视频,提示词可以是“电影、恐怖片、音乐、紧张、混凝土上的脚步声”。

3. 扩散模型生成:利用扩散模型,结合视频特征和提示词进行反复运算,最终生成与视频内容协调的背景音效。

这一技术使得 AI 能够在生成过程中自动调整音效,使其与视频中的场景、情绪和动作保持一致。例如,对于一段悬疑片段,AI 可以生成令人紧张的音乐和脚步声,以增强观众的观影体验。

当前,DeepMind 的模型依然存在一些局限性:提示词依赖:需要开发者输入提示词进行预设,不能完全独立生成音效。口型同步:尚无法精确同步视频中人物的对白和口型。展望未来,DeepMind 表示正在努力优化模型,使其能够直接根据视频内容生成背景音效,无需依赖提示词。此外,未来版本的模型还将提升对白同步的能力,确保音效与视频中的人物口型准确匹配。

这一技术的潜在应用范围广泛,包括但不限于,电影和视频制作:为无声视频自动生成背景音效,减少人工音效合成的成本和时间。游戏开发:动态生成游戏场景中的背景音乐和音效,提升玩家的沉浸感。虚拟现实和增强现实:增强沉浸式体验,通过动态音效提供更真实的互动感。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

谷歌 DeepMind 推出 AI 视频配音技术 为无声视频生成动态背景音乐

2024-06-19 09:06:19 浏览量: 637 作者: 弘乐

6月19日,谷歌旗下的人工智能实验室 DeepMind 宣布了一项突破性的“video-to-audio”技术,该技术利用 AI 模型为无声视频生成背景音乐,标志着视频音频合成领域的重大进展。

据铋读了解,DeepMind 的“video-to-audio”模型能够根据无声视频生成背景音乐和音效,尽管目前还需要用户提供提示词进行音效的预设。这一技术通过结合视频内容与用户提示词,实现视频与音频的动态匹配,为视频创作和多媒体制作提供了新的可能性。

其工作原理:

1. 视频拆解:首先,模型会将输入的无声视频进行拆解,提取视频画面的特征。

2. 提示词结合:用户提供文字提示,描述视频可能的声音或音效场景。例如,对于一条描述“在黑暗中行走”的视频,提示词可以是“电影、恐怖片、音乐、紧张、混凝土上的脚步声”。

3. 扩散模型生成:利用扩散模型,结合视频特征和提示词进行反复运算,最终生成与视频内容协调的背景音效。

这一技术使得 AI 能够在生成过程中自动调整音效,使其与视频中的场景、情绪和动作保持一致。例如,对于一段悬疑片段,AI 可以生成令人紧张的音乐和脚步声,以增强观众的观影体验。

当前,DeepMind 的模型依然存在一些局限性:提示词依赖:需要开发者输入提示词进行预设,不能完全独立生成音效。口型同步:尚无法精确同步视频中人物的对白和口型。展望未来,DeepMind 表示正在努力优化模型,使其能够直接根据视频内容生成背景音效,无需依赖提示词。此外,未来版本的模型还将提升对白同步的能力,确保音效与视频中的人物口型准确匹配。

这一技术的潜在应用范围广泛,包括但不限于,电影和视频制作:为无声视频自动生成背景音效,减少人工音效合成的成本和时间。游戏开发:动态生成游戏场景中的背景音乐和音效,提升玩家的沉浸感。虚拟现实和增强现实:增强沉浸式体验,通过动态音效提供更真实的互动感。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号