Meta 推出的 Voicebox AI 可以复制你的朋友和亲人的声音
随着AI 聊天机器人和艺术生成器似乎越来越受欢迎,近日,Meta刚刚推出了Voicebox,这是一种文本引导的 人工智能语音生成器,功能非常强大,以至于该公司声称其性能优于所有现有模型。
Voicebox 足够强大,可以像ChatGPT可以生成文本和Bing 或 Dall-E 2可以创建图像一样轻松地生成语音。尽管该系统尚未广泛供公众使用,但 Meta 已 为任何有兴趣了解更多有关 Voicebox 的人 提供演示。该系统可用于内容创作者和编辑者的音频编辑,例如,因为它的语音生成可以产生听起来自然的音频剪辑。但它的用途非常广泛,可以智能地编辑语音片段中的噪音,例如狗叫声,并在不丢失节拍的情况下重新生成声音。Voicebox 提供的功能之一是它可以匹配样本的音频风格并生成文本到语音剪辑。从本质上讲,视障用户可以给 Voicebox 一个朋友的音频片段,最短两秒,它就可以使用 AI 以朋友的声音阅读朋友的书面信息。
新的生成式 AI工具可以通过上下文学习来解决任务,因此它可以处理以前从未提供过的文本,并正确地生成上下文和词形变化,就像一个人通过使用现有知识阅读它来学习和应对新挑战一样。这个开创性工具的伦理和法律影响不容忽视。任何人都可以在未经许可的情况下使用某人的录音制作音频剪辑,并声称可以让他们说出他们想说的任何话。在发表的论文中,Meta 声称二元分类模型可以区分真实世界的语音和 Voicebox 生成的语音。不管怎样,由于该系统不是公开可用的,Meta 的比喻性的脚还没有被火烧掉。
Meta 在 60,000 小时的英语有声读物和 50,000 小时的六种语言多语言有声读物上训练了 Voicebox 以获得最佳性能。它的训练使其能够执行多语言文本到语音而无需训练、语音降噪、样式化、编辑和生成不同的语音样本。
在 Meta AI 发表的一篇论文中,该公司声称它可以比微软的VALL-E快 20 倍并且更易理解地 生成多样化的音频样本。除了比竞争对手更快和更少的错误外,Meta 声称 Voicebox 可以将书面文本转换为一种或多种语言的口语,而无需分别针对每种语言进行专门培训。与之前最先进的模型YourTTS相比,Voicebox 被发现将平均单词错误率从 10.9% 降低到 5.2%,并将音频相似度从 0.335 提高到 0.481。