Meta 推出的 Voicebox AI 可以复制你的朋友和亲人的声音

2023-06-20 09:07:00 | | 13

随着AI 聊天机器人和艺术生成器似乎越来越受欢迎，近日，Meta刚刚推出了Voicebox，这是一种文本引导的人工智能语音生成器，功能非常强大，以至于该公司声称其性能优于所有现有模型。

Voicebox 足够强大，可以像ChatGPT可以生成文本和Bing 或 Dall-E 2可以创建图像一样轻松地生成语音。尽管该系统尚未广泛供公众使用，但 Meta 已为任何有兴趣了解更多有关 Voicebox 的人提供演示。该系统可用于内容创作者和编辑者的音频编辑，例如，因为它的语音生成可以产生听起来自然的音频剪辑。但它的用途非常广泛，可以智能地编辑语音片段中的噪音，例如狗叫声，并在不丢失节拍的情况下重新生成声音。Voicebox 提供的功能之一是它可以匹配样本的音频风格并生成文本到语音剪辑。从本质上讲，视障用户可以给 Voicebox 一个朋友的音频片段，最短两秒，它就可以使用 AI 以朋友的声音阅读朋友的书面信息。

新的生成式 AI工具可以通过上下文学习来解决任务，因此它可以处理以前从未提供过的文本，并正确地生成上下文和词形变化，就像一个人通过使用现有知识阅读它来学习和应对新挑战一样。这个开创性工具的伦理和法律影响不容忽视。任何人都可以在未经许可的情况下使用某人的录音制作音频剪辑，并声称可以让他们说出他们想说的任何话。在发表的论文中，Meta 声称二元分类模型可以区分真实世界的语音和 Voicebox 生成的语音。不管怎样，由于该系统不是公开可用的，Meta 的比喻性的脚还没有被火烧掉。

Meta 在 60,000 小时的英语有声读物和 50,000 小时的六种语言多语言有声读物上训练了 Voicebox 以获得最佳性能。它的训练使其能够执行多语言文本到语音而无需训练、语音降噪、样式化、编辑和生成不同的语音样本。

在 Meta AI 发表的一篇论文中，该公司声称它可以比微软的VALL-E快 20 倍并且更易理解地生成多样化的音频样本。除了比竞争对手更快和更少的错误外，Meta 声称 Voicebox 可以将书面文本转换为一种或多种语言的口语，而无需分别针对每种语言进行专门培训。与之前最先进的模型YourTTS相比，Voicebox 被发现将平均单词错误率从 10.9% 降低到 5.2%，并将音频相似度从 0.335 提高到 0.481。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。