Meta 的开源语音 AI 可识别 4,000 多种口头语言

2023-05-23 11:43:00 | | 8

5月23日，据外媒报道，Meta 创建的AI 语言模型(MMS) 项目可以识别 4,000 多种口头语言并生成 1,100 多种语音（文本到语音）。与大多数其他公开宣布的AI 项目一样，Meta 今天正在开源 MMS，以帮助保护语言多样性并鼓励研究人员在其基础上进行构建。“今天，我们公开分享我们的模型和代码，以便研究界的其他人可以在我们的工作基础上进行构建，”该公司表示。“通过这项工作，我们希望为保护世界上令人难以置信的语言多样性做出一点贡献。”

语音识别和文本转语音模型通常需要对数千小时的音频进行训练，并附带转录标签。但对于一些口头语言在未来几十年有消失的危险。“这数据根本不存在，”正如 Meta 所说。Meta 使用了一种非常规的方法来收集音频数据：利用翻译宗教文本的录音。该公司表示：“我们转向宗教文本，例如圣经，这些文本已被翻译成多种不同的语言，并且其译文已被广泛研究用于基于文本的语言翻译研究。” “这些翻译有公开的录音，人们用不同的语言阅读这些文本。” 结合圣经和类似文本的未标记录音，Meta 的研究人员将模型的可用语言增加到 4,000 多种。

Meta 表示，“我们认为这是因为我们使用了连接主义时间分类 (CTC) 方法，与用于语音识别的大型语言模型 (LLM) 或序列到序列模型相比，这种方法受到的限制要大得多。” 在训练了一个对齐模型以使数据更有用之后，Meta 使用了公司的“自监督语音表示学习”模型 wav2vec 2.0，它可以在未标记的数据上进行训练。结合非常规数据源和自我监督的语音模型产生了令人印象深刻的结果。“我们的结果表明，与现有模型相比，大规模多语言语音模型表现良好，覆盖的语言数量是现有模型的 10 倍。” 具体来说，Meta 将 MMS 与OpenAI 的 Whisper进行了比较，结果超出了预期。“我们发现，在 Massively Multilingual Speech 数据上训练的模型实现了一半的单词错误率，但 Massively Multilingual Speech 涵盖的语言是原来的 11 倍。”

Meta 警告说它的新模型并不完美。该公司写道：“例如，语音转文本模型可能会错误转录选定的单词或短语，这存在一定风险。” “根据输出结果，这可能会导致攻击性和/或不准确的语言。我们仍然相信，整个 AI 社区的协作对于负责任地开发 AI 技术至关重要。”既然 Meta 已经发布了用于开源研究的 MMS，它希望它能够扭转技术将世界语言减少到 100 种或更少的趋势，这些语言是大技术公司最常支持的。它看到了一个辅助技术、TTS 甚至 VR/AR 技术让每个人都能用母语说话和学习的世界。它说，“我们设想一个技术具有相反效果的世界，鼓励人们保持他们的语言的活力，因为他们可以通过说他们喜欢的语言来获取信息和使用技术。”

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。