亚马逊人工智能研究团队打造史上最大文本转语音模型
亚马逊人工智能研究团队近日发布了一项重大成果,他们开发了一个名为“可扩展流式文本转语音模型”(BASE TTS)的新模型,该模型是目前世界上最大的文本转语音模型,拥有 9.8 亿个参数,并使用了10万小时的录音作为训练数据集。这一突破性的研究已经在 arXiv 预印本服务器上公开,感兴趣的读者可以查阅相关论文。
文本转语音技术是人工智能领域的一个重要分支,它可以将任意文本转换为自然流畅的语音,为各种应用场景提供便利和价值。例如,文本转语音技术可以用于智能助理、数字教育、无障碍服务、娱乐媒体等领域。然而,要实现高质量的文本转语音输出,需要解决许多挑战,例如如何处理多种语言、方言、口音、情感、语调、节奏等复杂的语音特征。
亚马逊团队的新模型BASE TTS采用了一种创新的方法,通过增加参数数量和扩充训练数据集来提升文本转语音应用的能力。该模型使用了10万小时的录音作为训练数据集,其中大部分为英语语音,但也包含了其他语言的单词和短语示例,使其能够正确发音一些常见的表达,例如“au contraire” 和 “adios, amigo”。该模型还具有强大的泛化能力,可以根据不同的场景和需求调整语音输出的风格和效果。
据铋读网了解,亚马逊团队还对不同规模的数据集进行了实验,希望能从中发现人工智能领域所说的“涌现能力”。这种能力是指人工智能应用,无论是大型语言模型还是文本转语音模型,突然突破到更高智能水平的现象。他们发现,对于文本转语音应用而言,这种飞跃发生在参数量达到1.5亿的中型数据集上。
研究人员还指出,这种飞跃涉及一系列语言属性,例如使用复合名词、表达情感、使用外语词、应用语音学和标点符号以及正确强调句子中的关键词等能力。这些能力使得文本转语音输出更加自然、流畅和富有表现力。
亚马逊团队表示,他们开发 BASE TTS 的目的是为了推动文本转语音技术的发展和应用,但他们也意识到这种技术可能存在潜在滥用风险。因此,他们决定不会向公众开放 BASE TTS 模型,而是将其作为学习应用,并期望将学到的知识应用于改善文本转语音应用的整体音质。
亚马逊人工智能研究团队的这项成果无疑是文本转语音领域的一个里程碑,它展示了人工智能技术在处理自然语言方面的巨大潜力。我们期待未来看到更多类似的创新和进步。