无文本自然语言处理 (NLP) 的引入改变了对可学习离散单元序列而不是标准文本转录本上训练语言模型的重视。该策略试图将 NLP 任务直接应用于口语。在语音编辑中,这样的模型应该改变单词或短语以匹配文字记录,同时保留语音的原始内容。研究界目前正在致力于开发一种统一的模型,该模型在零样本文本转语音 (TTS) 和语音编辑方面都表现出色,这代表了该领域的重大飞跃。
来自德克萨斯大学奥斯汀分校和 Rembrand 的团队提出了 VOICECRAFT 一种基于 Transformer 技术的神经编解码器语言模型 (NCLM)。 VOICECRAFT 生成神经语音编解码器标记,用于在双向上下文中使用自回归条件进行填充,从而在零样本 TTS 和语音编辑中实现尖端成果。该模型采用了一种新颖的两阶段令牌重排方法,该方法涉及延迟堆叠和因果屏蔽,从而能够利用语音编解码器序列的双向上下文进行自回归生成。该方法的灵感来自于成功的文本图像耦合模型中采用的因果屏蔽机制。
为了改进多码本建模,VOICECRAFT 结合了因果掩蔽和延迟堆叠。该模型使用 REALEDIT 进行评估,这是一个由研究人员构建的要求严格且多样化的数据集,其中包括来自有声读物、YouTube 视频和 Spotify 播客的真实语音编辑实例。 REALEDIT 评估模型在各种编辑场景下的性能,包括添加、删除、替换和文本跨度更改。该数据集的各种材料、口音、说话风格和环境噪音使其成为评估语音编辑算法可行性的有效工具。
在人类主观听力测试中,VOICECRAFT 在零样本 TTS 和语音编辑方面超越了之前的语音编辑模型,包括重复 VALL-E 和商业模型 XTTS v2 等强基线,无需微调。该模型修改后的语音与原始录音非常相似,证明了其有效性。
然而,该团队认识到 VOICECRAFT 的局限性,其中包括在创建的语音中出现间歇性静音期,然后出现刮擦声。此外,诸如 VOICECRAFT 等复杂模型的引入为人工智能安全带来了新的障碍,特别是在水印和识别合成语音方面。研究人员已经公开了他们的代码和模型权重,以促进未来人工智能安全和语音合成的研究。