テキストレス自然言語処理 (NLP) の導入により、標準的なテキスト トランスクリプトではなく、学習可能な個別の単位のシーケンスに基づいて言語モデルをトレーニングすることに重点が置かれるようになりました。この戦略は、NLP タスクを話し言葉に直接適用することを目的としていました。音声編集では、このようなモデルは、スピーチの元の内容を保持しながら、トランスクリプトに一致するように単語やフレーズを変更することになっています。研究コミュニティは現在、ゼロショット音声合成 (TTS) と音声編集の両方に優れた統合モデルの開発に取り組んでおり、これはこの分野での大きな進歩を表しています。
テキサス大学オースティン校とレンブランドのチームは、トランスフォーマー技術に基づいたニューラル コーデック言語モデル (NCLM) を VOICECRAFT で発表しています。 VOICECRAFT は、双方向コンテキストでの自己回帰条件付けを使用して、インフィル用のニューラル音声コーデック トークンを生成し、ゼロショット TTS と音声編集で最先端の結果を実現します。このモデルには、遅延スタッキングと因果マスキングを含む新しい 2 段階のトークン再配置アプローチが組み込まれており、音声コーデック シーケンスの双方向コンテキストを使用した自己回帰生成が可能になります。この方法は、成功したテキストと画像の結合モデルで採用されている因果マスキング メカニズムからインスピレーションを得ています。
マルチコードブック モデリングを改善するために、VOICECRAFT は因果マスキングと遅延スタッキングを組み合わせます。このモデルは、オーディオブック、YouTube ビデオ、Spotify ポッドキャストからの現実世界の音声編集インスタンスを含む、研究者によって構築された要求の厳しい多様なデータセットである REALEDIT を使用して評価されました。 REALEDIT は、追加、削除、置換、テキスト スパンの変更など、さまざまな編集シナリオの下でモデルのパフォーマンスを評価します。データセットの素材、アクセント、話し方、環境騒音の多様性により、データセットは音声編集アルゴリズムの実現可能性を評価するための効果的なツールになります。
人間による主観的な聴力テストでは、VOICECRAFT は、微調整を必要としないゼロショット TTS および音声編集において、複製された VALL-E や商用モデル XTTS v2 などの強力なベースラインを含む以前の音声編集モデルを上回りました。モデルの変更された音声は元の録音を厳密に模倣しており、その有効性を示しています。
ただし、チームは VOICECRAFT の限界を認識しています。これには、作成された音声に断続的な沈黙期間とそれに続くスクラッチ音が含まれます。さらに、VOICECRAFT などの高度なモデルの導入により、特に透かしの挿入や合成音声の認識において、AI のセキュリティに新たなハードルが生じます。研究者らは、AI の安全性と音声合成の将来の研究を促進するために、コードとモデルの重みにアクセスできるようにしました。