Đột phá của VoiceCraft trong việc biên tập và tổng hợp giọng nói

Đột phá của VoiceCraft trong việc biên tập và tổng hợp giọng nói

Sự ra đời của xử lý ngôn ngữ tự nhiên không văn bản (NLP) đã thay đổi sự nhấn mạnh vào việc đào tạo các mô hình ngôn ngữ theo trình tự các đơn vị rời rạc, có thể học được thay vì các bản ghi văn bản tiêu chuẩn. Chiến lược này tìm cách áp dụng trực tiếp các nhiệm vụ NLP vào ngôn ngữ nói. Trong chỉnh sửa giọng nói, một mô hình như vậy có nhiệm vụ thay đổi các từ hoặc cụm từ để khớp với bản ghi trong khi vẫn giữ nguyên nội dung ban đầu của bài phát biểu. Cộng đồng nghiên cứu hiện đang nỗ lực phát triển một mô hình thống nhất vượt trội ở cả tính năng chuyển văn bản thành giọng nói (TTS) và chỉnh sửa giọng nói, điều này thể hiện một bước nhảy vọt đáng kể trong lĩnh vực này.

Một nhóm từ Đại học Texas ở Austin và Rembrand trình bày VOICECRAFT, Mô hình ngôn ngữ Codec thần kinh (NCLM) dựa trên công nghệ biến áp. VOICECRAFT sản xuất mã thông báo codec giọng nói thần kinh để thực hiện bằng cách sử dụng điều hòa tự hồi quy trong bối cảnh hai chiều, đạt được kết quả vượt trội trong TTS không có cảnh quay và chỉnh sửa giọng nói. Mô hình này kết hợp phương pháp sắp xếp lại mã thông báo hai giai đoạn mới, bao gồm việc xếp chồng chậm trễ và che giấu nguyên nhân, cho phép tạo tự hồi quy với bối cảnh hai chiều cho các chuỗi mã hóa giọng nói. Phương pháp này được lấy cảm hứng từ cơ chế che giấu nhân quả được sử dụng trong các mô hình hình ảnh văn bản được ghép nối thành công.

Để cải thiện mô hình hóa nhiều sách mã, VOICECRAFT kết hợp mặt nạ nhân quả và xếp chồng trễ. Mô hình này được đánh giá bằng REALEDIT, một bộ dữ liệu đa dạng và khắt khe do các nhà nghiên cứu xây dựng, bao gồm các trường hợp chỉnh sửa giọng nói trong thế giới thực từ sách nói, video YouTube và podcast Spotify. REALEDIT đánh giá hiệu suất của mô hình trong nhiều tình huống chỉnh sửa khác nhau, bao gồm thêm, xóa, thay thế và thay đổi khoảng văn bản. Sự đa dạng về chất liệu, giọng nói, phong cách nói và tiếng ồn môi trường của tập dữ liệu khiến nó trở thành một công cụ hiệu quả để đánh giá tính khả thi của các thuật toán chỉnh sửa giọng nói.

Trong các bài kiểm tra khả năng nghe chủ quan của con người, VOICECRAFT đã vượt qua các mô hình chỉnh sửa giọng nói trước đó, bao gồm các đường cơ sở mạnh mẽ như VALL-E trùng lặp và mô hình thương mại XTTS v2, trong TTS zero-shot và chỉnh sửa giọng nói, không yêu cầu tinh chỉnh. Lời nói được thay đổi của mô hình bắt chước gần giống với bản ghi âm gốc, chứng tỏ tính hiệu quả của nó.

Tuy nhiên, nhóm nhận thấy những hạn chế của VOICECRAFT, bao gồm những khoảng thời gian im lặng ngắt quãng, sau đó là những âm thanh chói tai trong giọng nói được tạo ra. Hơn nữa, việc giới thiệu các mô hình phức tạp như VOICECRAFT tạo ra những rào cản mới cho bảo mật AI, đặc biệt là trong việc tạo hình mờ và nhận dạng giọng nói tổng hợp. Các nhà nghiên cứu đã làm cho mã và trọng số mô hình của họ có thể truy cập được để tạo điều kiện thuận lợi cho nghiên cứu trong tương lai về an toàn AI và tổng hợp giọng nói.

Code Labs Academy © 2025 Đã đăng ký Bản quyền.