VoiceCraft'ın Konuşma Düzenleme ve Sentezde Çığır Açtığı Gelişme

VoiceCraft'ın Konuşma Düzenleme ve Sentezde Çığır Açtığı Gelişme

Metinsiz doğal dil işlemenin (NLP) kullanıma sunulması, dil modellerinin standart metin transkriptleri yerine öğrenilebilir, ayrı birimlerin dizileri üzerinde eğitilmesine verilen önemi değiştirdi. Bu strateji, NLP görevlerini doğrudan konuşma diline uygulamayı amaçlıyordu. Ses düzenlemede böyle bir modelin, konuşmanın orijinal içeriğini korurken kelimeleri veya cümleleri bir transkripsiyonla eşleşecek şekilde değiştirmesi gerekiyor. Araştırma topluluğu şu anda hem sıfır atışlı metinden konuşmaya (TTS) hem de konuşma düzenlemede üstün olan ve bu alanda önemli bir sıçramayı temsil eden birleşik bir model geliştirmek üzerinde çalışıyor.

Austin ve Rembrand'daki Texas Üniversitesi'nden bir ekip, transformatör teknolojisine dayanan bir Sinir Codec Dil Modelini (NCLM) VOICECRAFT sunuyor. VOICECRAFT, çift yönlü bağlamlarda otoregresif koşullandırmayı kullanarak doldurma için nöral konuşma codec belirteçleri üretir, sıfır atışlı TTS ve konuşma düzenlemede en ileri sonuçları elde eder. Bu model, gecikmeli istifleme ve nedensel maskelemeyi içeren, konuşma codec dizileri için çift yönlü bağlamla otoregresif oluşturmayı mümkün kılan yeni bir iki aşamalı simge yeniden düzenleme yaklaşımını içerir. Bu yöntem, başarılı birleştirilmiş metin-görüntü modellerinde kullanılan nedensel maskeleme mekanizmasından esinlenmiştir.

Çoklu kod kitabı modellemeyi geliştirmek için VOICECRAFT nedensel maskelemeyi ve gecikmeli istiflemeyi birleştirir. Model, araştırmacılar tarafından oluşturulan ve sesli kitaplardan, YouTube videolarından ve Spotify podcast'lerinden gerçek dünyadaki ses düzenleme örneklerini içeren zorlu ve çeşitli bir veri kümesi olan REALEDIT ile değerlendirildi. REALEDIT, modelin performansını eklemeler, silmeler, ikameler ve metin aralığı değişiklikleri dahil olmak üzere çeşitli düzenleme senaryoları altında değerlendirir. Veri kümesinin çeşitli materyalleri, aksanları, konuşma stilleri ve çevresel sesleri, onu ses düzenleme algoritmalarının uygulanabilirliğini değerlendirmek için etkili bir araç haline getiriyor.

Subjektif insan dinleme testlerinde, VOICECRAFT, sıfır çekimli TTS ve konuşma düzenlemede, hiçbir ince ayar gerektirmeden, çoğaltılmış VALL-E ve ticari model XTTS v2 gibi güçlü temeller de dahil olmak üzere önceki ses düzenleme modellerini geride bıraktı. Modelin değiştirilmiş konuşması, orijinal kayıtları yakından taklit ederek etkinliğini ortaya koyuyor.

Ancak ekip, VOICECRAFT'ın aralıklı sessiz dönemleri ve ardından oluşturulan konuşmadaki cızırtılı sesleri içeren sınırlamalarının farkındadır. Ayrıca, VOICECRAFT gibi gelişmiş modellerin piyasaya sürülmesi, özellikle filigran ekleme ve sentetik konuşmanın tanınması konusunda yapay zeka güvenliği için yeni engeller yaratıyor. Araştırmacılar, yapay zeka güvenliği ve konuşma sentezi konusunda gelecekteki çalışmaları kolaylaştırmak için kod ve model ağırlıklarını erişilebilir hale getirdiler.

Code Labs Academy © 2025 Her hakkı saklıdır.