Η εισαγωγή της επεξεργασίας φυσικής γλώσσας χωρίς κείμενο (NLP) άλλαξε την έμφαση στην εκπαίδευση γλωσσικών μοντέλων σε ακολουθίες μαθησίων, διακριτών ενοτήτων αντί για τυπικές μεταγραφές κειμένου. Αυτή η στρατηγική προσπάθησε να εφαρμόσει απευθείας τις εργασίες NLP στην προφορική γλώσσα. Στη φωνητική επεξεργασία, ένα τέτοιο μοντέλο υποτίθεται ότι αλλάζει λέξεις ή φράσεις ώστε να ταιριάζουν με μια μεταγραφή, ενώ διατηρεί την αρχική ουσία της ομιλίας. Η ερευνητική κοινότητα εργάζεται επί του παρόντος για την ανάπτυξη ενός ενοποιημένου μοντέλου που υπερέχει τόσο στη μετατροπή κειμένου σε ομιλία (TTS) όσο και στην επεξεργασία ομιλίας, γεγονός που αντιπροσωπεύει ένα σημαντικό άλμα στην περιοχή.
Μια ομάδα από το Πανεπιστήμιο του Τέξας στο Όστιν και τον Ρέμπραντ παρουσιάζει το VOICECRAFT, ένα μοντέλο γλώσσας νευρωνικού κωδικοποιητή (NCLM) που βασίζεται στην τεχνολογία μετασχηματιστών. Το VOICECRAFT παράγει διακριτικά κωδικοποιητή νευρικής ομιλίας για συμπλήρωση χρησιμοποιώντας αυτοπαλινδρομική ρύθμιση σε αμφίδρομα περιβάλλοντα, επιτυγχάνοντας κορυφαία αποτελέσματα σε TTS μηδενικής λήψης και επεξεργασία ομιλίας. Αυτό το μοντέλο ενσωματώνει μια νέα προσέγγιση αναδιάταξης διακριτικών δύο σταδίων που περιλαμβάνει καθυστερημένη στοίβαξη και αιτιακή κάλυψη, επιτρέποντας την αυτοπαλινδρομική δημιουργία με αμφίδρομο πλαίσιο για ακολουθίες κωδικοποιητή ομιλίας. Αυτή η μέθοδος είναι εμπνευσμένη από τον μηχανισμό αιτιώδους κάλυψης που χρησιμοποιείται σε επιτυχημένα μοντέλα σύζευξης κειμένου-εικόνας.
Για τη βελτίωση της μοντελοποίησης πολλών βιβλίων κωδικών, το VOICECRAFT συνδυάζει αιτιώδη κάλυψη και καθυστερημένη στοίβαξη. Το μοντέλο αξιολογήθηκε με το REALEDIT, ένα απαιτητικό και ποικίλο σύνολο δεδομένων που κατασκευάστηκε από τους ερευνητές που περιλάμβανε πραγματικές περιπτώσεις επεξεργασίας φωνής από ηχητικά βιβλία, βίντεο YouTube και podcast του Spotify. Το REALEDIT αξιολογεί την απόδοση του μοντέλου κάτω από μια ποικιλία σεναρίων επεξεργασίας, συμπεριλαμβανομένων των προσθηκών, διαγραφών, αντικαταστάσεων και αλλαγών διαστήματος κειμένου. Η ποικιλία υλικού, τονισμού, του στυλ ομιλίας και των περιβαλλοντικών θορύβων του συνόλου δεδομένων το καθιστά αποτελεσματικό εργαλείο για την αξιολόγηση της σκοπιμότητας των αλγορίθμων επεξεργασίας φωνής.
Σε υποκειμενικές δοκιμές ανθρώπινης ακρόασης, το VOICECRAFT ξεπέρασε τα προηγούμενα μοντέλα επεξεργασίας φωνής, συμπεριλαμβανομένων ισχυρών βασικών γραμμών όπως το διπλό VALL-E και το εμπορικό μοντέλο XTTS v2, σε TTS μηδενικής λήψης και επεξεργασία ομιλίας, χωρίς να απαιτείται λεπτομέρεια. Η αλλαγμένη ομιλία του μοντέλου μιμείται πολύ τις αρχικές ηχογραφήσεις, αποδεικνύοντας την αποτελεσματικότητά της.
Ωστόσο, η ομάδα αναγνωρίζει τους περιορισμούς του VOICECRAFT, οι οποίοι περιλαμβάνουν διακοπτόμενες σιωπηλές περιόδους που ακολουθούνται από ήχους γρατσουνίσματος στη δημιουργημένη ομιλία. Επιπλέον, η εισαγωγή εξελιγμένων μοντέλων όπως το VOICECRAFT δημιουργεί νέα εμπόδια για την ασφάλεια της τεχνητής νοημοσύνης, ιδιαίτερα στην υδατοσήμανση και την αναγνώριση συνθετικής ομιλίας. Οι ερευνητές έχουν κάνει τα βάρη του κώδικα και των μοντέλων τους προσβάσιμα, προκειμένου να διευκολυνθεί η μελλοντική μελέτη για την ασφάλεια της τεχνητής νοημοσύνης και τη σύνθεση ομιλίας.