Gli utenti di ChatGPT Plus ottengono l'accesso anticipato alla modalità vocale avanzata di OpenAI

Aggiornato su July 31, 2024 2 minuti a leggere

OpenAI ha avviato martedì il lancio della modalità vocale avanzata di ChatGPT, garantendo agli utenti l’accesso iniziale alle risposte audio iperrealistiche di GPT-4o. La versione alpha è attualmente accessibile a un gruppo limitato di utenti ChatGPT Plus, con l’intenzione di estendere la disponibilità a tutti gli utenti Plus entro l’autunno del 2024.

Quando OpenAI ha presentato la voce di GPT-4o a maggio, il pubblico è rimasto colpito dalle sue risposte rapide e dalla sua sorprendente somiglianza con una vera voce umana. La voce, chiamata Sky, riecheggiava da vicino il tono dell’attrice Scarlett Johansson del film “Her”. Dopo la demo, Johansson ha sollevato preoccupazioni riguardo alla somiglianza e ha chiesto assistenza legale per salvaguardare la sua immagine. OpenAI ha smentito l’uso della voce di Johansson e successivamente l’ha eliminata dalla demo. A giugno, OpenAI ha comunicato un rinvio nel lancio della modalità vocale avanzata per rafforzare i protocolli di sicurezza.

Un mese dopo, OpenAI sta iniziando l’implementazione di questa funzionalità; tuttavia, le funzioni di condivisione video e schermo evidenziate nello Spring Update non faranno parte della versione alpha iniziale. Al momento, gli utenti premium selezionati potranno utilizzare la funzionalità vocale presentata in precedenza.

La modalità vocale avanzata si distingue dall’attuale modalità vocale attraverso l’utilizzo di GPT-4o, un modello multimodale che gestisce le funzioni voce-testo, elaborazione testo e testo-voce in modo indipendente, portando a interazioni più veloci. OpenAI afferma che GPT-4o ha la capacità di percepire le sfumature emotive trasmesse attraverso la voce dell’utente, inclusi sentimenti come tristezza, eccitazione o toni musicali sotto forma di canto.

In questa fase pilota, gli utenti di ChatGPT Plus sperimenteranno le funzioni iperrealistiche della modalità vocale avanzata. OpenAI sta introducendo progressivamente questa funzionalità per supervisionarne da vicino l’utilizzo. Gli utenti del gruppo alpha verranno avvisati all’interno dell’app ChatGPT e successivamente riceveranno istruzioni dettagliate via email.

Dalla demo di maggio, OpenAI ha condotto test sulle funzionalità vocali di GPT-4o con più di 100 collaboratori esterni che parlano 45 lingue diverse. Si prevede che un rapporto su queste iniziative di sicurezza sarà pubblicato all’inizio di agosto. La modalità vocale avanzata includerà solo le quattro voci preimpostate di ChatGPT: Juniper, Breeze, Cove ed Ember, realizzate in collaborazione con doppiatori professionisti. La voce Sky mostrata a maggio è stata interrotta. Secondo il portavoce di OpenAI, Lindsay McCallum, ChatGPT non è in grado di replicare le voci di individui specifici e impedirà la generazione di output che si discostano dalle voci preimpostate stabilite.

Gli utenti di ChatGPT Plus ottengono l'accesso anticipato alla modalità vocale avanzata di OpenAI

Immagine: OpenAI