ChatGPT Plus-gebruikers krijgen vroegtijdige toegang tot de geavanceerde spraakmodus van OpenAI

Bijgewerkt op July 31, 2024 2 Minuten lezen

OpenAI is dinsdag begonnen met de uitrol van de geavanceerde spraakmodus van ChatGPT, waardoor gebruikers initiële toegang krijgen tot de hyperrealistische audioreacties van GPT-4o. De alfaversie is momenteel toegankelijk voor een beperkte groep ChatGPT Plus-gebruikers, met de bedoeling om de beschikbaarheid tegen het najaar van 2024 uit te breiden naar alle Plus-gebruikers.

Toen OpenAI in mei de stem van GPT-4o onthulde, was het publiek onder de indruk van de snelle reacties en de opvallende gelijkenis met een echte menselijke stem. De stem, genaamd Sky, weerspiegelde nauw de toon van actrice Scarlett Johansson uit de film ‘Her’. Na de demo uitte Johansson zijn bezorgdheid over de gelijkenis en schakelde hij juridische vertegenwoordiging in om haar imago te beschermen. OpenAI weerlegde het gebruik van de stem van Johansson en verwijderde deze vervolgens uit de demo. In juni maakte OpenAI een uitstel bekend van de lancering van de Advanced Voice Mode om de veiligheidsprotocollen te versterken.

Een maand later begint OpenAI met de implementatie van deze functie; De functies voor video en scherm delen die in de Spring Update zijn benadrukt, zullen echter geen deel uitmaken van de eerste alfaversie. Momenteel kunnen geselecteerde premiumgebruikers de spraakfunctie gebruiken die eerder werd getoond.

De Advanced Voice Mode onderscheidt zich van de huidige Voice Mode door het gebruik van GPT-4o, een multimodaal model dat spraak-naar-tekst, tekstverwerking en tekst-naar-stem-functies onafhankelijk beheert, wat leidt tot snellere interacties. OpenAI beweert dat GPT-4o het vermogen heeft om emotionele nuances waar te nemen die via de stem van de gebruiker worden overgebracht, inclusief gevoelens als verdriet, opwinding of muzikale tonen in de vorm van zingen.

In deze pilotfase zullen gebruikers van ChatGPT Plus de hyperrealistische functies van de Advanced Voice Mode ervaren. OpenAI introduceert deze functie geleidelijk om het gebruik ervan nauwlettend in de gaten te houden. Gebruikers in de alpha-groep worden binnen de ChatGPT-app op de hoogte gebracht en ontvangen vervolgens gedetailleerde instructies via e-mail.

Sinds de demo van mei heeft OpenAI tests uitgevoerd op de stemfunctionaliteiten van GPT-4o, waarbij meer dan 100 externe red teamers 45 verschillende talen spraken. Een rapport over deze veiligheidsinitiatieven zal naar verwachting begin augustus verschijnen. De Advanced Voice Mode bevat alleen de vier vooraf ingestelde stemmen van ChatGPT (Juniper, Breeze, Cove en Ember), gemaakt in samenwerking met professionele stemacteurs. De Sky-stem die in mei werd gedemonstreerd, is stopgezet. Volgens OpenAI-woordvoerder Lindsay McCallum is ChatGPT niet in staat de stemmen van specifieke individuen te repliceren en zal het voorkomen dat output wordt gegenereerd die afwijkt van de gevestigde vooraf ingestelde stemmen.

ChatGPT Plus-gebruikers krijgen vroegtijdige toegang tot de geavanceerde spraakmodus van OpenAI

Afbeelding: OpenAI