ChatGPT Plus-brukere får tidlig tilgang til OpenAIs avanserte stemmemodus

Oppdatert på July 31, 2024 2 minutter lest

OpenAI startet utrullingen av ChatGPTs avanserte stemmemodus på tirsdag, og ga brukere innledende tilgang til GPT-4os hyperrealistiske lydsvar. Alfaversjonen er for øyeblikket tilgjengelig for en begrenset gruppe ChatGPT Plus-brukere, med intensjoner om å utvide tilgjengeligheten til alle Plus-brukere innen høsten 2024.

Da OpenAI avduket GPT-4os stemme i mai, ble publikum imponert over dens raske responser og dens slående likhet med en faktisk menneskelig stemme. Stemmen, kalt Sky, gjentok tonen til skuespillerinnen Scarlett Johansson fra filmen «Her». Etter demoen reiste Johansson bekymringer angående likheten og vervet juridisk representasjon for å beskytte hennes image. OpenAI tilbakeviste bruken av Johanssons stemme og eliminerte den deretter fra demoen. I juni avslørte OpenAI en utsettelse i lanseringen av Advanced Voice Mode for å styrke sikkerhetsprotokollene.

En måned senere starter OpenAI implementeringen av denne funksjonen; video- og skjermdelingsfunksjonene som er uthevet i våroppdateringen vil imidlertid ikke være en del av den første alfa-utgivelsen. For øyeblikket vil utvalgte premiumbrukere kunne bruke stemmefunksjonen som ble vist frem tidligere.

Avansert stemmemodus skiller seg fra gjeldende stemmemodus ved bruk av GPT-4o, en multimodal modell som administrerer stemme-til-tekst, tekstbehandling og tekst-til-stemme-funksjoner uavhengig, noe som fører til raskere interaksjoner. OpenAI hevder at GPT-4o har evnen til å oppfatte emosjonelle nyanser formidlet gjennom brukerens stemme, inkludert følelser som tristhet, spenning eller musikalske toner i form av sang.

I denne pilotfasen vil brukere av ChatGPT Plus oppleve de hyperrealistiske funksjonene til Advanced Voice Mode. OpenAI introduserer gradvis denne funksjonen for å overvåke bruken nøye. Brukere i alfagruppen vil bli varslet i ChatGPT-appen og vil deretter motta detaljerte instruksjoner via e-post.

Siden mai-demoen har OpenAI utført tester på GPT-4o sine stemmefunksjoner med mer enn 100 eksterne red teamers som snakker 45 forskjellige språk. En rapport om disse sikkerhetstiltakene forventes å bli utgitt i begynnelsen av august. Avansert stemmemodus vil kun inneholde ChatGPTs fire forhåndsinnstilte stemmer – Juniper, Breeze, Cove og Ember – laget i samarbeid med profesjonelle stemmeskuespillere. Sky-stemmen som ble demonstrert i mai er avviklet. Ifølge talsperson for OpenAI, Lindsay McCallum, er ChatGPT ikke i stand til å replikere stemmene til spesifikke individer og vil forhindre generering av utdata som avviker fra de etablerte forhåndsinnstilte stemmene.

ChatGPT Plus-brukere får tidlig tilgang til OpenAIs avanserte stemmemodus

Bilde: OpenAI