ChatGPT Plus-brugere får tidlig adgang til OpenAIs avancerede stemmetilstand

Senest opdateret September 02, 2024 2 minutters læsning

OpenAI påbegyndte udrulningen af ChatGPTs avancerede stemmetilstand tirsdag, hvilket gav brugerne indledende adgang til GPT-4os hyperrealistiske lydsvar. Alfaversionen er i øjeblikket tilgængelig for en begrænset gruppe af ChatGPT Plus-brugere, med intentioner om at udvide tilgængeligheden til alle Plus-brugere inden efteråret 2024.

Da OpenAI afslørede GPT-4o’s stemme i maj, var publikum imponeret over dens hurtige svar og dens slående lighed med en faktisk menneskelig stemme. Stemmen, ved navn Sky, genspejlede tæt tonen fra skuespillerinden Scarlett Johansson fra filmen “Her”. Efter demoen rejste Johansson betænkeligheder med hensyn til ligheden og tiltrådte juridisk repræsentation for at beskytte hendes image. OpenAI afviste brugen af Johanssons stemme og fjernede den efterfølgende fra demoen. I juni afslørede OpenAI en udsættelse i lanceringen af Advanced Voice Mode for at styrke sikkerhedsprotokollerne.

En måned senere påbegynder OpenAI implementeringen af denne funktion; video- og skærmdelingsfunktionerne, der er fremhævet i forårsopdateringen, vil dog ikke være en del af den indledende alfa-udgivelse. På nuværende tidspunkt vil udvalgte premium-brugere være i stand til at bruge stemmefunktionen, der blev vist tidligere.

Avanceret stemmetilstand adskiller sig fra den nuværende stemmetilstand gennem brugen af GPT-4o, en multimodal model, der styrer stemme-til-tekst, tekstbehandling og tekst-til-stemme funktioner uafhængigt, hvilket fører til hurtigere interaktioner. OpenAI hævder, at GPT-4o har evnen til at opfatte følelsesmæssige nuancer formidlet gennem brugerens stemme, herunder følelser som tristhed, spænding eller musikalske toner i form af sang.

I denne pilotfase vil brugere af ChatGPT Plus opleve de hyperrealistiske funktioner i Advanced Voice Mode. OpenAI introducerer gradvist denne funktion for at overvåge brugen nøje. Brugere i alfagruppen vil blive underrettet i ChatGPT-appen og vil efterfølgende modtage detaljerede instruktioner via e-mail.

Siden maj-demoen har OpenAI udført test af GPT-4o’s stemmefunktionaliteter med mere end 100 eksterne red teamers, der taler 45 forskellige sprog. En rapport om disse sikkerhedsinitiativer forventes at blive frigivet i begyndelsen af august. Den avancerede stemmetilstand vil kun indeholde ChatGPTs fire forudindstillede stemmer – Juniper, Breeze, Cove og Ember – lavet i samarbejde med professionelle stemmeskuespillere. Sky-stemmen, der blev demonstreret i maj, er blevet afbrudt. Ifølge talsmand for OpenAI, Lindsay McCallum, er ChatGPT ikke i stand til at replikere stemmer fra specifikke individer og vil forhindre generering af output, der afviger fra de etablerede forudindstillede stemmer.

ChatGPT Plus-brugere får tidlig adgang til OpenAIs avancerede stemmetilstand

Billede: OpenAI