ChatGPT Plus-Benutzer erhalten frühzeitig Zugriff auf den erweiterten Sprachmodus von OpenAI

Aktualisiert am July 31, 2024 Lesedauer: 2 Minuten

OpenAI hat am Dienstag mit der Einführung des erweiterten Sprachmodus von ChatGPT begonnen und Benutzern ersten Zugriff auf [die hyperrealistischen Audioantworten von GPT-4o] gewährt (https://openai.com/index/hello-gpt-4o/). Die Alpha-Version ist derzeit für eine begrenzte Gruppe von ChatGPT Plus-Benutzern zugänglich. Die Verfügbarkeit soll bis Herbst 2024 auf alle Plus-Benutzer ausgeweitet werden.

Als OpenAI im Mai die Stimme von GPT-4o vorstellte, war das Publikum von den schnellen Reaktionen und der verblüffenden Ähnlichkeit mit einer echten menschlichen Stimme beeindruckt. Die Stimme mit dem Namen Sky erinnerte stark an den Tonfall der Schauspielerin Scarlett Johansson aus dem Film „Her“. Nach der Demo äußerte Johansson Bedenken hinsichtlich der Ähnlichkeit und beauftragte einen Rechtsbeistand, um ihr Image zu schützen. OpenAI wies die Verwendung von Johanssons Stimme zurück und entfernte sie anschließend aus der Demo. Im Juni gab OpenAI eine Verschiebung der Einführung des Advanced Voice Mode bekannt, um Sicherheitsprotokolle zu stärken.

Einen Monat später beginnt OpenAI mit der Implementierung dieser Funktion; Die im Frühjahrsupdate hervorgehobenen Video- und Bildschirmfreigabefunktionen werden jedoch nicht Teil der ersten Alpha-Version sein. Derzeit können ausgewählte Premium-Benutzer die zuvor vorgestellte Sprachfunktion nutzen.

Der erweiterte Sprachmodus unterscheidet sich vom aktuellen Sprachmodus durch die Verwendung von GPT-4o, einem multimodalen Modell, das Sprach-zu-Text-, Textverarbeitungs- und Text-zu-Sprache-Funktionen unabhängig verwaltet, was zu schnelleren Interaktionen führt. OpenAI behauptet, dass GPT-4o in der Lage ist, emotionale Nuancen wahrzunehmen, die durch die Stimme des Benutzers vermittelt werden, darunter Gefühle wie Traurigkeit, Aufregung oder musikalische Töne in Form von Gesang.

In dieser Pilotphase werden Benutzer von ChatGPT Plus die hyperrealistischen Funktionen des Advanced Voice Mode erleben. OpenAI führt diese Funktion schrittweise ein, um ihre Nutzung genau zu überwachen. Benutzer in der Alpha-Gruppe werden innerhalb der ChatGPT-App benachrichtigt und erhalten anschließend detaillierte Anweisungen per E-Mail.

Seit der Mai-Demo hat OpenAI Tests zu den Sprachfunktionen von GPT-4o mit mehr als 100 externen Red Teamern durchgeführt, die 45 verschiedene Sprachen sprechen. Ein Bericht über diese Sicherheitsinitiativen wird voraussichtlich Anfang August veröffentlicht. Im erweiterten Sprachmodus stehen nur die vier voreingestellten Stimmen von ChatGPT zur Verfügung – Juniper, Breeze, Cove und Ember –, die in Zusammenarbeit mit professionellen Synchronsprechern erstellt wurden. Die im Mai gezeigte Sky-Stimme wurde eingestellt. Laut OpenAI-Sprecherin Lindsay McCallum ist ChatGPT nicht in der Lage, die Stimmen bestimmter Personen zu reproduzieren und verhindert die Generierung von Ausgaben, die von den etablierten voreingestellten Stimmen abweichen.

ChatGPT Plus-Benutzer erhalten frühzeitig Zugriff auf den erweiterten Sprachmodus von OpenAI

Bild: OpenAI