We wtorek OpenAI zainicjowało wdrożenie zaawansowanego trybu głosowego ChatGPT, zapewniając użytkownikom początkowy dostęp do hiperrealistycznych odpowiedzi dźwiękowych GPT-4o. Wersja alfa jest obecnie dostępna dla ograniczonej grupy użytkowników ChatGPT Plus, z zamiarem rozszerzenia dostępności na wszystkich użytkowników Plusa do jesieni 2024 roku.
Kiedy w maju OpenAI zaprezentowało głos GPT-4o, publiczność była pod wrażeniem jego szybkich reakcji i uderzającego podobieństwa do prawdziwego ludzkiego głosu. Głos o imieniu Sky bardzo przypominał ton aktorki Scarlett Johansson z filmu „Her”. Po pokazie Johansson wyraziła obawy dotyczące podobieństwa i zwróciła się do prawnika, aby chronić swój wizerunek. OpenAI odrzuciło użycie głosu Johanssona, a następnie wyeliminowało go z wersji demonstracyjnej. W czerwcu OpenAI ujawniło odroczenie uruchomienia zaawansowanego trybu głosowego w celu wzmocnienia protokołów bezpieczeństwa.
Miesiąc później OpenAI rozpoczyna wdrażanie tej funkcji; jednakże funkcje wideo i udostępniania ekranu wyróżnione w wiosennej aktualizacji nie będą częścią początkowej wersji alfa. Obecnie wybrani użytkownicy premium będą mogli korzystać z zaprezentowanej wcześniej funkcji głosowej.
Zaawansowany tryb głosowy różni się od obecnego trybu głosowego dzięki wykorzystaniu GPT-4o, multimodalnego modelu, który niezależnie zarządza funkcjami zamiany głosu na tekst, przetwarzaniem tekstu i zamianą tekstu na głos, co prowadzi do szybszych interakcji. OpenAI twierdzi, że GPT-4o ma zdolność dostrzegania niuansów emocjonalnych przekazywanych poprzez głos użytkownika, w tym uczuć takich jak smutek, podekscytowanie lub tony muzyczne w postaci śpiewu.
Na tym etapie pilotażowym użytkownicy ChatGPT Plus doświadczą hiperrealistycznych funkcji zaawansowanego trybu głosowego. OpenAI stopniowo wprowadza tę funkcję, aby ściśle nadzorować jej wykorzystanie. Użytkownicy w grupie alfa zostaną powiadomieni w aplikacji ChatGPT, a następnie otrzymają szczegółowe instrukcje e-mailem.
Od majowej wersji demonstracyjnej OpenAI przeprowadziło testy funkcji głosowych GPT-4o z udziałem ponad 100 zewnętrznych czerwonych członków zespołu, mówiących w 45 różnych językach. Oczekuje się, że raport na temat tych inicjatyw dotyczących bezpieczeństwa zostanie opublikowany na początku sierpnia. W zaawansowanym trybie głosowym będą dostępne wyłącznie cztery wstępnie ustawione głosy ChatGPT — Juniper, Breeze, Cove i Ember — stworzone we współpracy z profesjonalnymi aktorami głosowymi. Głos Sky zademonstrowany w maju został wycofany. Według rzeczniczki OpenAI, Lindsay McCallum, ChatGPT nie jest w stanie odtworzyć głosów konkretnych osób i zapobiegnie generowaniu wyników różniących się od ustalonych, wstępnie ustawionych głosów.