Użytkownicy ChatGPT Plus uzyskują wcześniejszy dostęp do zaawansowanego trybu głosowego OpenAI

Użytkownicy ChatGPT Plus uzyskują wcześniejszy dostęp do zaawansowanego trybu głosowego OpenAI

We wtorek OpenAI zainicjowało wdrożenie zaawansowanego trybu głosowego ChatGPT, zapewniając użytkownikom początkowy dostęp do hiperrealistycznych odpowiedzi dźwiękowych GPT-4o. Wersja alfa jest obecnie dostępna dla ograniczonej grupy użytkowników ChatGPT Plus, z zamiarem rozszerzenia dostępności na wszystkich użytkowników Plusa do jesieni 2024 roku.

Kiedy w maju OpenAI zaprezentowało głos GPT-4o, publiczność była pod wrażeniem jego szybkich reakcji i uderzającego podobieństwa do prawdziwego ludzkiego głosu. Głos o imieniu Sky bardzo przypominał ton aktorki Scarlett Johansson z filmu „Her”. Po pokazie Johansson wyraziła obawy dotyczące podobieństwa i zwróciła się do prawnika, aby chronić swój wizerunek. OpenAI odrzuciło użycie głosu Johanssona, a następnie wyeliminowało go z wersji demonstracyjnej. W czerwcu OpenAI ujawniło odroczenie uruchomienia zaawansowanego trybu głosowego w celu wzmocnienia protokołów bezpieczeństwa.

Miesiąc później OpenAI rozpoczyna wdrażanie tej funkcji; jednakże funkcje wideo i udostępniania ekranu wyróżnione w wiosennej aktualizacji nie będą częścią początkowej wersji alfa. Obecnie wybrani użytkownicy premium będą mogli korzystać z zaprezentowanej wcześniej funkcji głosowej.

Zaawansowany tryb głosowy różni się od obecnego trybu głosowego dzięki wykorzystaniu GPT-4o, multimodalnego modelu, który niezależnie zarządza funkcjami zamiany głosu na tekst, przetwarzaniem tekstu i zamianą tekstu na głos, co prowadzi do szybszych interakcji. OpenAI twierdzi, że GPT-4o ma zdolność dostrzegania niuansów emocjonalnych przekazywanych poprzez głos użytkownika, w tym uczuć takich jak smutek, podekscytowanie lub tony muzyczne w postaci śpiewu.

Na tym etapie pilotażowym użytkownicy ChatGPT Plus doświadczą hiperrealistycznych funkcji zaawansowanego trybu głosowego. OpenAI stopniowo wprowadza tę funkcję, aby ściśle nadzorować jej wykorzystanie. Użytkownicy w grupie alfa zostaną powiadomieni w aplikacji ChatGPT, a następnie otrzymają szczegółowe instrukcje e-mailem.

Od majowej wersji demonstracyjnej OpenAI przeprowadziło testy funkcji głosowych GPT-4o z udziałem ponad 100 zewnętrznych czerwonych członków zespołu, mówiących w 45 różnych językach. Oczekuje się, że raport na temat tych inicjatyw dotyczących bezpieczeństwa zostanie opublikowany na początku sierpnia. W zaawansowanym trybie głosowym będą dostępne wyłącznie cztery wstępnie ustawione głosy ChatGPT — Juniper, Breeze, Cove i Ember — stworzone we współpracy z profesjonalnymi aktorami głosowymi. Głos Sky zademonstrowany w maju został wycofany. Według rzeczniczki OpenAI, Lindsay McCallum, ChatGPT nie jest w stanie odtworzyć głosów konkretnych osób i zapobiegnie generowaniu wyników różniących się od ustalonych, wstępnie ustawionych głosów.


Obraz: OpenAI

Code Labs Academy © 2024 Wszelkie prawa zastrzeżone.