A ChatGPT Plus felhasználók korai hozzáférést kapnak az OpenAI speciális hangmódjához

Frissítve a September 03, 2024 -en 2 percek olvasása

Az OpenAI kedden kezdeményezte a ChatGPT Advanced Voice Mode bevezetését, amely kezdeti hozzáférést biztosít a felhasználóknak a GPT-4o hiperrealisztikus hangválaszaihoz. Az alfa verzió jelenleg a ChatGPT Plus felhasználók korlátozott csoportja számára érhető el, és a szándék az, hogy 2024 őszére az összes Plus felhasználóra elérhető legyen.

Amikor az OpenAI májusban bemutatta a GPT-4o hangját, a közönséget lenyűgözte a gyors válaszok és a valódi emberi hanghoz való feltűnő hasonlóság. A Sky nevű hang szorosan visszhangozta a „Her” című film színésznőjének, Scarlett Johanssonnak a hangnemét. A demó után Johansson aggodalmát fejezte ki a hasonlóság miatt, és jogi képviseletet kért, hogy megvédje imázsát. Az OpenAI cáfolta Johansson hangjának használatát, és ezt követően kivette a demóból. Júniusban az OpenAI nyilvánosságra hozta az Advanced Voice Mode elindításának elhalasztását a biztonsági protokollok megerősítése érdekében.

Egy hónappal később az OpenAI megkezdi ennek a funkciónak a megvalósítását; a tavaszi frissítésben kiemelt videó- és képernyőmegosztó funkciók azonban nem lesznek részei a kezdeti alfa-kiadásnak. Jelenleg a kiválasztott prémium felhasználók használhatják a korábban bemutatott hangfunkciót.

Az Advanced Voice Mode a GPT-4o multimodális modell használatával különbözteti meg magát a jelenlegi Voice Mode-tól, amely a hang-szöveg, a szövegfeldolgozás és a szöveg-hang funkciókat függetlenül kezeli, ami gyorsabb interakciót eredményez. Az OpenAI azt állítja, hogy a GPT-4o képes érzékelni a felhasználó hangján keresztül közvetített érzelmi árnyalatokat, beleértve az olyan érzéseket, mint a szomorúság, az izgalom vagy az éneklés formájában megjelenő zenei hangok.

Ebben a kísérleti szakaszban a ChatGPT Plus felhasználói megtapasztalhatják az Advanced Voice Mode hiperrealisztikus funkcióit. Az OpenAI fokozatosan bevezeti ezt a funkciót, hogy alaposan felügyelje a használatát. Az alfa-csoportba tartozó felhasználók értesítést kapnak a ChatGPT alkalmazáson belül, és ezt követően e-mailben kapnak részletes utasításokat.

A májusi demó óta az OpenAI tesztelte a GPT-4o hangfunkcióit több mint 100 külső, 45 különböző nyelven beszélő csapattaggal. A biztonsági kezdeményezésekről szóló jelentés várhatóan augusztus elején jelenik meg. Az Advanced Voice Mode csak a ChatGPT négy előre beállított hangját fogja tartalmazni – Juniper, Breeze, Cove és Ember – professzionális szinkronszínészekkel együttműködve. A májusban bemutatott Sky voice megszűnt. Az OpenAI szóvivője, Lindsay McCallum szerint a ChatGPT nem képes megismételni bizonyos személyek hangját, és megakadályozza, hogy az előre beállított hangoktól eltérő kimenetek generáljanak.

A ChatGPT Plus felhasználók korai hozzáférést kapnak az OpenAI speciális hangmódjához

Kép: OpenAI