Ang Mga User ng ChatGPT Plus ay Makakakuha ng Maagang Access sa Advanced Voice Mode ng OpenAI

Nai -update sa September 05, 2024 3 minuto basahin

Sinimulan ng OpenAI ang paglulunsad ng Advanced Voice Mode ng ChatGPT noong Martes, na nagbibigay sa mga user ng paunang access sa mga hyperrealistic na tugon ng audio ng GPT-4o. Ang alpha na bersyon ay kasalukuyang naa-access sa isang limitadong grupo ng mga user ng ChatGPT Plus, na may mga intensyon na palawigin ang availability sa lahat ng mga user ng Plus sa taglagas ng 2024.

Nang inihayag ng OpenAI ang boses ng GPT-4o noong Mayo, humanga ang mga manonood sa mabilis nitong pagtugon at kapansin-pansing pagkakahawig nito sa isang aktwal na boses ng tao. Ang boses, na pinangalanang Sky, ay malapit na umalingawngaw sa tono ng aktres na si Scarlett Johansson mula sa pelikulang “Her.” Pagkatapos ng demo, itinaas ni Johansson ang mga pangamba tungkol sa pagkakahawig at kumuha ng legal na representasyon upang mapangalagaan ang kanyang imahe. Pinabulaanan ng OpenAI ang paggamit ng boses ni Johansson at pagkatapos ay inalis ito sa demo. Noong Hunyo, inihayag ng OpenAI ang isang pagpapaliban sa paglulunsad ng Advanced Voice Mode upang palakasin ang mga protocol sa kaligtasan.

Makalipas ang isang buwan, sinisimulan ng OpenAI ang pagpapatupad ng tampok na ito; gayunpaman, ang mga function ng video at pagbabahagi ng screen na naka-highlight sa Spring Update ay hindi magiging bahagi ng unang alpha release. Sa kasalukuyan, magagamit ng mga piling premium na user ang voice feature na ipinakita kanina.

Ibinubukod ng Advanced Voice Mode ang sarili mula sa kasalukuyang Voice Mode sa pamamagitan ng paggamit ng GPT-4o, isang multimodal na modelo na namamahala ng voice-to-text, pagpoproseso ng text, at text-to-voice function nang independiyente, na humahantong sa mas mabilis na pakikipag-ugnayan. Iginiit ng OpenAI na ang GPT-4o ay may kakayahan na madama ang mga emosyonal na nuances na ipinadala sa pamamagitan ng boses ng gumagamit, kabilang ang mga damdamin tulad ng kalungkutan, pananabik, o mga tono ng musika sa anyo ng pagkanta.

Sa pilot stage na ito, mararanasan ng mga user ng ChatGPT Plus ang mga hyperrealistic na function ng Advanced Voice Mode. Unti-unting ipinakikilala ng OpenAI ang feature na ito upang masubaybayan nang mabuti ang paggamit nito. Ang mga user sa alpha group ay aabisuhan sa loob ng ChatGPT app at pagkatapos ay makakatanggap ng mga detalyadong tagubilin sa pamamagitan ng email.

Mula noong Mayo demo, ang OpenAI ay nagsagawa ng mga pagsubok sa mga functionality ng boses ng GPT-4o na may higit sa 100 panlabas na red teamer na nagsasalita ng 45 iba’t ibang wika. Ang isang ulat sa mga hakbangin sa kaligtasan na ito ay inaasahang ilalabas sa unang bahagi ng Agosto. Itatampok lamang ng Advanced Voice Mode ang apat na preset na boses ng ChatGPT—Juniper, Breeze, Cove, at Ember—na ginawa sa pakikipagtulungan sa mga propesyonal na voice actor. Ang tinig ng Sky na ipinakita noong Mayo ay hindi na ipinagpatuloy. Ayon sa tagapagsalita ng OpenAI, Lindsay McCallum, hindi nagagawa ng ChatGPT na gayahin ang mga tinig ng mga partikular na indibidwal at mapipigilan ang pagbuo ng mga output na lumilihis mula sa itinatag na mga preset na boses.

Ang Mga User ng ChatGPT Plus ay Makakakuha ng Maagang Access sa Advanced Voice Mode ng OpenAI

Larawan: OpenAI