Os usuarios de ChatGPT Plus obteñen acceso anticipado ao modo de voz avanzado de OpenAI

Actualizado en September 23, 2024 2 Minutos lidos

OpenAI iniciou o martes o lanzamento do modo de voz avanzado de ChatGPT, que concede aos usuarios acceso inicial ás respostas de audio hiperrealistas de GPT-4o. A versión alfa está actualmente accesible para un grupo limitado de usuarios de ChatGPT Plus, coa intención de estender a dispoñibilidade a todos os usuarios de Plus para o outono de 2024.

Cando OpenAI presentou a voz do GPT-4o en maio, o público quedou impresionado polas súas respostas rápidas e o seu sorprendente parecido cunha voz humana real. A voz, chamada Sky, facíase eco de preto o ton da actriz Scarlett Johansson da película “Her”. Publicada a demostración, Johansson levantou receo polo parecido e reclamou representación legal para salvagardar a súa imaxe. OpenAI refutou o uso da voz de Johansson e, posteriormente, eliminouno da demostración. En xuño, OpenAI revelou un aprazamento no lanzamento do modo de voz avanzado para reforzar os protocolos de seguridade.

Un mes despois, OpenAI comeza a implementar esta función; non obstante, as funcións de vídeo e uso compartido de pantalla destacadas na actualización de primavera non formarán parte da versión alfa inicial. Actualmente, os usuarios premium seleccionados poderán utilizar a función de voz que se presentou anteriormente.

O modo de voz avanzado distínguese do modo de voz actual mediante a utilización de GPT-4o, un modelo multimodal que xestiona as funcións de voz a texto, procesamento de texto e texto a voz de forma independente, o que leva a interaccións máis rápidas. OpenAI afirma que GPT-4o ten a capacidade de percibir matices emocionais transmitidos a través da voz do usuario, incluíndo sentimentos como tristeza, emoción ou tons musicais en forma de canto.

Nesta fase piloto, os usuarios de ChatGPT Plus experimentarán as funcións hiperrealistas do Modo de voz avanzado. OpenAI está introducindo progresivamente esta función para supervisar de cerca o seu uso. Os usuarios do grupo alfa recibirán unha notificación na aplicación ChatGPT e, posteriormente, recibirán instrucións detalladas por correo electrónico.

Desde a demostración de maio, OpenAI realizou probas sobre as funcionalidades de voz do GPT-4o con máis de 100 equipos vermellos externos que falan 45 idiomas diferentes. Está previsto que a principios de agosto se publique un informe sobre estas iniciativas de seguridade. O modo de voz avanzado só contará coas catro voces predefinidas de ChatGPT (Juniper, Breeze, Cove e Ember) elaboradas en colaboración con actores de voz profesionais. A voz de Sky demostrada en maio foi descontinuada. Segundo a portavoz de OpenAI, Lindsay McCallum, ChatGPT non pode replicar as voces de individuos específicos e evitará que a xeración de saídas se desvíe das voces preestablecidas.

Os usuarios de ChatGPT Plus obteñen acceso anticipado ao modo de voz avanzado de OpenAI

Imaxe: OpenAI