Los usuarios de ChatGPT Plus obtienen acceso temprano al modo de voz avanzado de OpenAI

Actualizado en July 31, 2024 2 minutos leer

OpenAI inició el lanzamiento del modo de voz avanzado de ChatGPT el martes, otorgando a los usuarios acceso inicial a las respuestas de audio hiperrealistas de GPT-4o. Actualmente, la versión alfa es accesible para un grupo limitado de usuarios de ChatGPT Plus, con la intención de extender la disponibilidad a todos los usuarios Plus para el otoño de 2024.

Cuando OpenAI presentó la voz de GPT-4o en mayo, el público quedó impresionado por sus rápidas respuestas y su sorprendente parecido con una voz humana real. La voz, llamada Sky, se hizo eco del tono de la actriz Scarlett Johansson de la película “Her”. Después de la demostración, Johansson expresó temores sobre el parecido y contrató representación legal para salvaguardar su imagen. OpenAI refutó el uso de la voz de Johansson y posteriormente la eliminó de la demostración. En junio, OpenAI reveló un aplazamiento en el lanzamiento del modo de voz avanzado para reforzar los protocolos de seguridad.

Un mes después, OpenAI comienza la implementación de esta característica; sin embargo, las funciones de video y uso compartido de pantalla destacadas en la actualización de primavera no formarán parte de la versión alfa inicial. En la actualidad, determinados usuarios premium podrán utilizar la función de voz que se mostró anteriormente.

El modo de voz avanzado se distingue del modo de voz actual mediante la utilización de GPT-4o, un modelo multimodal que gestiona las funciones de voz a texto, procesamiento de texto y texto a voz de forma independiente, lo que conduce a interacciones más rápidas. OpenAI afirma que GPT-4o tiene la capacidad de percibir matices emocionales transmitidos a través de la voz del usuario, incluidos sentimientos como tristeza, emoción o tonos musicales en forma de canto.

En esta etapa piloto, los usuarios de ChatGPT Plus experimentarán las funciones hiperrealistas del Modo de Voz Avanzado. OpenAI está introduciendo progresivamente esta función para supervisar de cerca su uso. Los usuarios del grupo alfa serán notificados dentro de la aplicación ChatGPT y posteriormente recibirán instrucciones detalladas por correo electrónico.

Desde la demostración de mayo, OpenAI ha realizado pruebas de las funcionalidades de voz de GPT-4o con más de 100 miembros del equipo rojo externos que hablan 45 idiomas diferentes. Se prevé que a principios de agosto se publique un informe sobre estas iniciativas de seguridad. El modo de voz avanzado solo incluirá las cuatro voces preestablecidas de ChatGPT (Juniper, Breeze, Cove y Ember) creadas en colaboración con actores de doblaje profesionales. La voz de Sky demostrada en mayo ha sido descontinuada. Según la portavoz de OpenAI, Lindsay McCallum, ChatGPT no puede replicar las voces de personas específicas y evitará la generación de resultados que se desvíen de las voces preestablecidas establecidas.

Los usuarios de ChatGPT Plus obtienen acceso temprano al modo de voz avanzado de OpenAI

Imagen: OpenAI