Usuários do ChatGPT Plus obtêm acesso antecipado ao modo de voz avançado do OpenAI

Atualizado em July 31, 2024 2 Minutos Leia

A OpenAI iniciou o lançamento do modo de voz avançado do ChatGPT na terça-feira, concedendo aos usuários acesso inicial às respostas de áudio hiperrealistas do GPT-4o. A versão alfa está atualmente acessível a um grupo limitado de usuários ChatGPT Plus, com intenções de estender a disponibilidade a todos os usuários Plus até o outono de 2024.

Quando a OpenAI revelou a voz do GPT-4o em maio, o público ficou impressionado com suas respostas rápidas e sua notável semelhança com uma voz humana real. A voz, chamada Sky, ecoou de perto o tom da atriz Scarlett Johansson do filme “Her”. Após a demonstração, Johansson levantou preocupações em relação à semelhança e recrutou representação legal para salvaguardar sua imagem. A OpenAI refutou o uso da voz de Johansson e posteriormente a eliminou da demonstração. Em junho, a OpenAI divulgou um adiamento no lançamento do Advanced Voice Mode para reforçar os protocolos de segurança.

Um mês depois, a OpenAI inicia a implementação deste recurso; entretanto, as funções de vídeo e compartilhamento de tela destacadas no Spring Update não farão parte da versão alfa inicial. Atualmente, usuários premium selecionados poderão utilizar o recurso de voz apresentado anteriormente.

O Modo de Voz Avançado se diferencia do Modo de Voz atual pela utilização do GPT-4o, um modelo multimodal que gerencia funções de voz para texto, processamento de texto e texto para voz de forma independente, levando a interações mais rápidas. A OpenAI afirma que o GPT-4o tem a capacidade de perceber nuances emocionais transmitidas pela voz do usuário, incluindo sentimentos como tristeza, excitação ou tons musicais na forma de canto.

Nesta fase piloto, os usuários do ChatGPT Plus experimentarão as funções hiperrealistas do Advanced Voice Mode. A OpenAI está introduzindo progressivamente esse recurso para supervisionar de perto seu uso. Os usuários do grupo alfa serão notificados no aplicativo ChatGPT e posteriormente receberão instruções detalhadas por e-mail.

Desde a demonstração de maio, a OpenAI conduziu testes nas funcionalidades de voz do GPT-4o com mais de 100 red teamers externos falando 45 idiomas diferentes. Um relatório sobre essas iniciativas de segurança deverá ser divulgado no início de agosto. O modo de voz avançado apresentará apenas as quatro vozes predefinidas do ChatGPT – Juniper, Breeze, Cove e Ember – criadas em colaboração com dubladores profissionais. A voz Sky demonstrada em maio foi descontinuada. De acordo com a porta-voz da OpenAI, Lindsay McCallum, o ChatGPT é incapaz de replicar as vozes de indivíduos específicos e impedirá a geração de resultados que se desviem das vozes predefinidas estabelecidas.

Usuários do ChatGPT Plus obtêm acesso antecipado ao modo de voz avançado do OpenAI

Imagem: OpenAI