Les utilisateurs de ChatGPT Plus bénéficient d'un accès anticipé au mode vocal avancé d'OpenAI

Mis à jour sur July 31, 2024 2 MINUTES LIRE

OpenAI a lancé mardi le déploiement du mode vocal avancé de ChatGPT, accordant aux utilisateurs un accès initial aux réponses audio hyperréalistes de GPT-4o. La version alpha est actuellement accessible à un groupe limité d’utilisateurs de ChatGPT Plus, avec l’intention d’étendre la disponibilité à tous les utilisateurs Plus d’ici l’automne 2024.

Lorsque OpenAI a dévoilé la voix de GPT-4o en mai, le public a été impressionné par ses réponses rapides et sa ressemblance frappante avec une véritable voix humaine. La voix, nommée Sky, faisait écho au ton de l’actrice Scarlett Johansson du film “Her”. Après la démo, Johansson a soulevé des appréhensions concernant la ressemblance et a fait appel à une représentation juridique pour sauvegarder son image. OpenAI a réfuté l’utilisation de la voix de Johansson et l’a ensuite éliminée de la démo. En juin, OpenAI a annoncé un report du lancement du mode vocal avancé pour renforcer les protocoles de sécurité.

Un mois plus tard, OpenAI commence la mise en œuvre de cette fonctionnalité ; cependant, les fonctions vidéo et de partage d’écran mises en évidence dans la mise à jour de printemps ne feront pas partie de la version alpha initiale. À l’heure actuelle, certains utilisateurs premium pourront utiliser la fonction vocale présentée précédemment.

Le mode vocal avancé se distingue du mode vocal actuel grâce à l’utilisation de GPT-4o, un modèle multimodal qui gère indépendamment les fonctions voix-texte, traitement de texte et texte-voix, conduisant à des interactions plus rapides. OpenAI affirme que GPT-4o a la capacité de percevoir les nuances émotionnelles véhiculées par la voix de l’utilisateur, notamment des sentiments tels que la tristesse, l’excitation ou des tonalités musicales sous forme de chant.

Dans cette phase pilote, les utilisateurs de ChatGPT Plus découvriront les fonctions hyperréalistes du mode vocal avancé. OpenAI introduit progressivement cette fonctionnalité pour superviser de près son utilisation. Les utilisateurs du groupe alpha seront informés dans l’application ChatGPT et recevront ensuite des instructions détaillées par e-mail.

Depuis la démo de mai, OpenAI a effectué des tests sur les fonctionnalités vocales de GPT-4o avec plus de 100 équipes rouges externes parlant 45 langues différentes. Un rapport sur ces initiatives en matière de sécurité devrait être publié début août. Le mode vocal avancé ne proposera que les quatre voix prédéfinies de ChatGPT (Juniper, Breeze, Cove et Ember) conçues en collaboration avec des comédiens professionnels. La voix Sky présentée en mai a été interrompue. Selon la porte-parole d’OpenAI, Lindsay McCallum, ChatGPT n’est pas en mesure de reproduire les voix d’individus spécifiques et empêchera la génération de sorties s’écartant des voix prédéfinies établies.

Les utilisateurs de ChatGPT Plus bénéficient d'un accès anticipé au mode vocal avancé d'OpenAI

Image : OpenAI