Пользователи ChatGPT Plus получают ранний доступ к расширенному голосовому режиму OpenAI

Пользователи ChatGPT Plus получают ранний доступ к расширенному голосовому режиму OpenAI

Во вторник OpenAI инициировала внедрение расширенного голосового режима ChatGPT, предоставив пользователям первоначальный доступ к гиперреалистичным аудиоответам GPT-4o. Альфа-версия в настоящее время доступна ограниченной группе пользователей ChatGPT Plus, и к осени 2024 года планируется сделать ее доступной для всех пользователей Plus.

Когда в мае OpenAI представила голос GPT-4o, аудитория была впечатлена его быстрой реакцией и поразительным сходством с настоящим человеческим голосом. Голос по имени Скай очень перекликался с тоном актрисы Скарлетт Йоханссон из фильма «Она». Опубликовав демонстрацию, Йоханссон выразила опасения по поводу сходства и обратилась к юридическим представителям, чтобы защитить свой имидж. OpenAI опровергла использование голоса Йоханссон и впоследствии исключила его из демо-версии. В июне OpenAI сообщила об отсрочке запуска расширенного голосового режима для поддержки протоколов безопасности.

Месяц спустя OpenAI начинает реализацию этой функции; однако функции видео и совместного использования экрана, выделенные в весеннем обновлении, не будут частью первоначальной альфа-версии. В настоящее время избранные премиум-пользователи смогут использовать голосовую функцию, которая была продемонстрирована ранее.

Расширенный голосовой режим отличается от текущего голосового режима за счет использования GPT-4o, мультимодальной модели, которая независимо управляет функциями преобразования голоса в текст, обработки текста и преобразования текста в голос, что приводит к более быстрому взаимодействию. OpenAI утверждает, что GPT-4o способен воспринимать эмоциональные нюансы, передаваемые через голос пользователя, включая такие чувства, как грусть, волнение или музыкальные тона в форме пения.

На этом пилотном этапе пользователи ChatGPT Plus смогут испытать гиперреалистичные функции расширенного голосового режима. OpenAI постепенно внедряет эту функцию, чтобы внимательно контролировать ее использование. Пользователи альфа-группы будут уведомлены в приложении ChatGPT, а затем получат подробные инструкции по электронной почте.

После майской демонстрации OpenAI провела тестирование голосовых функций GPT-4o с участием более 100 внешних специалистов, говорящих на 45 различных языках. Ожидается, что отчет об этих инициативах по обеспечению безопасности будет опубликован в начале августа. В расширенном голосовом режиме будут представлены только четыре предустановленных голоса ChatGPT — Juniper, Breeze, Cove и Ember, созданные в сотрудничестве с профессиональными актерами озвучивания. Показ Sky voice, продемонстрированный в мае, прекращен. По словам представителя OpenAI Линдси МакКаллума, ChatGPT не может воспроизводить голоса конкретных людей и предотвратит создание выходных данных, отклоняющихся от установленных заранее заданных голосов.


Изображение: OpenAI

Code Labs Academy © 2024 Все права защищены.