ChatGPT Plus 사용자는 OpenAI의 고급 음성 모드에 조기 액세스할 수 있습니다.

ChatGPT Plus 사용자는 OpenAI의 고급 음성 모드에 조기 액세스할 수 있습니다.

OpenAI는 화요일에 ChatGPT의 고급 음성 모드 출시를 시작하여 사용자에게 GPT-4o의 초현실적인 오디오 응답에 대한 초기 액세스 권한을 부여했습니다. 알파 버전은 현재 제한된 ChatGPT Plus 사용자 그룹이 액세스할 수 있으며, 2024년 가을까지 모든 Plus 사용자에게 가용성을 확장할 계획입니다.

OpenAI가 지난 5월 GPT-4o의 음성을 공개했을 때 청중들은 빠른 반응과 실제 인간의 목소리와 매우 흡사하다는 점에 깊은 인상을 받았습니다. 스카이(Sky)라는 이름의 목소리는 영화 'Her'의 배우 스칼렛 요한슨(Scarlett Johansson)의 음색과 매우 유사했습니다. 데모를 게시한 요한슨은 유사성에 대한 우려를 제기하고 자신의 이미지를 보호하기 위해 법적 대리인을 모집했습니다. OpenAI는 요한슨의 목소리 사용을 반박하고 이후 데모에서 이를 제거했습니다. 지난 6월 OpenAI는 안전 프로토콜을 강화하기 위해 고급 음성 모드 출시 연기를 공개했습니다.

한 달 후 OpenAI는 이 기능의 구현을 시작합니다. 그러나 Spring 업데이트에서 강조된 비디오 및 화면 공유 기능은 초기 알파 릴리스에 포함되지 않습니다. 현재 일부 프리미엄 사용자는 이전에 소개된 음성 기능을 활용할 수 있습니다.

고급 음성 모드는 음성-텍스트, 텍스트 처리 및 텍스트-음성 기능을 독립적으로 관리하는 멀티모달 모델인 GPT-4o를 활용하여 현재 음성 모드와 차별화되어 더 빠른 상호 작용을 제공합니다. OpenAI는 GPT-4o가 슬픔, 흥분, 노래 형태의 음악적 톤과 같은 감정을 포함하여 사용자의 목소리를 통해 전달되는 감정적 뉘앙스를 인식하는 기능을 가지고 있다고 주장합니다.

이 파일럿 단계에서 ChatGPT Plus 사용자는 고급 음성 모드의 초현실적인 기능을 경험하게 됩니다. OpenAI는 이 기능을 점진적으로 도입하여 사용량을 면밀히 감독하고 있습니다. 알파 그룹의 사용자는 ChatGPT 앱 내에서 알림을 받게 되며 이후 이메일을 통해 자세한 지침을 받게 됩니다.

5월 데모 이후 OpenAI는 45개 언어를 사용하는 100명 이상의 외부 레드팀과 함께 GPT-4o의 음성 기능에 대한 테스트를 수행했습니다. 이러한 안전 계획에 대한 보고서는 8월 초에 발표될 예정입니다. 고급 음성 모드에는 전문 성우와 협력하여 제작된 ChatGPT의 4가지 사전 설정 음성(Juniper, Breeze, Cove 및 Ember)만 포함됩니다. 5월에 시연된 스카이 보이스가 중단되었습니다. OpenAI 대변인 Lindsay McCallum에 따르면 ChatGPT는 특정 개인의 음성을 복제할 수 없으며 설정된 사전 설정 음성에서 벗어나는 출력 생성을 방지합니다.


이미지: OpenAI

Code Labs Academy © 2024 판권 소유.