ChatGPT Plus ユーザーは OpenAI の高度な音声モードに早期アクセスできます

August 01, 2024に更新 1議事録を読みます

OpenAI は火曜日に ChatGPT の高度な音声モードの展開を開始し、ユーザーに GPT-4o の超現実的な音声応答への最初のアクセスを許可しました。アルファ版は現在、ChatGPT Plus ユーザーの限られたグループがアクセスできますが、2024 年の秋までにすべての Plus ユーザーが利用できるようにする予定です。

OpenAIが5月にGPT-4oの音声を発表したとき、聴衆はその素早い反応と実際の人間の声に驚くほど似ていることに感銘を受けた。スカイと名付けられたその声は、映画「Her」の女優スカーレット・ヨハンソンの口調に酷似していた。デモの後、ヨハンソンはその類似性について懸念を表明し、彼女のイメージを守るために法的代理人を要請した。 OpenAIはヨハンソンの声の使用に反論し、その後デモからそれを削除した。 OpenAIは6月、安全プロトコルを強化するためにアドバンスト音声モードの開始を延期することを明らかにした。

1 か月後、OpenAI はこの機能の実装を開始します。ただし、春のアップデートで強調表示されているビデオおよび画面共有機能は、最初のアルファリリースには含まれません。現時点では、一部のプレミアムユーザーが、以前に紹介した音声機能を利用できるようになります。

アドバンスト音声モードは、音声からテキストへの変換、テキスト処理、テキストから音声への機能を個別に管理するマルチモーダルモデルである GPT-4o を利用することで、現在の音声モードとは一線を画し、より高速な対話を実現します。 OpenAIは、GPT-4oには、悲しみ、興奮、歌の形での楽音などの感情を含む、ユーザーの声を通して伝わる感情的なニュアンスを認識する能力があると主張しています。

このパイロット段階では、ChatGPT Plus のユーザーは、アドバンスト音声モードの超現実的な機能を体験します。 OpenAI は、その使用状況を厳密に監視するために、この機能を段階的に導入しています。アルファグループのユーザーは ChatGPT アプリ内で通知され、その後電子メールで詳細な手順を受け取ります。

5 月のデモ以来、OpenAI は 45 の異なる言語を話す 100 人以上の外部レッドチーム担当者を対象に、GPT-4o の音声機能のテストを実施してきました。これらの安全への取り組みに関する報告書は、8 月初旬に発表される予定です。アドバンストボイスモードでは、プロの声優と協力して作成された ChatGPT の 4 つのプリセットボイス (Juniper、Breeze、Cove、Ember) のみが機能します。 5月にデモされたSky voiceは廃止されました。 OpenAI の広報担当者、リンゼイ・マッカラム氏によると、ChatGPT は特定の個人の音声を複製することができず、確立されたプリセット音声から逸脱した出力の生成を防ぐことができます。

ChatGPT Plus ユーザーは OpenAI の高度な音声モードに早期アクセスできます

画像: OpenAI