ChatGPT Plus 用户可以抢先体验 OpenAI 的高级语音模式

在August 31, 2024上更新 1分钟阅读

OpenAI 于周二启动了 ChatGPT 的高级语音模式，使用户能够初步访问 GPT-4o 的超现实音频响应。目前，Alpha 版本仅向有限的 ChatGPT Plus 用户开放，并计划在 2024 年秋季之前向所有 Plus 用户开放。

当 OpenAI 在 5 月份推出 GPT-4o 的声音时，观众对其快速反应和与真实人声的惊人相似印象深刻。这个名为“Sky”的声音与电影《她》中女演员斯嘉丽·约翰逊的语气非常相似。演示结束后，约翰逊对这种相似之处表示担忧，并聘请了法律代表来维护自己的形象。 OpenAI 驳斥了约翰逊声音的使用，并随后将其从演示中删除。 6 月，OpenAI 宣布推迟推出高级语音模式以加强安全协议。

一个月后，OpenAI 开始实施这一功能；但是，春季更新中突出显示的视频和屏幕共享功能将不会成为初始 Alpha 版本的一部分。目前，部分高级用户将能够使用之前展示的语音功能。

高级语音模式通过利用 GPT-4o 与当前的语音模式区分开来，GPT-4o 是一种多模式模型，可独立管理语音到文本、文本处理和文本到语音功能，从而实现更快的交互。 OpenAI 声称 GPT-4o 能够感知通过用户声音传达的情感细微差别，包括悲伤、兴奋或唱歌形式的音调等感觉。

在这个试点阶段，ChatGPT Plus的用户将体验高级语音模式的超现实功能。 OpenAI 正在逐步引入此功能，以密切监督其使用情况。 alpha 组中的用户将在 ChatGPT 应用程序中收到通知，随后将通过电子邮件收到详细说明。

自 5 月份演示以来，OpenAI 已与 100 多名讲 45 种不同语言的外部红队成员一起对 GPT-4o 的语音功能进行了测试。有关这些安全举措的报告预计将于八月初发布。高级语音模式将仅采用 ChatGPT 与专业配音演员合作制作的四种预设语音：Juniper、Breeze、Cove 和 Ember。 5 月份展示的 Sky 语音现已停产。据 OpenAI 发言人 Lindsay McCallum 介绍，ChatGPT 无法复制特定个人的声音，并将防止生成偏离既定预设声音的输出。

ChatGPT Plus 用户可以抢先体验 OpenAI 的高级语音模式

图片：OpenAI