Người dùng ChatGPT Plus có quyền truy cập sớm vào Chế độ giọng nói nâng cao của OpenAI

Cập nhật trên August 02, 2024 3 phút Đọc

OpenAI đã bắt đầu triển khai Chế độ giọng nói nâng cao của ChatGPT vào thứ Ba, cấp cho người dùng quyền truy cập ban đầu vào phản hồi âm thanh siêu thực của GPT-4o. Phiên bản alpha hiện chỉ có thể truy cập được đối với một nhóm người dùng ChatGPT Plus hạn chế, với ý định mở rộng tính khả dụng cho tất cả người dùng Plus vào mùa thu năm 2024.

Khi OpenAI công bố giọng nói của GPT-4o vào tháng 5, khán giả đã rất ấn tượng bởi phản ứng nhanh chóng và sự giống đến kinh ngạc của nó với giọng nói thực sự của con người. Giọng nói có tên Sky, gần giống với giọng điệu của nữ diễn viên Scarlett Johansson trong bộ phim “Her”. Đăng bản demo, Johansson nêu lên những lo ngại về sự giống nhau và tranh thủ đại diện pháp lý để bảo vệ hình ảnh của mình. OpenAI đã bác bỏ việc sử dụng giọng nói của Johansson và sau đó loại nó khỏi bản demo. Vào tháng 6, OpenAI đã tiết lộ việc hoãn ra mắt Chế độ giọng nói nâng cao để củng cố các giao thức an toàn.

Một tháng sau, OpenAI bắt đầu triển khai tính năng này; tuy nhiên, các chức năng chia sẻ màn hình và video được nêu bật trong Bản cập nhật mùa xuân sẽ không có trong bản phát hành alpha đầu tiên. Hiện tại, một số người dùng cao cấp chọn lọc sẽ có thể sử dụng tính năng giọng nói đã được giới thiệu trước đó.

Chế độ giọng nói nâng cao tạo nên sự khác biệt so với Chế độ giọng nói hiện tại thông qua việc sử dụng GPT-4o, một mô hình đa phương thức quản lý các chức năng chuyển giọng nói thành văn bản, xử lý văn bản và chuyển văn bản thành giọng nói một cách độc lập, dẫn đến tương tác nhanh hơn. OpenAI khẳng định GPT-4o có khả năng cảm nhận các sắc thái cảm xúc được truyền tải qua giọng nói của người dùng, bao gồm những cảm giác như buồn bã, phấn khích hay giai điệu âm nhạc dưới hình thức ca hát.

Trong giai đoạn thử nghiệm này, người dùng ChatGPT Plus sẽ trải nghiệm các chức năng siêu thực của Chế độ giọng nói nâng cao. OpenAI đang dần dần giới thiệu tính năng này để giám sát chặt chẽ việc sử dụng nó. Người dùng trong nhóm alpha sẽ được thông báo trong ứng dụng ChatGPT và sau đó sẽ nhận được hướng dẫn chi tiết qua email.

Kể từ bản demo tháng 5, OpenAI đã tiến hành thử nghiệm các chức năng giọng nói của GPT-4o với hơn 100 thành viên đội đỏ bên ngoài nói 45 ngôn ngữ khác nhau. Một báo cáo về các sáng kiến an toàn này dự kiến sẽ được công bố vào đầu tháng 8. Chế độ giọng nói nâng cao sẽ chỉ có bốn giọng nói cài sẵn của ChatGPT—Juniper, Breeze, Cove và Ember—được tạo ra với sự cộng tác của các diễn viên lồng tiếng chuyên nghiệp. Giọng Sky trình diễn vào tháng 5 đã bị ngừng sản xuất. Theo người phát ngôn của OpenAI, Lindsay McCallum, ChatGPT không thể sao chép giọng nói của các cá nhân cụ thể và sẽ ngăn việc tạo ra kết quả đầu ra khác với giọng nói đã thiết lập sẵn.

######Hình ảnh: OpenAI