음성 편집 및 합성 분야에서 VoiceCraft의 혁신

음성 편집 및 합성 분야에서 VoiceCraft의 혁신

텍스트 없는 자연어 처리(NLP)의 도입으로 인해 표준 텍스트 성적표가 아닌 학습 가능한 개별 단위의 시퀀스에 대한 언어 모델 훈련에 중점이 바뀌었습니다. 이 전략은 NLP 작업을 음성 언어에 직접 적용하려고 했습니다. 음성 편집에서 이러한 모델은 음성의 원래 내용을 유지하면서 대본과 일치하도록 단어나 구를 변경해야 합니다. 연구 커뮤니티는 현재 제로샷 텍스트 음성 변환(TTS)과 음성 편집 모두에 탁월한 통합 모델을 개발하기 위해 노력하고 있으며, 이는 이 분야에서 상당한 도약을 의미합니다.

University of Texas at Austin과 Rembrand 팀은 변환기 기술을 기반으로 하는 NCLM(신경 코덱 언어 모델)인 VOICECRAFT를 제시합니다. VOICECRAFT는 양방향 컨텍스트에서 자동 회귀 조건을 사용하여 채우기용 신경 음성 코덱 토큰을 생성하여 제로 샷 TTS 및 음성 편집에서 최첨단 결과를 달성합니다. 이 모델은 지연된 스태킹 및 인과 마스킹을 포함하는 새로운 2단계 토큰 재배열 접근 방식을 통합하여 음성 코덱 시퀀스에 대한 양방향 컨텍스트를 사용하여 자동 회귀 생성을 가능하게 합니다. 이 방법은 성공적인 결합 텍스트-이미지 모델에 사용되는 인과 마스킹 메커니즘에서 영감을 받았습니다.

다중 코드북 모델링을 개선하기 위해 VOICECRAFT는 인과 마스킹과 지연 스택을 결합합니다. 이 모델은 오디오북, YouTube 비디오 및 Spotify 팟캐스트의 실제 음성 편집 인스턴스를 포함하여 연구원이 구성한 까다롭고 다양한 데이터 세트인 REALEDIT를 사용하여 평가되었습니다. REALEDIT는 추가, 삭제, 대체 및 텍스트 범위 변경을 포함한 다양한 편집 시나리오에서 모델 성능을 평가합니다. 데이터 세트의 다양한 자료, 억양, 말하기 스타일 및 환경 소음은 음성 편집 알고리즘의 타당성을 평가하는 효과적인 도구입니다.

주관적인 인간 청취 테스트에서 VOICECRAFT는 제로샷 TTS 및 음성 편집에서 복제된 VALL-E 및 상용 모델 XTTS v2와 같은 강력한 기준을 포함하여 이전 음성 편집 모델을 능가했으며 미세 조정이 필요하지 않았습니다. 모델의 변형된 음성은 원본 녹음을 밀접하게 모방하여 그 효과를 입증합니다.

그러나 팀은 생성된 음성에서 긁는 소리가 뒤따르는 간헐적인 무음 기간을 포함하는 VOICECRAFT의 한계를 인식합니다. 또한 VOICECRAFT와 같은 정교한 모델의 도입은 특히 워터마킹 및 합성 음성 인식 분야에서 AI 보안에 새로운 장애물을 만듭니다. 연구원들은 AI 안전 및 음성 합성에 대한 향후 연구를 촉진하기 위해 코드 및 모델 가중치에 액세스할 수 있도록 만들었습니다.

Code Labs Academy © 2025 판권 소유.