최신논문

MS, VALL-E2 발표

작성자
dd
작성일
2024-07-04 12:01
조회
518
https://arxiv.org/abs/2406.05370

https://www.microsoft.com/en-us/research/project/vall-e-x/vall-e-2/

 

이 논문에서는 제로샷 텍스트-음성 합성(TTS)에서 이정표를 세우는 신경 코덱 언어 모델의 최신 발전인 VALL-E 2를 소개하며, 처음으로 인간의 동등성을 달성했습니다. 이전 버전인 VALL-E를 기반으로 하는 이 새로운 반복은 두 가지 중요한 개선 사항을 도입합니다. 반복 인식 샘플링은 디코딩 기록에서 토큰 반복을 고려하여 원래의 핵심 샘플링 프로세스를 개선합니다. 디코딩을 안정화할 뿐만 아니라 무한 루프 문제도 해결합니다. 그룹화된 코드 모델링은 코덱 코드를 그룹으로 구성하여 시퀀스 길이를 효과적으로 줄여 추론 속도를 높일 뿐만 아니라 긴 시퀀스 모델링의 과제도 해결합니다. LibriSpeech 및 VCTK 데이터 세트에 대한 실험 결과 VALL-E 2는 음성 견고성, 자연스러움 및 화자 유사성 측면에서 이전 시스템을 능가합니다. 이러한 벤치마크에서 인간의 동등성에 도달한 최초의 시스템입니다. 게다가 VALL-E 2는 전통적으로 복잡성이나 반복적인 구문으로 인해 어려운 문장에서도 고품질 음성을 일관되게 합성합니다. 이 작업의 장점은 실어증이 있는 개인이나 근위축성 측색 경화증이 있는 사람들을 위한 음성 생성과 같은 귀중한 노력에 기여할 수 있습니다. VALL-E 2 데모는 이 https URL을 참조하세요.
전체 0