최신논문
Next-Token Diffusion을 통한 다중 모달 잠재 언어 모델링
작성자
작성일
2024-12-13 10:25
조회
349
https://arxiv.org/abs/2412.08635
멀티모달 생성 모델은 텍스트, 코드와 같은 불연속형 데이터와 이미지, 오디오, 비디오와 같은 연속형 데이터를 모두 처리하기 위한 통합된 접근 방식이 필요합니다. 이 연구에서는 인과적 트랜스포머를 사용해 연속 데이터와 불연속 데이터를 원활하게 통합하는 잠재 언어 모델링(LatentLM)을 제안합니다. 구체적으로, 연속 데이터를 잠재 벡터로 표현하기 위해 가변 자동 인코더(VAE)를 사용하고 이러한 벡터의 자동 회귀 생성을 위해 다음 토큰 확산을 도입합니다. 또한 자동 회귀 모델링에 필수적인 분산 붕괴 문제를 해결하기 위해 σ-VAE를 개발합니다. 광범위한 실험을 통해 다양한 모달리티에서 LatentLM의 효과를 입증했습니다. 이미지 생성에서 LatentLM은 성능과 확장성 모두에서 확산 트랜스포머를 능가합니다. 멀티모달 대규모 언어 모델에 통합할 경우 LatentLM은 멀티모달 생성 및 이해를 통합하는 범용 인터페이스를 제공합니다. 실험 결과에 따르면 LatentLM은 훈련 토큰을 확장하는 설정에서 Transfusion 및 벡터 양자화 모델에 비해 유리한 성능을 달성합니다. 텍스트 음성합성에서 LatentLM은 화자 유사성 및 견고성 측면에서 최신 VALL-E 2 모델보다 성능이 뛰어나면서도 디코딩 단계는 10배나 더 적게 필요합니다. 이러한 결과는 대규모 멀티모달 모델을 발전시키기 위한 매우 효과적이고 확장 가능한 접근 방식으로 LatentLM을 확립했습니다.
멀티모달 생성 모델은 텍스트, 코드와 같은 불연속형 데이터와 이미지, 오디오, 비디오와 같은 연속형 데이터를 모두 처리하기 위한 통합된 접근 방식이 필요합니다. 이 연구에서는 인과적 트랜스포머를 사용해 연속 데이터와 불연속 데이터를 원활하게 통합하는 잠재 언어 모델링(LatentLM)을 제안합니다. 구체적으로, 연속 데이터를 잠재 벡터로 표현하기 위해 가변 자동 인코더(VAE)를 사용하고 이러한 벡터의 자동 회귀 생성을 위해 다음 토큰 확산을 도입합니다. 또한 자동 회귀 모델링에 필수적인 분산 붕괴 문제를 해결하기 위해 σ-VAE를 개발합니다. 광범위한 실험을 통해 다양한 모달리티에서 LatentLM의 효과를 입증했습니다. 이미지 생성에서 LatentLM은 성능과 확장성 모두에서 확산 트랜스포머를 능가합니다. 멀티모달 대규모 언어 모델에 통합할 경우 LatentLM은 멀티모달 생성 및 이해를 통합하는 범용 인터페이스를 제공합니다. 실험 결과에 따르면 LatentLM은 훈련 토큰을 확장하는 설정에서 Transfusion 및 벡터 양자화 모델에 비해 유리한 성능을 달성합니다. 텍스트 음성합성에서 LatentLM은 화자 유사성 및 견고성 측면에서 최신 VALL-E 2 모델보다 성능이 뛰어나면서도 디코딩 단계는 10배나 더 적게 필요합니다. 이러한 결과는 대규모 멀티모달 모델을 발전시키기 위한 매우 효과적이고 확장 가능한 접근 방식으로 LatentLM을 확립했습니다.
전체 0