최신논문
Transfusion: 다음 토큰을 예측하고 하나의 Multi-Modal 모델로 이미지를 확산시킵니다.
작성자
하이룽룽
작성일
2024-08-21 12:07
조회
694
https://arxiv.org/abs/2408.11039
불연속 및 연속 데이터에 대해 다중 모드 모델을 훈련하는 방법인 Transfusion을 소개합니다. Transfusion은 언어 모델링 손실 함수(다음 토큰 예측)와 확산을 결합하여 혼합 양식 시퀀스를 통해 단일 변환기를 훈련합니다. 우리는 텍스트와 이미지 데이터의 혼합에 대해 처음부터 최대 7B 매개변수까지 여러 Transfusion 모델을 사전 훈련하여 다양한 단일 및 교차 모드 벤치마크와 관련하여 확장 법칙을 수립합니다. 우리의 실험은 Transfusion이 이미지를 양자화하고 개별 이미지 토큰을 통해 언어 모델을 훈련하는 것보다 훨씬 더 잘 확장된다는 것을 보여줍니다. 양식별 인코딩 및 디코딩 계층을 도입함으로써 Transfusion모델의 성능을 더욱 향상시킬 수 있으며 각 이미지를 단 16개의 패치로 압축할 수도 있습니다. 또한 Transfusion 레시피를 7B 매개변수 및 2T 멀티모달 토큰으로 확장하면 유사한 스케일 확산 모델 및 언어 모델과 동등하게 이미지와 텍스트를 생성할 수 있는 모델이 생성되어 두 세계의 이점을 모두 누릴 수 있음을 보여줍니다.

불연속 및 연속 데이터에 대해 다중 모드 모델을 훈련하는 방법인 Transfusion을 소개합니다. Transfusion은 언어 모델링 손실 함수(다음 토큰 예측)와 확산을 결합하여 혼합 양식 시퀀스를 통해 단일 변환기를 훈련합니다. 우리는 텍스트와 이미지 데이터의 혼합에 대해 처음부터 최대 7B 매개변수까지 여러 Transfusion 모델을 사전 훈련하여 다양한 단일 및 교차 모드 벤치마크와 관련하여 확장 법칙을 수립합니다. 우리의 실험은 Transfusion이 이미지를 양자화하고 개별 이미지 토큰을 통해 언어 모델을 훈련하는 것보다 훨씬 더 잘 확장된다는 것을 보여줍니다. 양식별 인코딩 및 디코딩 계층을 도입함으로써 Transfusion모델의 성능을 더욱 향상시킬 수 있으며 각 이미지를 단 16개의 패치로 압축할 수도 있습니다. 또한 Transfusion 레시피를 7B 매개변수 및 2T 멀티모달 토큰으로 확장하면 유사한 스케일 확산 모델 및 언어 모델과 동등하게 이미지와 텍스트를 생성할 수 있는 모델이 생성되어 두 세계의 이점을 모두 누릴 수 있음을 보여줍니다.

전체 0