최신논문

메타 MoMa: 모달리티 인식 전문가의 혼합을 통한 효율적인 초기 융합 사전 훈련

작성자
하이룽룽
작성일
2024-08-01 23:14
조회
781
https://arxiv.org/abs/2407.21770

우리는 혼합 모달, 초기 융합 언어 모델을 사전 학습하도록 설계된 새로운 모달리티 인식 혼합 전문가(MoE) 아키텍처인 MoMa를 소개합니다. MoMa는 전문가 모듈을 모달리티별 그룹으로 나누어 임의의 순서로 이미지와 텍스트를 처리합니다. 이러한 그룹은 각 그룹 내에서 학습된 라우팅을 사용하여 의미적으로 알려진 적응성을 유지하면서 지정된 토큰만 처리합니다. 우리의 경험적 결과는 이 모달리티별 매개변수 할당을 통해 상당한 사전 학습 효율성이 향상되었음을 보여줍니다. 1조 토큰의 학습 예산 하에서 텍스트 전문가 4명과 이미지 전문가 4명을 특징으로 하는 MoMa 1.4B 모델은 인상적인 FLOP 절감을 달성합니다. 사전 학습 손실로 측정한 컴퓨팅 등가 밀도 기준선과 비교했을 때 전체적으로 3.7배, 텍스트의 경우 2.6배, 이미지 처리의 경우 5.2배입니다. 이는 8명의 혼합 모달 전문가를 사용하는 표준 전문가 선택 MoE보다 성능이 뛰어나며, 전체 FLOP 절감이 3배(텍스트의 경우 3배, 이미지의 경우 2.8배)가 됩니다. MoMa를 혼합 심도(MoD)와 결합하면 사전 학습 FLOP 절감이 전체적으로 4.2배(텍스트: 3.4배, 이미지: 5.3배)로 더욱 향상되지만, 이 조합은 라우터 정확도에 대한 민감도가 증가하여 인과 추론 성능이 저하됩니다. 이러한 결과는 MoMa가 혼합 모달, 초기 융합 언어 모델 사전 학습의 효율성을 크게 향상시켜 리소스 효율성이 높고 유능한 멀티모달 AI 시스템을 위한 길을 열 수 있는 잠재력을 보여줍니다.

전체 0