최신논문
전문가의 세분화된 혼합을 위한 스케일링 법칙
작성자
dd
작성일
2024-07-04 00:45
조회
388
https://arxiv.org/abs/2402.07871
전문가 혼합(MoE) 모델은 대규모 언어 모델의 계산 비용을 줄이는 주요 솔루션으로 부상했습니다. 이 작업에서 우리는 확장된 범위의 변수를 통합하여 확장 속성을 분석합니다. 구체적으로, 우리는 새로운 하이퍼파라미터인 granularity를 도입하는데, 이를 조정하면 전문가의 크기를 정확하게 제어할 수 있습니다. 이를 기반으로, 우리는 훈련 토큰 수, 모델 크기 및 granularity를 고려하여 세분화된 MoE에 대한 확장 법칙을 수립합니다. 이러한 법칙을 활용하여 주어진 계산 예산에 대한 최적의 훈련 구성을 도출합니다. 우리의 연구 결과는 MoE 모델이 지속적으로 dense Transformer보다 성능이 뛰어나다는 것을 보여줄 뿐만 아니라 모델 크기와 훈련 예산을 확장함에 따라 dense 모델과 MoE 모델 간의 효율성 격차가 커진다는 것을 강조합니다. 또한, 우리는 MoE에서 전문가의 크기를 피드포워드 계층과 동일하게 설정하는 일반적인 관행이 거의 모든 계산 예산에서 최적이 아니라는 것을 보여줍니다.
전문가 혼합(MoE) 모델은 대규모 언어 모델의 계산 비용을 줄이는 주요 솔루션으로 부상했습니다. 이 작업에서 우리는 확장된 범위의 변수를 통합하여 확장 속성을 분석합니다. 구체적으로, 우리는 새로운 하이퍼파라미터인 granularity를 도입하는데, 이를 조정하면 전문가의 크기를 정확하게 제어할 수 있습니다. 이를 기반으로, 우리는 훈련 토큰 수, 모델 크기 및 granularity를 고려하여 세분화된 MoE에 대한 확장 법칙을 수립합니다. 이러한 법칙을 활용하여 주어진 계산 예산에 대한 최적의 훈련 구성을 도출합니다. 우리의 연구 결과는 MoE 모델이 지속적으로 dense Transformer보다 성능이 뛰어나다는 것을 보여줄 뿐만 아니라 모델 크기와 훈련 예산을 확장함에 따라 dense 모델과 MoE 모델 간의 효율성 격차가 커진다는 것을 강조합니다. 또한, 우리는 MoE에서 전문가의 크기를 피드포워드 계층과 동일하게 설정하는 일반적인 관행이 거의 모든 계산 예산에서 최적이 아니라는 것을 보여줍니다.
전체 0