최신논문

백만 명의 전문가의 혼합

작성자
dd
작성일
2024-07-16 21:32
조회
455
https://arxiv.org/abs/2407.04153

표준 트랜스포머 아키텍처의 피드포워드(FFW) 계층은 은닉 계층 폭이 커짐에 따라 계산 비용과 활성화 메모리가 선형적으로 증가합니다. 희소 혼합 전문가(MoE) 아키텍처는 모델 크기를 계산 비용에서 분리하여 이 문제를 해결하는 실행 가능한 접근 방식으로 등장했습니다. 최근 세분된 MoE 스케일링 법칙이 발견되면서 세분성이 높을수록 성능이 향상됨을 알 수 있습니다. 그러나 기존 MoE 모델은 계산 및 최적화 문제로 인해 소수의 전문가로 제한됩니다. 이 논문에서는 방대한 소규모 전문가(백만 명 이상) 풀에서 희소 검색을 위한 제품 키 기술을 활용하는 새로운 계층 설계인 PEER(매개변수 효율적 전문가 검색)를 소개합니다. 언어 모델링 작업에 대한 실험 결과 PEER 계층이 성능-계산 트레이드오프 측면에서 밀집 FFW와 거친 MoE보다 성능이 우수함을 보여줍니다. PEER는 엄청난 수의 전문가를 효율적으로 활용할 수 있도록 하여 계산 효율성을 유지하면서 트랜스포머 모델을 추가로 스케일링할 수 있는 잠재력을 제공합니다.

--



백만 명의 전문가의 혼합 논문은 곧바로 강타합니다.

추론 비용과 메모리 사용량을 줄이고 수백만 명의 전문가로 확장하며, 우연히도 재앙적 망각을 극복하고 모델에 대한 평생 학습을 가능하게 합니다.

이전 MOE 모델은 10,000명의 전문가를 넘어서지 못했으며 비효율적인 정적 라우터를 사용하여 연결했지만 여기에는 수백만 명의 마이크로 전문가를 처리할 수 있는 학습된 라우터가 포함됩니다. 신피질이 작동하는 방식을 약간 상기시킵니다. 신피질은 각각 세계 모델을 학습한 다음 함께 작동하여 현실에 대한 집단적 그림을 형성할 수 있는 약 200만 개의 피질 기둥으로 구성되어 있기 때문입니다 .

재앙적 망각과 지속적인 학습은 현재 아키텍처에서 가장 중요하고 심각한 문제 중 두 가지이며 이 접근 방식은 한 번에 두 가지를 모두 없앨 가능성이 있습니다.

지속적인 학습을 가능하게 하고 재앙적 망각을 극복하기 위한 다른 접근 방식도 있는데, 여기에는 2단계 지속적 학습이나 진행 및 압축이 있으며, 이는 탄성 가중치 통합, 지식 증류 및 두 가지 모델(큰 신경망과 작은 학습망)을 사용합니다. 작은 넷은 학습하고 시간이 지나면서 학습한 내용이 큰 넷으로 다시 전달됩니다. 새로운 지식이 들어오면서 가중치가 부분적으로 동결되고 통합됩니다. Deep Mind 로봇 팀에서도 나온 좋은 아이디어입니다.

하지만 이 논문에서는 새로운 미니 전문가를 추가하고, 기존 가중치를 동결하거나 부분적으로 동결하고, 모델의 이해도를 원하는 만큼 키울 수 있으며, 이미 알고 있는 내용을 잃지 않는다고 말하는 것 같습니다.

마치 Loras가 모델 자체에 내장된 것과 같습니다.
전체 0