최신논문

그리핀: 효율적인 언어 모델을 위한 지역적 주의와 게이트 선형 재귀를 혼합

작성자
ㅇㅇ
작성일
2024-07-04 01:19
조회
337
https://arxiv.org/abs/2402.19427

순환 신경망(RNN)은 추론 속도가 빠르고 긴 시퀀스에서 효율적으로 확장되지만, 훈련하기 어렵고 확장하기도 어렵습니다. 우리는 gated linear recurrences를 가진 RNN인 Hawk와 gated linear recurrences와 local attention을 섞은 하이브리드 모델인 Griffin을 제안합니다. Hawk는 다운스트림 작업에서 Mamba의 보고된 성능을 능가하는 반면, Griffin은 6배 이상 적은 토큰에서 훈련되었음에도 불구하고 Llama-2의 성능과 일치합니다. 또한 Griffin이 훈련 중에 보이는 것보다 상당히 긴 시퀀스에서 외삽할 수 있음을 보여줍니다. 우리 모델은 훈련 중에 Transformers의 하드웨어 효율성과 일치하며, 추론 중에는 대기 시간이 짧고 처리량이 상당히 높습니다. 우리는 Griffin을 최대 14B 매개변수까지 확장하고 효율적인 분산 훈련을 위해 모델을 분할하는 방법을 설명합니다.
전체 0