최신논문

(2023년 10월) 거의 무한한 컨텍스트를 위한 Blockwise Transformers를 사용한 링 어텐션

작성자
작성일
2024-07-01 01:15
조회
523


 

Transformer는 다양한 최첨단 AI 모델에 선택되는 아키텍처로 등장하여 광범위한 AI 애플리케이션에서 탁월한 성능을 보여줍니다. 그러나 Transformers에 부과된 메모리 수요는 긴 시퀀스를 처리하는 능력을 제한하므로 복잡한 환경에서 비디오, 액션, 기타 긴 형식 시퀀스 및 양식을 활용하는 데 어려움을 겪습니다. 우리는 블록 단위 어텐션 계산과 키-값 블록의 통신을 완전히 겹치면서 여러 장치에 긴 시퀀스를 배포하기 위해 셀프 어텐션 및 피드포워드의 블록 단위 계산을 활용하는 블록 단위 변환기를 사용한 링 어텐션(Ring Attention)이라는 새로운 접근 방식을 제시합니다. 우리의 접근 방식을 사용하면 근사치에 의존하거나 추가 통신 및 계산 오버헤드를 발생시키지 않고 이전의 메모리 효율적인 변환기로 달성할 수 있는 것보다 최대 장치 수 배 더 긴 시퀀스의 훈련 및 추론이 가능합니다. 언어 모델링 및 강화 학습 작업에 대한 광범위한 실험은 수백만 개의 토큰 컨텍스트 크기를 허용하고 성능을 향상시키는 우리 접근 방식의 효율성을 보여줍니다.
전체 0