트윗

FFN Fusion: 대규모 언어 모델에서 순차적 계산 재고

작성자
하이룽룽
작성일
2025-03-25 18:25
조회
1234
https://arxiv.org/abs/2503.18908

우리는 병렬화에 대한 자연스러운 기회를 식별하고 활용하여 대규모 언어 모델에서 순차적 계산을 줄이는 아키텍처 최적화 기술인 FFN Fusion을 소개합니다. 우리의 핵심 통찰력은 Feed-Forward Network(FFN) 계층의 시퀀스, 특히 특정 어텐션 계층을 제거한 후 남은 시퀀스는 종종 정확도에 미치는 영향을 최소화하면서 병렬화할 수 있다는 것입니다. 우리는 이러한 시퀀스를 식별하고 융합하여 모델 동작을 보존하면서 추론 지연 시간을 크게 줄이는 병렬 작업으로 변환하는 원칙적인 방법론을 개발합니다. 이러한 기술을 Llama-3.1-405B-Instruct에 적용하여 벤치마크에서 강력한 성능을 유지하면서 추론 지연 시간을 1.71배 단축하고 토큰당 비용을 35배 낮추는 효율적이고 곧 공개될 모델인 Llama-Nemotron-Ultra-253B-Base(Ultra-253B-Base)를 만듭니다. 49B에서 253B 매개변수까지의 모델에 대한 광범위한 실험을 통해, 우리는 FFN Fusion이 더 큰 규모에서 점점 더 효과적이 되고 양자화 및 가지치기와 같은 기존 최적화 기술을 보완할 수 있음을 보여줍니다. 가장 흥미로운 점은, 어텐션과 FFN 레이어를 모두 포함하는 전체 변압기 블록조차도 때때로 병렬화될 수 있다는 것을 발견하여 신경 구조 설계에 대한 새로운 방향을 제안합니다.
전체 0