트윗
FFN Fusion: 대규모 언어 모델에서 순차적 계산 재고
작성자
하이룽룽
작성일
2025-03-25 18:25
조회
1234
https://arxiv.org/abs/2503.18908
우리는 병렬화에 대한 자연스러운 기회를 식별하고 활용하여 대규모 언어 모델에서 순차적 계산을 줄이는 아키텍처 최적화 기술인 FFN Fusion을 소개합니다. 우리의 핵심 통찰력은 Feed-Forward Network(FFN) 계층의 시퀀스, 특히 특정 어텐션 계층을 제거한 후 남은 시퀀스는 종종 정확도에 미치는 영향을 최소화하면서 병렬화할 수 있다는 것입니다. 우리는 이러한 시퀀스를 식별하고 융합하여 모델 동작을 보존하면서 추론 지연 시간을 크게 줄이는 병렬 작업으로 변환하는 원칙적인 방법론을 개발합니다. 이러한 기술을 Llama-3.1-405B-Instruct에 적용하여 벤치마크에서 강력한 성능을 유지하면서 추론 지연 시간을 1.71배 단축하고 토큰당 비용을 35배 낮추는 효율적이고 곧 공개될 모델인 Llama-Nemotron-Ultra-253B-Base(Ultra-253B-Base)를 만듭니다. 49B에서 253B 매개변수까지의 모델에 대한 광범위한 실험을 통해, 우리는 FFN Fusion이 더 큰 규모에서 점점 더 효과적이 되고 양자화 및 가지치기와 같은 기존 최적화 기술을 보완할 수 있음을 보여줍니다. 가장 흥미로운 점은, 어텐션과 FFN 레이어를 모두 포함하는 전체 변압기 블록조차도 때때로 병렬화될 수 있다는 것을 발견하여 신경 구조 설계에 대한 새로운 방향을 제안합니다.
우리는 병렬화에 대한 자연스러운 기회를 식별하고 활용하여 대규모 언어 모델에서 순차적 계산을 줄이는 아키텍처 최적화 기술인 FFN Fusion을 소개합니다. 우리의 핵심 통찰력은 Feed-Forward Network(FFN) 계층의 시퀀스, 특히 특정 어텐션 계층을 제거한 후 남은 시퀀스는 종종 정확도에 미치는 영향을 최소화하면서 병렬화할 수 있다는 것입니다. 우리는 이러한 시퀀스를 식별하고 융합하여 모델 동작을 보존하면서 추론 지연 시간을 크게 줄이는 병렬 작업으로 변환하는 원칙적인 방법론을 개발합니다. 이러한 기술을 Llama-3.1-405B-Instruct에 적용하여 벤치마크에서 강력한 성능을 유지하면서 추론 지연 시간을 1.71배 단축하고 토큰당 비용을 35배 낮추는 효율적이고 곧 공개될 모델인 Llama-Nemotron-Ultra-253B-Base(Ultra-253B-Base)를 만듭니다. 49B에서 253B 매개변수까지의 모델에 대한 광범위한 실험을 통해, 우리는 FFN Fusion이 더 큰 규모에서 점점 더 효과적이 되고 양자화 및 가지치기와 같은 기존 최적화 기술을 보완할 수 있음을 보여줍니다. 가장 흥미로운 점은, 어텐션과 FFN 레이어를 모두 포함하는 전체 변압기 블록조차도 때때로 병렬화될 수 있다는 것을 발견하여 신경 구조 설계에 대한 새로운 방향을 제안합니다.
전체 0