최신논문
다중 토큰 예측을 통한 더 나은, 더 빠른 대규모 언어 모델
작성자
dd
작성일
2024-07-04 10:05
조회
368
https://arxiv.org/abs/2404.19737
GPT 및 Llama와 같은 대규모 언어 모델은 다음 토큰 예측 손실로 훈련됩니다. 이 작업에서 우리는 언어 모델을 훈련하여 여러 미래 토큰을 한 번에 예측하면 샘플 효율성이 높아진다고 제안합니다. 보다 구체적으로, 훈련 코퍼스의 각 위치에서 우리는 모델에 공유 모델 트렁크 위에서 작동하는 n개의 독립적인 출력 헤드를 사용하여 다음 n개의 토큰을 예측하도록 요청합니다. 다중 토큰 예측을 보조 훈련 작업으로 고려할 때, 우리는 코드와 자연어 모델 모두에 대해 훈련 시간에 오버헤드 없이 향상된 다운스트림 기능을 측정합니다. 이 방법은 더 큰 모델 크기에 점점 더 유용해지고 있으며, 여러 에포크에 대해 훈련할 때에도 여전히 매력적입니다. 코딩과 같은 생성 벤치마크에서 특히 이득이 두드러지는데, 여기서 우리 모델은 지속적으로 강력한 기준선을 몇 퍼센트 포인트 더 능가합니다. 우리의 13B 매개변수 모델은 비슷한 다음 토큰 모델보다 HumanEval에서 12% 더 많은 문제를 풀고 MBPP에서 17% 더 많은 문제를 풉니다. 소규모 알고리즘 작업에 대한 실험은 다중 토큰 예측이 귀납 헤드와 알고리즘 추론 기능 개발에 유리하다는 것을 보여줍니다. 추가적인 이점으로, 4토큰 예측으로 학습된 모델은 배치 크기가 크더라도 추론 속도가 최대 3배 더 빠릅니다.
GPT 및 Llama와 같은 대규모 언어 모델은 다음 토큰 예측 손실로 훈련됩니다. 이 작업에서 우리는 언어 모델을 훈련하여 여러 미래 토큰을 한 번에 예측하면 샘플 효율성이 높아진다고 제안합니다. 보다 구체적으로, 훈련 코퍼스의 각 위치에서 우리는 모델에 공유 모델 트렁크 위에서 작동하는 n개의 독립적인 출력 헤드를 사용하여 다음 n개의 토큰을 예측하도록 요청합니다. 다중 토큰 예측을 보조 훈련 작업으로 고려할 때, 우리는 코드와 자연어 모델 모두에 대해 훈련 시간에 오버헤드 없이 향상된 다운스트림 기능을 측정합니다. 이 방법은 더 큰 모델 크기에 점점 더 유용해지고 있으며, 여러 에포크에 대해 훈련할 때에도 여전히 매력적입니다. 코딩과 같은 생성 벤치마크에서 특히 이득이 두드러지는데, 여기서 우리 모델은 지속적으로 강력한 기준선을 몇 퍼센트 포인트 더 능가합니다. 우리의 13B 매개변수 모델은 비슷한 다음 토큰 모델보다 HumanEval에서 12% 더 많은 문제를 풀고 MBPP에서 17% 더 많은 문제를 풉니다. 소규모 알고리즘 작업에 대한 실험은 다중 토큰 예측이 귀납 헤드와 알고리즘 추론 기능 개발에 유리하다는 것을 보여줍니다. 추가적인 이점으로, 4토큰 예측으로 학습된 모델은 배치 크기가 크더라도 추론 속도가 최대 3배 더 빠릅니다.
전체 0