최신논문

대형 언어 원숭이: 반복 샘플링을 통한 추론 컴퓨팅 확장

작성자
하이룽룽
작성일
2024-08-01 16:04
조회
850
https://arxiv.org/abs/2407.21787

언어 모델을 훈련하는 데 사용되는 컴퓨팅 양을 확장하면 성능이 극적으로 향상되었습니다. 그러나 추론과 관련하여 종종 문제당 한 번의 시도로 컴퓨팅 양을 제한합니다. 여기서 생성된 샘플 수를 늘려 확장을 위한 또 다른 축으로 추론 컴퓨팅을 살펴봅니다. 여러 작업과 모델에서 적용 범위(모든 시도로 해결된 문제의 비율)가 샘플 수에 따라 4배 이상 확장되는 것을 관찰했습니다. 모든 답변을 자동으로 검증할 수 있는 코딩 및 공식 증명과 같은 도메인에서 이러한 적용 범위 증가는 직접 성능 향상으로 이어집니다. SWE-bench Lite에 반복 샘플링을 적용하면 DeepSeek-V2-Coder-Instruct로 해결된 문제의 비율이 샘플 1개로 15.9%에서 샘플 250개로 56%로 증가하여 더 유능한 프런티어 모델을 사용하는 최신 단일 시도 43%보다 성능이 우수합니다. 게다가 현재 API 가격을 사용하면 5개의 샘플로 더 저렴한 DeepSeek 모델을 증폭하는 것이 비용 효율적이고 GPT-4o 또는 Claude 3.5 Sonnet의 1개 샘플에 프리미엄을 지불하는 것보다 더 많은 문제를 해결합니다. 흥미롭게도, 적용 범위와 샘플 수 간의 관계는 종종 로그 선형이며 지수 거듭제곱 법칙으로 모델링할 수 있어 추론 시간 스케일링 법칙이 존재함을 시사합니다. 마지막으로, 여러 세대에서 올바른 샘플을 식별하는 것이 자동 검증자가 없는 도메인에서 미래 연구에 중요한 방향으로 남아 있음을 발견했습니다. GSM8K 및 MATH의 수학 단어 문제를 풀 때 Llama-3 모델을 사용한 적용 범위는 10,000개 샘플로 95% 이상으로 증가합니다. 그러나 다수결 투표 또는 보상 모델과 같이 샘플 컬렉션에서 올바른 솔루션을 선택하는 일반적인 방법은 수백 개의 샘플을 넘어서서 정체되고 샘플 예산으로 완전히 확장되지 않습니다

전체 1

  • 2024-08-01 21:49

    개추