최신논문
LLM 테스트 시간 컴퓨팅을 최적으로 확장하는 것이 모델 매개변수를 확장하는 것보다 더 효과적일 수 있습니다.
작성자
하이룽룽
작성일
2024-08-07 11:01
조회
721
https://arxiv.org/abs/2408.03314
LLM이 더 많은 테스트 시간 계산을 사용하여 출력을 개선할 수 있도록 하는 것은 개방형 자연어에서 작동할 수 있는 일반적으로 자체 개선 에이전트를 구축하기 위한 중요한 단계입니다. 이 논문에서 우리는 LLM에서 추론 시간 계산의 확장을 연구하며, 다음 질문에 답하는 데 중점을 둡니다. LLM이 고정되지만 사소하지 않은 양의 추론 시간 계산을 사용하도록 허용된다면 어려운 프롬프트에서 성능을 얼마나 개선할 수 있을까요? 이 질문에 답하는 것은 LLM의 달성 가능한 성능뿐만 아니라 LLM 사전 학습의 미래와 추론 시간 및 사전 학습 계산을 어떻게 절충해야 하는지에 대한 영향을 미칩니다. 그 중요성에도 불구하고 다양한 테스트 시간 추론 방법의 확장 동작을 이해하려는 연구는 거의 없습니다. 게다가 현재 작업은 이러한 전략 중 다수에 대해 부정적인 결과를 제공합니다. 이 연구에서 우리는 테스트 시간 계산을 확장하는 두 가지 기본 메커니즘을 분석합니다. (1) 밀도가 높고 프로세스 기반 검증자 보상 모델에 대한 검색; (2) 테스트 시간에 프롬프트가 주어진 응답에 대한 모델의 분포를 적응적으로 업데이트합니다. 두 경우 모두 테스트 시간 컴퓨팅을 확장하는 다양한 접근 방식의 효과는 프롬프트의 난이도에 따라 크게 다릅니다. 이 관찰은 "컴퓨팅 최적" 확장 전략을 적용하는 동기를 부여하는데, 이는 프롬프트당 테스트 시간 컴퓨팅을 적응적으로 가장 효과적으로 할당하는 역할을 합니다. 이 컴퓨팅 최적 전략을 사용하면 N 기준선에 비해 테스트 시간 컴퓨팅 확장의 효율성을 4배 이상 향상시킬 수 있습니다. 또한 FLOPs 매칭 평가에서 더 작은 기본 모델이 다소 사소하지 않은 성공률을 달성하는 문제에서 테스트 시간 컴퓨팅을 사용하여 14배 더 큰 모델보다 더 나은 성과를 낼 수 있음을 발견했습니다.
LLM이 더 많은 테스트 시간 계산을 사용하여 출력을 개선할 수 있도록 하는 것은 개방형 자연어에서 작동할 수 있는 일반적으로 자체 개선 에이전트를 구축하기 위한 중요한 단계입니다. 이 논문에서 우리는 LLM에서 추론 시간 계산의 확장을 연구하며, 다음 질문에 답하는 데 중점을 둡니다. LLM이 고정되지만 사소하지 않은 양의 추론 시간 계산을 사용하도록 허용된다면 어려운 프롬프트에서 성능을 얼마나 개선할 수 있을까요? 이 질문에 답하는 것은 LLM의 달성 가능한 성능뿐만 아니라 LLM 사전 학습의 미래와 추론 시간 및 사전 학습 계산을 어떻게 절충해야 하는지에 대한 영향을 미칩니다. 그 중요성에도 불구하고 다양한 테스트 시간 추론 방법의 확장 동작을 이해하려는 연구는 거의 없습니다. 게다가 현재 작업은 이러한 전략 중 다수에 대해 부정적인 결과를 제공합니다. 이 연구에서 우리는 테스트 시간 계산을 확장하는 두 가지 기본 메커니즘을 분석합니다. (1) 밀도가 높고 프로세스 기반 검증자 보상 모델에 대한 검색; (2) 테스트 시간에 프롬프트가 주어진 응답에 대한 모델의 분포를 적응적으로 업데이트합니다. 두 경우 모두 테스트 시간 컴퓨팅을 확장하는 다양한 접근 방식의 효과는 프롬프트의 난이도에 따라 크게 다릅니다. 이 관찰은 "컴퓨팅 최적" 확장 전략을 적용하는 동기를 부여하는데, 이는 프롬프트당 테스트 시간 컴퓨팅을 적응적으로 가장 효과적으로 할당하는 역할을 합니다. 이 컴퓨팅 최적 전략을 사용하면 N 기준선에 비해 테스트 시간 컴퓨팅 확장의 효율성을 4배 이상 향상시킬 수 있습니다. 또한 FLOPs 매칭 평가에서 더 작은 기본 모델이 다소 사소하지 않은 성공률을 달성하는 문제에서 테스트 시간 컴퓨팅을 사용하여 14배 더 큰 모델보다 더 나은 성과를 낼 수 있음을 발견했습니다.
전체 0