최신논문

생성 검증자: 다음 토큰 예측으로서의 보상 모델링

작성자
하이룽룽
작성일
2024-08-28 11:43
조회
702
https://arxiv.org/abs/2408.15240

검증자 또는 보상 모델은 종종 대규모 언어 모델(LLM)의 추론 성능을 향상시키는 데 사용됩니다. 일반적인 접근 방식은 Best-of-N 방법으로, LLM에서 생성된 N개의 후보 솔루션이 검증자에 의해 순위가 매겨지고 최상의 솔루션이 선택됩니다. LLM 기반 검증자는 일반적으로 솔루션을 평가하기 위해 차별 분류자로 훈련되지만 사전 훈련된 LLM의 텍스트 생성 기능을 활용하지 않습니다. 이러한 한계를 극복하기 위해 대신 검증과 솔루션 생성에 공통적으로 사용되는 다음 토큰 예측 목표를 사용하여 검증자를 훈련하는 것을 제안합니다. 표준 검증자와 비교했을 때 이러한 생성 검증자(GenRM)는 LLM의 여러 이점을 활용할 수 있습니다. 명령어 튜닝과 완벽하게 통합되고, 사고의 사슬 추론을 가능하게 하며, 더 나은 검증을 위해 다수결 투표를 통해 추가 추론 시간 컴퓨팅을 활용할 수 있습니다. 우리는 알고리즘 및 초등학교 수학 추론 과제에 Gemma 기반 검증기를 사용할 때 GenRM이 차별적 검증기와 LLM-as-a-Judge보다 성능이 뛰어나 Best-of-N으로 해결된 문제의 비율이 16-64% 향상됨을 보여줍니다. 또한 GenRM이 데이터 세트 크기, 모델 용량 및 추론 시간 컴퓨팅에서 유리하게 확장됨을 보여줍니다.
전체 0