최신논문

자동화된 프로세스 감독을 통해 언어모델의 수학적 추론 개선

작성일
2024-07-04 12:07
조회
538
https://arxiv.org/abs/2406.06592

수학 문제 해결이나 코드 생성과 같은 복잡한 다단계 추론 작업은 가장 진보된 대규모 언어 모델(LLM)에도 여전히 큰 장애물로 남아 있습니다. 결과 보상 모델(ORM)로 LLM 출력을 검증하는 것은 LLM의 추론 성능을 향상시키는 것을 목표로 하는 표준 추론 시간 기술입니다. 그러나 중간 결과에 적절한 보상이나 처벌이 주어지지 않는 길거나 다중 홉 추론 체인이 있는 추론 작업에는 여전히 충분하지 않은 것으로 입증되었습니다. 프로세스 감독은 추론 프로세스 중에 중간 보상을 할당하여 이러한 한계를 해결합니다. 지금까지 프로세스 감독 데이터를 수집하는 데 사용된 방법은 인간 주석 또는 단계별 몬테카를로 추정에 의존했는데, 둘 다 확장 비용이 엄청나게 많이 들기 때문에 이 기술의 광범위한 적용을 방해했습니다. 이러한 과제에 대응하여 고품질 프로세스 감독 데이터를 효율적으로 수집하기 위한 새로운 분할 정복 스타일의 몬테카를로 트리 탐색(MCTS) 알고리즘인 \textit{OmegaPRM}을 제안합니다. 이 알고리즘은 이진 검색을 통해 Chain of Thought(CoT)의 첫 번째 오류를 빠르게 식별하고 긍정적 및 부정적 예시를 균형 있게 조정하여 효율성과 품질을 모두 보장합니다. 그 결과, 150만 개가 넘는 프로세스 감독 주석을 수집하여 프로세스 보상 모델(PRM)을 훈련할 수 있습니다. 이 완전 자동화된 프로세스 감독과 가중 자기 일관성 알고리즘을 함께 활용하여 명령 조정된 Gemini Pro 모델의 수학 추론 성능을 향상시켜 MATH 벤치마크에서 69.4%의 성공률을 달성했습니다. 이는 51%의 기본 모델 성능에서 36%의 상대적 개선입니다. 또한 전체 프로세스가 인간의 개입 없이 작동하므로 기존 방법에 비해 재정적, 계산적으로 비용 효율적인 방법입니다.
전체 0