최신논문
rstar-math: 소규모 LLM도 스스로 진화한 딥씽킹으로 수학 추론을 마스터할 수 있습니다.
작성자
작성일
2025-01-09 18:53
조회
486
https://arxiv.org/abs/2501.04519
우리는 소규모 언어 모델(SLM)이 우수한 모델의 증류 없이 OpenAI o1의 수학적 추론 능력에 필적하거나 심지어 능가할 수 있음을 보여주기 위해 rStar-Math를 제시합니다. rStar-Math는 수학 정책 SLM이 SLM 기반 프로세스 보상 모델에 따라 테스트 시간 검색을 수행하는 MCTS(Monte Carlo Tree Search)를 통해 "깊은 사고"를 수행함으로써 이를 달성합니다. rStar-Math는 두 가지 SLM 훈련의 문제를 해결하기 위해 세 가지 혁신을 소개합니다: (1) 정책 SLM을 훈련하는 데 사용되는 단계별로 검증된 추론 궤적을 생성하기 위해 광범위한 MCTS 롤아웃을 수행하는 새로운 코드 증강 CoT 데이터 시스템 방법; (2) 순진한 단계 수준 점수 주석을 피하고 보다 효과적인 프로세스 선호 모델(PPM)을 생성하는 새로운 프로세스 보상 모델 학습 방법; (3) 정책 SLM 및 PPM을 처음부터 구축하고 추론 능력을 향상시키기 위해 반복적으로 진화하는 자기 진화 레시피. 747k 수학 문제에 대한 수백만 개의 합성 솔루션으로 4 라운드의 자체 진화를 통해 rStar-Math는 SLM의 수학 추론을 최첨단 수준으로 향상시킵니다. MATH 벤치마크에서는 Qwen2.5-Math-7B를 58.8%에서 90.0%로, Phi3-mini-3.8B를 41.4%에서 86.4%로 개선하여 o1-preview를 +4.5% 및 +0.9% 능가합니다. 미국 수학 올림피아드(AIME)에서 rStar-Math는 평균 53.3%(8/15) 문제를 해결하여 가장 똑똑한 고등학교 수학 학생 상위 20%에 속합니다. 코드 및 데이터는 이 https URL에서 사용할 수 있습니다.
우리는 소규모 언어 모델(SLM)이 우수한 모델의 증류 없이 OpenAI o1의 수학적 추론 능력에 필적하거나 심지어 능가할 수 있음을 보여주기 위해 rStar-Math를 제시합니다. rStar-Math는 수학 정책 SLM이 SLM 기반 프로세스 보상 모델에 따라 테스트 시간 검색을 수행하는 MCTS(Monte Carlo Tree Search)를 통해 "깊은 사고"를 수행함으로써 이를 달성합니다. rStar-Math는 두 가지 SLM 훈련의 문제를 해결하기 위해 세 가지 혁신을 소개합니다: (1) 정책 SLM을 훈련하는 데 사용되는 단계별로 검증된 추론 궤적을 생성하기 위해 광범위한 MCTS 롤아웃을 수행하는 새로운 코드 증강 CoT 데이터 시스템 방법; (2) 순진한 단계 수준 점수 주석을 피하고 보다 효과적인 프로세스 선호 모델(PPM)을 생성하는 새로운 프로세스 보상 모델 학습 방법; (3) 정책 SLM 및 PPM을 처음부터 구축하고 추론 능력을 향상시키기 위해 반복적으로 진화하는 자기 진화 레시피. 747k 수학 문제에 대한 수백만 개의 합성 솔루션으로 4 라운드의 자체 진화를 통해 rStar-Math는 SLM의 수학 추론을 최첨단 수준으로 향상시킵니다. MATH 벤치마크에서는 Qwen2.5-Math-7B를 58.8%에서 90.0%로, Phi3-mini-3.8B를 41.4%에서 86.4%로 개선하여 o1-preview를 +4.5% 및 +0.9% 능가합니다. 미국 수학 올림피아드(AIME)에서 rStar-Math는 평균 53.3%(8/15) 문제를 해결하여 가장 똑똑한 고등학교 수학 학생 상위 20%에 속합니다. 코드 및 데이터는 이 https URL에서 사용할 수 있습니다.
전체 0