최신논문

인간 데이터를 넘어서: 언어 모델을 통한 문제 해결을 위한 자체 훈련 확장

작성자
작성일
2024-07-03 23:45
조회
305
https://arxiv.org/abs/2312.06585

사람이 생성한 데이터에 대해 언어 모델(LM)을 미세 조정하는 것은 여전히 널리 사용되는 관행입니다. 그러나 이러한 모델의 성능은 고품질의 인간 데이터의 양과 다양성에 의해 제한되는 경우가 많습니다. 이 백서에서는 스칼라 피드백에 액세스할 수 있는 작업, 예를 들어 정답을 확인할 수 있는 수학 문제에서 인간 데이터를 뛰어넘을 수 있는지 살펴봅니다. 이를 위해 (1) 모델에서 샘플을 생성하고 이진 피드백을 사용해 필터링하고 (2) 이 샘플에 대해 모델을 미세 조정한 다음 (3) 이 과정을 몇 번 반복하는 기대 최대화에 기반한 간단한 자가 학습 방법, 즉 ReSTEM을 살펴봅니다. PaLM-2 모델을 사용해 고급 수학 추론 및 앱 코딩 벤치마크를 테스트한 결과, ReSTEM은 모델 크기에 따라 확장성이 뛰어나고 인간 데이터에 대해서만 미세 조정하는 것보다 훨씬 뛰어난 것으로 나타났습니다. 전반적으로 피드백을 통한 자가 학습은 사람이 생성한 데이터에 대한 의존도를 크게 줄일 수 있음을 시사합니다.
전체 0