최신논문

언어모델은 비밀리에 Q-함수입니다

작성자
dd
작성일
2024-07-04 09:39
조회
356
https://arxiv.org/abs/2404.12358

인간 피드백을 통한 강화 학습(RLHF)은 최신 세대 생성 AI 모델의 성공에 중요한 역할을 했습니다. 고전적인 RLHF 파이프라인의 복잡한 특성에 대응하여 직접 선호도 최적화(DPO)와 같은 직접 정렬 알고리즘이 대안적인 접근 방식으로 등장했습니다. DPO는 표준 RLHF 설정과 동일한 목표를 해결하지만 두 접근 방식 간에는 불일치가 있습니다. 표준 RLHF는 특정 토큰 수준 MDP에서 강화 학습을 배포하는 반면 DPO는 모델의 전체 응답이 단일 팔로 처리되는 밴딧 문제로 파생됩니다. 이 작업에서 우리는 이 차이를 바로잡습니다. 먼저 토큰 수준 MDP에서 DPO를 벨만 방정식을 충족하는 일반적인 역 Q-학습 알고리즘으로 파생할 수 있음을 이론적으로 보여줍니다. 이론적 결과를 사용하여 세 가지 구체적인 경험적 통찰력을 제공합니다. 먼저 토큰 수준 해석으로 인해 DPO가 어떤 유형의 크레딧 할당을 수행할 수 있음을 보여줍니다. 다음으로, 토큰 수준 공식화에서 최근 언어 생성 공간에 적용된 MCTS와 같은 고전적 검색 기반 알고리즘이 DPO 정책에 대한 우도 기반 검색과 동일하다는 것을 증명합니다. 경험적으로 간단한 빔 검색이 기본 DPO 정책보다 의미 있는 개선을 가져온다는 것을 보여줍니다. 마지막으로, 참조 정책의 선택이 어떻게 훈련 중에 암묵적 보상이 감소하는지 보여줍니다. 다중 튜너 대화에서의 정보 유도, 추론, 에이전트 응용 프로그램 및 다중 모델 시스템의 종단 간 훈련을 포함하여 작업의 응용 프로그램을 논의하여 마무리합니다.
전체 0