최신논문

(2023년 9월) RAIN: 언어모델은 미세조정 없이 스스로 정렬될 수 있습니다.

작성자
작성일
2024-06-25 14:48
조회
326
https://arxiv.org/abs/2309.07124

LLM(대규모 언어 모델)은 인간의 선호도와 불일치하는 경우가 많습니다. 이전 연구에서는 일반적으로 인간의 선호도 데이터를 수집한 다음 강화 학습 또는 명령 조정(미세 조정 단계라고도 함)을 사용하여 사전 훈련된 모델을 정렬했습니다. 대조적으로, 정렬 데이터 없이 고정된 LLM을 정렬하는 것이 더 매력적입니다. 이 작업은 후자 설정의 잠재력을 탐구합니다. 우리는 자체 평가와 되감기 메커니즘을 통합함으로써 정렬되지 않은 LLM이 자체 부스팅을 통해 인간 선호도와 일치하는 응답을 직접 생성할 수 있음을 발견했습니다. 사전 훈련된 LLM이 자신의 생성을 평가하고 평가 결과를 사용하여 AI 안전을 위한 되감기 및 생성을 안내할 수 있는 새로운 추론 방법인 Rewindable Auto-regressive INference(RAIN)를 소개합니다. 특히 RAIN은 모델 정렬을 위한 추가 데이터 없이 작동하며 교육, 경사 계산 또는 매개변수 업데이트를 삼가합니다. GPT-4와 인간이 평가한 실험 결과는 RAIN의 효과를 보여줍니다. HH 데이터 세트에서 RAIN은 유용성 비율을 유지하면서 LLaMA 30B의 무해성 비율을 바닐라 추론의 82%에서 97%로 향상시킵니다. TruthfulQA 데이터 세트에서 RAIN은 이미 잘 정렬된 LLaMA-2-chat 13B 모델의 진실성을 5% 향상시킵니다.
전체 0