최신논문

(2023년 10월) 시각-언어 모델은 강화 학습을 위한 제로샷 보상 모델입니다.

작성자
dd
작성일
2024-07-02 15:39
조회
322
https://arxiv.org/abs/2310.12921

강화 학습(RL)은 종종 실행 불가능한 보상 함수를 수동으로 지정하거나, 종종 매우 비용이 많이 드는 대량의 인간 피드백에서 보상 모델을 학습해야 합니다. 우리는 샘플 효율성이 더 높은 대안을 연구합니다. 사전 훈련된 시각 언어 모델(VLM)을 제로샷 보상 모델(RM)로 사용하여 자연어로 작업을 지정합니다. 우리는 VLM-RM이라고 하는 VLM을 보상 모델로 사용하는 자연스럽고 일반적인 접근 방식을 제안합니다. 우리는 CLIP 기반 VLM-RM을 사용하여 무릎 꿇기, 스플릿하기, 연꽃 자세로 앉기와 같이 수동으로 지정된 보상 함수 없이 복잡한 작업을 학습하도록 MuJoCo 휴머노이드를 훈련합니다. 이러한 각 작업에 대해 최소한의 프롬프트 엔지니어링으로 원하는 작업을 설명하는 단일 문장 텍스트 프롬프트만 제공합니다. 훈련된 에이전트의 비디오를 다음에서 제공합니다. https URL . 두 번째 "기준선" 프롬프트를 제공하고 목표와 기준선을 구별하는 데 관련 없는 CLIP 임베딩 공간의 일부를 투사하여 성능을 개선할 수 있습니다. 또한 VLM-RM에 대한 강력한 스케일링 효과를 발견했습니다. 더 많은 컴퓨팅과 데이터로 학습된 더 큰 VLM이 더 나은 보상 모델입니다. 우리가 마주친 VLM-RM의 실패 모드는 모두 제한된 공간 추론 능력이나 VLM에 대한 분포에서 크게 벗어난 시각적으로 비현실적인 환경과 같은 현재 VLM의 알려진 기능 제한과 관련이 있습니다. VLM이 충분히 큰 한 VLM-RM은 놀라울 정도로 견고하다는 것을 발견했습니다. 이는 향후 VLM이 광범위한 RL 애플리케이션에 점점 더 유용한 보상 모델이 될 것임을 시사합니다.
전체 0