최신논문
오프라인 Actor-Critic 강화 학습은 대형 모델로 확장됩니다.
작성자
dd
작성일
2024-07-08 23:20
조회
497
https://arxiv.org/abs/2402.05546
오프라인 액터-비평가 강화 학습이 변압기와 같은 대형 모델로 확장될 수 있으며 지도 학습과 유사한 확장 법칙을 따른다는 것을 보여줍니다. 오프라인 액터-비평가 알고리즘이 132개의 연속 제어 작업에 대한 최적이 아닌 행동과 전문가 행동을 모두 포함하는 대규모 데이터 세트에 대한 다중 작업 학습을 위한 강력하고 지도되는 행동 복제 기준선보다 성능이 우수할 수 있음을 발견했습니다. 우리는 Perceiver 기반 액터-비평가 모델을 소개하고 오프라인 RL이 자기 및 교차 주의 모듈과 함께 작동하도록 하는 데 필요한 주요 모델 기능을 설명합니다. 전반적으로 다음을 발견했습니다.
i) 간단한 오프라인 액터 비평가 알고리즘은 현재 우세한 행동 복제 패러다임에서 점차 벗어나기 위한 자연스러운 선택이며
ii) 오프라인 RL을 통해 최적이 아닌 데모 또는 자체 생성 데이터에서 실제 로봇 작업을 포함하여 여러 도메인을 동시에 마스터하는 다중 작업 정책을 학습할 수 있습니다.
오프라인 액터-비평가 강화 학습이 변압기와 같은 대형 모델로 확장될 수 있으며 지도 학습과 유사한 확장 법칙을 따른다는 것을 보여줍니다. 오프라인 액터-비평가 알고리즘이 132개의 연속 제어 작업에 대한 최적이 아닌 행동과 전문가 행동을 모두 포함하는 대규모 데이터 세트에 대한 다중 작업 학습을 위한 강력하고 지도되는 행동 복제 기준선보다 성능이 우수할 수 있음을 발견했습니다. 우리는 Perceiver 기반 액터-비평가 모델을 소개하고 오프라인 RL이 자기 및 교차 주의 모듈과 함께 작동하도록 하는 데 필요한 주요 모델 기능을 설명합니다. 전반적으로 다음을 발견했습니다.
i) 간단한 오프라인 액터 비평가 알고리즘은 현재 우세한 행동 복제 패러다임에서 점차 벗어나기 위한 자연스러운 선택이며
ii) 오프라인 RL을 통해 최적이 아닌 데모 또는 자체 생성 데이터에서 실제 로봇 작업을 포함하여 여러 도메인을 동시에 마스터하는 다중 작업 정책을 학습할 수 있습니다.
전체 0