최신논문

(2023년 9월) Q-Transformer: 자동회귀 Q-함수를 통한 확장 가능한 오프라인 강화 학습

작성자
admin
작성일
2024-06-25 14:38
조회
345


 


이 연구에서는 인간의 시연과 자율적으로 수집된 데이터를 모두 활용할 수 있는 대규모 오프라인 데이터 세트에서 다중 작업 정책을 훈련하기 위한 확장 가능한 강화 학습 방법을 제시합니다. 우리의 방법은 Transformer를 사용하여 오프라인 시간차 백업을 통해 훈련된 Q 함수에 대한 확장 가능한 표현을 제공합니다. 따라서 우리는 이 방법을 Q-Transformer라고 부릅니다. 각 행동 차원을 이산화하고 각 행동 차원의 Q 값을 별도의 토큰으로 표현함으로써 Q-학습을 위한 효과적인 대용량 시퀀스 모델링 기법을 적용할 수 있습니다. 우리는 오프라인 RL 교육을 통해 우수한 성능을 제공하는 몇 가지 설계 결정을 제시하고 Q-Transformer가 다양한 실제 로봇 조작 작업 제품군에서 이전 오프라인 RL 알고리즘 및 모방 학습 기술보다 성능이 우수하다는 것을 보여줍니다.






전체 0