최신논문

(2023년 6월) 감독된 사전훈련은 상황 내 강화학습을 학습할 수 있음

작성자
작성일
2024-06-25 13:46
조회
441
https://arxiv.org/abs/2306.14892

다양한 데이터 세트에 대해 훈련된 대형 변환기 모델은 상황에 맞게 학습할 수 있는 놀라운 능력을 보여주었으며, 해결하도록 명시적으로 훈련되지 않은 작업에 대해 높은 Few-Shot 성능을 달성했습니다. 본 논문에서는 의사 결정 문제, 즉 적기를 위한 강화 학습(RL) 및 Markov 의사 결정 프로세스에서 변환기의 상황 내 학습 기능을 연구합니다. 이를 위해 변환기가 다양한 작업 집합에 걸쳐 쿼리 상태와 상황에 맞는 상호 작용 데이터 세트를 바탕으로 최적의 동작을 예측하는 지도 사전 훈련 방법인 DPT(Decision-Pretrained Transformer)를 소개하고 연구합니다. 이 절차는 간단하지만 몇 가지 놀라운 기능을 갖춘 모델을 생성합니다. 우리는 사전 훈련된 변환기를 사용하여 컨텍스트 내에서 다양한 RL 문제를 해결할 수 있으며 명시적으로 훈련받지 않았음에도 불구하고 온라인 탐색과 오프라인 보수성을 모두 나타낼 수 있음을 발견했습니다. 또한 이 모델은 사전 훈련 배포를 넘어 새로운 작업으로 일반화하고 의사 결정 전략을 알려지지 않은 구조에 자동으로 적용합니다. 이론적으로 우리는 DPT가 샘플 효율적인 RL 알고리즘인 베이지안 사후 샘플링의 효율적인 구현으로 볼 수 있음을 보여줍니다. 우리는 이 연결을 더욱 활용하여 DPT가 산출한 상황 내 알고리즘의 후회에 대한 보장을 제공하고 사전 훈련 데이터를 생성하는 데 사용된 알고리즘보다 더 빠르게 학습할 수 있음을 증명합니다. 이러한 결과는 변환기에 강력한 상황 내 의사 결정 능력을 주입하는 유망하면서도 간단한 경로를 제시합니다.

전체 0