최신논문
(2023년 10월) 파운데이션 강화 학습: 파운데이션 사전 지원을 통해 구체화된 일반 요원을 향함
작성자
admin
작성일
2024-07-01 13:48
조회
308
https://arxiv.org/abs/2310.02635
최근에 사람들은 NLP에서 목격된 것처럼 인터넷 규모의 데이터에서 대규모 사전 학습이 일반주의 모델을 구축하는 데 핵심이라는 것을 보여주었습니다. 체화된 일반주의 에이전트를 구축하기 위해 저희와 다른 많은 연구자들은 그러한 기초 사전도 없어서는 안 될 구성 요소라고 가설을 세웠습니다. 그러나 그러한 체화된 기초 사전을 나타내는 적절한 구체적 형태가 무엇이고 다운스트림 작업에서 어떻게 사용해야 하는지는 불분명합니다. 이 논문에서는 기초 정책, 가치 및 성공 보상으로 구성된 직관적이고 효과적인 체화된 사전 집합을 제안합니다. 제안된 사전은 목표 조건 MDP를 기반으로 합니다. 효과를 확인하기 위해 사전의 도움을 받는 행위자-비평가 방법인 Foundation Actor-Critic(FAC)을 인스턴스화합니다. 탐색, 학습 및 강화를 위해 체화된 기초 사전을 완전히 의존하기 때문에 프레임워크를 Foundation Reinforcement Learning(FRL)이라고 명명했습니다. FRL의 이점은 세 가지입니다. (1) 샘플 효율적. 기초 사전을 사용하면 FAC는 기존 RL보다 훨씬 빠르게 학습합니다. 메타 월드에 대한 평가에서 FAC는 200k 프레임 미만에서 7/8 작업에 대해 100% 성공률을 달성할 수 있음을 증명했으며, 이는 1M 프레임에서 신중하게 수동으로 설계된 보상을 사용하는 기준 방법보다 성능이 우수합니다. (2) 노이즈가 많은 사전에 강인함. 저희 방법은 구체화된 기초 모델에서 불가피한 노이즈를 허용합니다. 저희는 FAC가 심한 노이즈나 양자화 오류에서도 잘 작동함을 보여줍니다. (3) 최소한의 인간 개입: FAC는 인간이 지정한 고밀도 보상이나 원격 조작 데모 제공 없이도 기초 사전에서 완전히 학습합니다. 따라서 FAC는 쉽게 확장할 수 있습니다. 저희는 저희의 FRL 프레임워크가 미래의 로봇이 물리적 세계에서 인간의 개입 없이 자율적으로 탐색하고 학습할 수 있도록 할 수 있다고 믿습니다. 요약하자면, 저희가 제안한 FRL은 구체화된 일반주의 에이전트를 달성하기 위한 새롭고 강력한 학습 패러다임입니다.
최근에 사람들은 NLP에서 목격된 것처럼 인터넷 규모의 데이터에서 대규모 사전 학습이 일반주의 모델을 구축하는 데 핵심이라는 것을 보여주었습니다. 체화된 일반주의 에이전트를 구축하기 위해 저희와 다른 많은 연구자들은 그러한 기초 사전도 없어서는 안 될 구성 요소라고 가설을 세웠습니다. 그러나 그러한 체화된 기초 사전을 나타내는 적절한 구체적 형태가 무엇이고 다운스트림 작업에서 어떻게 사용해야 하는지는 불분명합니다. 이 논문에서는 기초 정책, 가치 및 성공 보상으로 구성된 직관적이고 효과적인 체화된 사전 집합을 제안합니다. 제안된 사전은 목표 조건 MDP를 기반으로 합니다. 효과를 확인하기 위해 사전의 도움을 받는 행위자-비평가 방법인 Foundation Actor-Critic(FAC)을 인스턴스화합니다. 탐색, 학습 및 강화를 위해 체화된 기초 사전을 완전히 의존하기 때문에 프레임워크를 Foundation Reinforcement Learning(FRL)이라고 명명했습니다. FRL의 이점은 세 가지입니다. (1) 샘플 효율적. 기초 사전을 사용하면 FAC는 기존 RL보다 훨씬 빠르게 학습합니다. 메타 월드에 대한 평가에서 FAC는 200k 프레임 미만에서 7/8 작업에 대해 100% 성공률을 달성할 수 있음을 증명했으며, 이는 1M 프레임에서 신중하게 수동으로 설계된 보상을 사용하는 기준 방법보다 성능이 우수합니다. (2) 노이즈가 많은 사전에 강인함. 저희 방법은 구체화된 기초 모델에서 불가피한 노이즈를 허용합니다. 저희는 FAC가 심한 노이즈나 양자화 오류에서도 잘 작동함을 보여줍니다. (3) 최소한의 인간 개입: FAC는 인간이 지정한 고밀도 보상이나 원격 조작 데모 제공 없이도 기초 사전에서 완전히 학습합니다. 따라서 FAC는 쉽게 확장할 수 있습니다. 저희는 저희의 FRL 프레임워크가 미래의 로봇이 물리적 세계에서 인간의 개입 없이 자율적으로 탐색하고 학습할 수 있도록 할 수 있다고 믿습니다. 요약하자면, 저희가 제안한 FRL은 구체화된 일반주의 에이전트를 달성하기 위한 새롭고 강력한 학습 패러다임입니다.
전체 0