최신논문
대표성 없음, 신뢰 없음: PPO에서 대표성, 붕괴, 신뢰 문제 연결
작성자
dd
작성일
2024-07-04 10:14
조회
485
https://arxiv.org/abs/2405.00662
강화 학습(RL)은 에이전트가 학습하는 동안 관찰하는 상태와 보상이 변화하는 정책에 따라 달라지기 때문에 본질적으로 비정상성이 만연합니다. 따라서 딥 RL의 네트워크는 새로운 관찰에 적응하고 새로운 대상을 맞출 수 있어야 합니다. 그러나 이전 연구에서는 오프 정책 딥 가치 기반 방법의 네트워크가 표현 순위가 감소하는 것을 관찰했으며, 이는 종종 학습을 계속할 수 없거나 성능이 저하되는 것과 관련이 있습니다. 이러한 현상은 일반적으로 비정상성 하에서 신경망 학습에 기인하지만, 종종 무한정 학습이 가능하다고 생각되는 온 정책 정책 최적화 방법에서는 간과되었습니다. 이 연구에서 우리는 Atari 및 MuJoCo 환경에서 근접 정책 최적화(PPO)의 표현 역학을 경험적으로 연구하여 PPO 에이전트도 기능 순위 저하와 가소성 상실의 영향을 받는다는 것을 밝혔습니다. 우리는 이것이 더 강한 비정상성으로 인해 악화되어 궁극적으로 비평가의 성능과 관계없이 액터의 성능이 저하된다는 것을 보여줍니다. 우리는 PPO에서 표현 붕괴, 성능 붕괴, 신뢰 영역 문제 간의 연관성을 도출하고, 다른 개입과 함께 표현 역학을 정규화하면 PPO 에이전트의 성능이 향상됨을 보여주는 새로운 보조 손실인 PFO(Proximal Feature Optimization)를 제시합니다.
강화 학습(RL)은 에이전트가 학습하는 동안 관찰하는 상태와 보상이 변화하는 정책에 따라 달라지기 때문에 본질적으로 비정상성이 만연합니다. 따라서 딥 RL의 네트워크는 새로운 관찰에 적응하고 새로운 대상을 맞출 수 있어야 합니다. 그러나 이전 연구에서는 오프 정책 딥 가치 기반 방법의 네트워크가 표현 순위가 감소하는 것을 관찰했으며, 이는 종종 학습을 계속할 수 없거나 성능이 저하되는 것과 관련이 있습니다. 이러한 현상은 일반적으로 비정상성 하에서 신경망 학습에 기인하지만, 종종 무한정 학습이 가능하다고 생각되는 온 정책 정책 최적화 방법에서는 간과되었습니다. 이 연구에서 우리는 Atari 및 MuJoCo 환경에서 근접 정책 최적화(PPO)의 표현 역학을 경험적으로 연구하여 PPO 에이전트도 기능 순위 저하와 가소성 상실의 영향을 받는다는 것을 밝혔습니다. 우리는 이것이 더 강한 비정상성으로 인해 악화되어 궁극적으로 비평가의 성능과 관계없이 액터의 성능이 저하된다는 것을 보여줍니다. 우리는 PPO에서 표현 붕괴, 성능 붕괴, 신뢰 영역 문제 간의 연관성을 도출하고, 다른 개입과 함께 표현 역학을 정규화하면 PPO 에이전트의 성능이 향상됨을 보여주는 새로운 보조 손실인 PFO(Proximal Feature Optimization)를 제시합니다.
전체 0