최신논문

더 크고, 정규화되고, 낙관적입니다. 컴퓨팅 및 샘플 효율적 연속 제어를 위한 확장

작성자
ㅇㅇ
작성일
2024-06-27 00:50
조회
424
https://sites.google.com/view/bro-agent/

강화 학습(RL)의 샘플 효율성은 전통적으로 알고리즘 향상에 의해 주도되었습니다. 이 작업에서 우리는 확장이 상당한 개선으로 이어질 수 있음을 보여줍니다. 우리는 확장 모델 용량과 도메인별 RL 향상의 상호 작용에 대해 철저한 조사를 수행합니다. 이러한 경험적 결과는 제안된 BRO(Bigger, Regularized, Optimistic) 알고리즘 의 기본 설계 선택에 대한 정보를 제공합니다 . BRO의 주요 혁신은 강력한 정규화를 통해 중요한 네트워크의 효과적인 확장이 가능하며, 이는 낙관적인 탐색과 결합되어 우수한 성능으로 이어진다는 것입니다. BRO는 DeepMind Control, MetaWorld 및 MyoSuite 벤치마크의 40개 복잡한 작업에 걸쳐 선도적인 모델 기반 및 모델 없는 알고리즘을 크게 능가하는 최첨단 결과를 달성합니다. BRO는 악명 높은 개 및 인간형 작업에서 거의 최적의 정책을 달성하는 최초의 모델 없는 알고리즘입니다.

 

전체 0