최신논문

(2023년 8월) 딥마인드 AlphaStar Unplugged: 대규모 오프라인 강화학습

작성자
admin
작성일
2024-06-25 14:01
조회
339
https://arxiv.org/abs/2308.03526

스타크래프트 II는 가장 까다로운 시뮬레이션 강화 학습 환경 중 하나입니다. 부분적으로 관찰 가능하고 확률론적이며 다중 에이전트이며 StarCraft II를 마스터하려면 실시간 하위 수준 실행과 함께 장기간에 걸친 전략 계획이 필요합니다. 또한 활발한 전문 경쟁 현장도 ​​있습니다. StarCraft II는 도전적인 성격과 Blizzard가 인간 플레이어가 플레이하는 수백만 개의 StarCraft II 게임에 대한 대규모 데이터 세트를 공개했기 때문에 오프라인 RL 알고리즘을 발전시키는 데 매우 적합합니다. 이 문서에서는 이를 활용하여 AlphaStar Unplugged라는 벤치마크를 설정하여 오프라인 강화 학습에 대한 전례 없는 과제를 소개합니다. 우리는 데이터 세트(블리자드 릴리스의 하위 세트), 기계 학습 방법을 위한 API를 표준화하는 도구 및 평가 프로토콜을 정의합니다. 또한 행동 복제, 배우 평론가의 오프라인 변형 및 MuZero를 포함한 기본 에이전트도 제공합니다. 오프라인 데이터만을 사용하여 에이전트의 상태를 개선하고, 이전에 발표된 AlphaStar 행동 복제 에이전트에 비해 90%의 승률을 달성합니다.

전체 0