최신논문
(2023년 8월) 딥마인드 AlphaStar Unplugged: 대규모 오프라인 강화학습
작성자
admin
작성일
2024-06-25 14:01
조회
339
https://arxiv.org/abs/2308.03526
스타크래프트 II는 가장 까다로운 시뮬레이션 강화 학습 환경 중 하나입니다. 부분적으로 관찰 가능하고 확률론적이며 다중 에이전트이며 StarCraft II를 마스터하려면 실시간 하위 수준 실행과 함께 장기간에 걸친 전략 계획이 필요합니다. 또한 활발한 전문 경쟁 현장도 있습니다. StarCraft II는 도전적인 성격과 Blizzard가 인간 플레이어가 플레이하는 수백만 개의 StarCraft II 게임에 대한 대규모 데이터 세트를 공개했기 때문에 오프라인 RL 알고리즘을 발전시키는 데 매우 적합합니다. 이 문서에서는 이를 활용하여 AlphaStar Unplugged라는 벤치마크를 설정하여 오프라인 강화 학습에 대한 전례 없는 과제를 소개합니다. 우리는 데이터 세트(블리자드 릴리스의 하위 세트), 기계 학습 방법을 위한 API를 표준화하는 도구 및 평가 프로토콜을 정의합니다. 또한 행동 복제, 배우 평론가의 오프라인 변형 및 MuZero를 포함한 기본 에이전트도 제공합니다. 오프라인 데이터만을 사용하여 에이전트의 상태를 개선하고, 이전에 발표된 AlphaStar 행동 복제 에이전트에 비해 90%의 승률을 달성합니다.
스타크래프트 II는 가장 까다로운 시뮬레이션 강화 학습 환경 중 하나입니다. 부분적으로 관찰 가능하고 확률론적이며 다중 에이전트이며 StarCraft II를 마스터하려면 실시간 하위 수준 실행과 함께 장기간에 걸친 전략 계획이 필요합니다. 또한 활발한 전문 경쟁 현장도 있습니다. StarCraft II는 도전적인 성격과 Blizzard가 인간 플레이어가 플레이하는 수백만 개의 StarCraft II 게임에 대한 대규모 데이터 세트를 공개했기 때문에 오프라인 RL 알고리즘을 발전시키는 데 매우 적합합니다. 이 문서에서는 이를 활용하여 AlphaStar Unplugged라는 벤치마크를 설정하여 오프라인 강화 학습에 대한 전례 없는 과제를 소개합니다. 우리는 데이터 세트(블리자드 릴리스의 하위 세트), 기계 학습 방법을 위한 API를 표준화하는 도구 및 평가 프로토콜을 정의합니다. 또한 행동 복제, 배우 평론가의 오프라인 변형 및 MuZero를 포함한 기본 에이전트도 제공합니다. 오프라인 데이터만을 사용하여 에이전트의 상태를 개선하고, 이전에 발표된 AlphaStar 행동 복제 에이전트에 비해 90%의 승률을 달성합니다.
전체 0