최신논문

월드 모델링을 위한 확산: Atari에서는 시각적 세부 사항이 중요합니다

작성자
dd
작성일
2024-07-04 11:10
조회
448
https://arxiv.org/abs/2405.12399

https://github.com/eloialonso/diamond

월드 모델은 안전하고 샘플 효율적인 방식으로 강화 학습 에이전트를 훈련하기 위한 유망한 접근 방식을 구성합니다. 최근 세계 모델은 주로 환경 역학을 모델링하기 위해 개별 잠재 변수의 시퀀스에서 작동합니다. 그러나 컴팩트한 이산 표현으로의 압축은 강화 학습에 중요한 시각적 세부 정보를 무시할 수 있습니다. 동시에 확산 모델은 이미지 생성을 위한 지배적인 접근 방식이 되었으며, 이산 잠재성을 모델링하는 잘 확립된 방법에 도전하고 있습니다.

이러한 패러다임 전환에 힘입어 우리는 확산 세계 모델에서 훈련된 강화 학습 에이전트인 DIAMOND(DIffusion As a Model Of eNvironment Dreams)를 소개합니다. 우리는 세계 모델링에 적합한 확산을 만드는 데 필요한 주요 디자인 선택을 분석하고 개선된 시각적 세부 정보가 어떻게 에이전트 성능 향상으로 이어질 수 있는지 보여줍니다. DIAMOND는 경쟁력 있는 Atari 100k 벤치마크에서 평균 인간 표준화 점수 1.46을 달성했습니다. 월드 모델 내에서 완전히 훈련된 에이전트를 위한 새로운 최고 수준입니다. 세계 모델링 확산에 대한 향후 연구를 촉진하기 위해 우리는 이 https URL 에서 코드, 에이전트 및 플레이 가능한 세계 모델을 공개합니다 .

 
전체 0