최신논문
세계 모델을 통한 다양한 도메인 마스터링 (DreamerV3)
작성자
dd
작성일
2024-07-04 10:12
조회
468
https://arxiv.org/abs/2301.04104
다양한 응용 분야에서 과제를 해결하도록 학습하는 일반 알고리즘을 개발하는 것은 인공 지능 분야에서 근본적인 과제였습니다. 현재의 강화 학습 알고리즘은 개발된 것과 유사한 과제에 쉽게 적용할 수 있지만, 새로운 응용 분야 도메인에 맞게 구성하려면 상당한 인간의 전문 지식과 실험이 필요합니다. 단일 구성으로 150개가 넘는 다양한 과제에서 특수 방법보다 성능이 뛰어난 일반 알고리즘인 DreamerV3를 소개합니다. Dreamer는 환경 모델을 학습하고 미래 시나리오를 상상하여 동작을 개선합니다. 정규화, 균형 및 변환을 기반으로 하는 견고성 기술은 도메인 간에 안정적인 학습을 가능하게 합니다. Dreamer는 상자 밖에서 적용되어 인간 데이터나 커리큘럼 없이 Minecraft에서 다이아몬드를 처음부터 수집하는 최초의 알고리즘입니다. 이러한 성과는 픽셀에서 원대한 전략을 탐색하고 열린 세계에서 희소한 보상을 요구하는 인공 지능에서 상당한 과제로 제기되었습니다. 우리의 작업은 광범위한 실험 없이도 어려운 제어 문제를 해결할 수 있으므로 강화 학습을 광범위하게 적용할 수 있습니다.
다양한 응용 분야에서 과제를 해결하도록 학습하는 일반 알고리즘을 개발하는 것은 인공 지능 분야에서 근본적인 과제였습니다. 현재의 강화 학습 알고리즘은 개발된 것과 유사한 과제에 쉽게 적용할 수 있지만, 새로운 응용 분야 도메인에 맞게 구성하려면 상당한 인간의 전문 지식과 실험이 필요합니다. 단일 구성으로 150개가 넘는 다양한 과제에서 특수 방법보다 성능이 뛰어난 일반 알고리즘인 DreamerV3를 소개합니다. Dreamer는 환경 모델을 학습하고 미래 시나리오를 상상하여 동작을 개선합니다. 정규화, 균형 및 변환을 기반으로 하는 견고성 기술은 도메인 간에 안정적인 학습을 가능하게 합니다. Dreamer는 상자 밖에서 적용되어 인간 데이터나 커리큘럼 없이 Minecraft에서 다이아몬드를 처음부터 수집하는 최초의 알고리즘입니다. 이러한 성과는 픽셀에서 원대한 전략을 탐색하고 열린 세계에서 희소한 보상을 요구하는 인공 지능에서 상당한 과제로 제기되었습니다. 우리의 작업은 광범위한 실험 없이도 어려운 제어 문제를 해결할 수 있으므로 강화 학습을 광범위하게 적용할 수 있습니다.
전체 0