최신논문
Genie: 생성적 상호 작용 환경
작성자
작성일
2024-07-04 00:58
조회
327
https://arxiv.org/abs/2402.15391
우리는 레이블이 지정되지 않은 인터넷 비디오에서 비지도 방식으로 학습된 최초의 생성적 상호 작용 환경인 Genie를 소개합니다. 이 모델은 텍스트, 합성 이미지, 사진, 심지어 스케치를 통해 설명된 무한한 다양한 액션 제어 가능 가상 세계를 생성하도록 유도할 수 있습니다. 11B 매개변수에서 Genie는 기초 세계 모델로 간주될 수 있습니다. 시공간 비디오 토크나이저, 자기 회귀 역학 모델, 간단하고 확장 가능한 잠재 액션 모델로 구성되어 있습니다. Genie를 사용하면 사용자는 일반적으로 세계 모델 문헌에서 발견되는 기준 진실 액션 레이블이나 기타 도메인별 요구 사항 없이 학습하더라도 프레임별로 생성된 환경에서 액션을 취할 수 있습니다. 또한 결과적으로 학습된 잠재 액션 공간은 에이전트가 보이지 않는 비디오에서 행동을 모방하도록 학습을 용이하게 하여 미래의 일반 에이전트를 학습할 수 있는 길을 열어줍니다.
우리는 레이블이 지정되지 않은 인터넷 비디오에서 비지도 방식으로 학습된 최초의 생성적 상호 작용 환경인 Genie를 소개합니다. 이 모델은 텍스트, 합성 이미지, 사진, 심지어 스케치를 통해 설명된 무한한 다양한 액션 제어 가능 가상 세계를 생성하도록 유도할 수 있습니다. 11B 매개변수에서 Genie는 기초 세계 모델로 간주될 수 있습니다. 시공간 비디오 토크나이저, 자기 회귀 역학 모델, 간단하고 확장 가능한 잠재 액션 모델로 구성되어 있습니다. Genie를 사용하면 사용자는 일반적으로 세계 모델 문헌에서 발견되는 기준 진실 액션 레이블이나 기타 도메인별 요구 사항 없이 학습하더라도 프레임별로 생성된 환경에서 액션을 취할 수 있습니다. 또한 결과적으로 학습된 잠재 액션 공간은 에이전트가 보이지 않는 비디오에서 행동을 모방하도록 학습을 용이하게 하여 미래의 일반 에이전트를 학습할 수 있는 길을 열어줍니다.
전체 0