최신논문
여러 시뮬레이션된 세계에서 Instructable 에이전트 확장
작성자
dd
작성일
2024-07-04 09:36
조회
473
https://arxiv.org/abs/2404.10179
임의의 3D 환경에서 임의의 언어 명령을 따를 수 있는 구체화된 AI 시스템을 구축하는 것은 일반 AI를 만드는 데 있어 핵심 과제입니다. 이 목표를 달성하려면 복잡한 작업을 수행하기 위해 지각과 구체화된 행동에서 언어를 기반으로 하는 법을 배워야 합니다. 확장 가능하고 지시 가능한 다중 세계 에이전트(SIMA) 프로젝트는 큐레이팅된 연구 환경과 개방형 상업용 비디오 게임을 포함한 다양한 가상 3D 환경에서 자유형 명령을 따르도록 에이전트를 훈련하여 이를 해결합니다. 저희의 목표는 시뮬레이션된 3D 환경에서 인간이 할 수 있는 모든 것을 수행할 수 있는 지시 가능한 에이전트를 개발하는 것입니다. 저희의 접근 방식은 최소한의 가정을 부과하는 동시에 언어 중심의 일반성에 초점을 맞춥니다. 저희 에이전트는 일반적인 인간과 유사한 인터페이스를 사용하여 실시간으로 환경과 상호 작용합니다. 입력은 이미지 관찰과 언어 명령이고 출력은 키보드와 마우스 동작입니다. 이 일반적인 접근 방식은 어렵지만 에이전트가 시각적으로 복잡하고 의미가 풍부한 여러 환경에서 언어를 기반으로 하는 동시에 새로운 환경에서 에이전트를 쉽게 실행할 수 있습니다. 이 논문에서는 우리의 동기와 목표, 우리가 이룬 초기 진전, 그리고 다양한 연구 환경과 다양한 상업용 비디오 게임을 통해 얻은 유망한 예비 결과에 대해 설명합니다.
임의의 3D 환경에서 임의의 언어 명령을 따를 수 있는 구체화된 AI 시스템을 구축하는 것은 일반 AI를 만드는 데 있어 핵심 과제입니다. 이 목표를 달성하려면 복잡한 작업을 수행하기 위해 지각과 구체화된 행동에서 언어를 기반으로 하는 법을 배워야 합니다. 확장 가능하고 지시 가능한 다중 세계 에이전트(SIMA) 프로젝트는 큐레이팅된 연구 환경과 개방형 상업용 비디오 게임을 포함한 다양한 가상 3D 환경에서 자유형 명령을 따르도록 에이전트를 훈련하여 이를 해결합니다. 저희의 목표는 시뮬레이션된 3D 환경에서 인간이 할 수 있는 모든 것을 수행할 수 있는 지시 가능한 에이전트를 개발하는 것입니다. 저희의 접근 방식은 최소한의 가정을 부과하는 동시에 언어 중심의 일반성에 초점을 맞춥니다. 저희 에이전트는 일반적인 인간과 유사한 인터페이스를 사용하여 실시간으로 환경과 상호 작용합니다. 입력은 이미지 관찰과 언어 명령이고 출력은 키보드와 마우스 동작입니다. 이 일반적인 접근 방식은 어렵지만 에이전트가 시각적으로 복잡하고 의미가 풍부한 여러 환경에서 언어를 기반으로 하는 동시에 새로운 환경에서 에이전트를 쉽게 실행할 수 있습니다. 이 논문에서는 우리의 동기와 목표, 우리가 이룬 초기 진전, 그리고 다양한 연구 환경과 다양한 상업용 비디오 게임을 통해 얻은 유망한 예비 결과에 대해 설명합니다.
전체 0