최신논문
(2023년 11월) 3D 세계의 구체화된 일반주의 에이전트
작성자
admin
작성일
2024-07-03 20:00
조회
306
https://arxiv.org/abs/2311.12871
https://embodied-generalist.github.io/
대규모 언어 모델(LLM)의 방대한 지식을 활용한 최근 머신 러닝 모델은 컴퓨터 비전 및 로봇공학과 같은 다양한 분야에서 범용 작업 해결에 있어 주목할 만한 성공을 거두었습니다. 그러나 몇 가지 중요한 과제가 남아 있습니다. (i) 이러한 모델의 대부분은 2D 이미지에 의존하지만 3D 입력에 대한 용량이 제한적입니다. (ii) 이러한 모델은 3D 세계에서 본질적으로 정의된 작업(예: 3D 접지, 구체화된 추론 및 행동)을 거의 탐색하지 않습니다. 이러한 제한으로 인해 현재 모델이 실제 세계 작업을 수행하고 일반 지능에 접근하는 데 상당한 방해가 된다고 주장합니다. 이를 위해 3D 세계에서 인식, 접지, 추론, 계획 및 행동에 뛰어난 구체화된 다중 모달 일반 에이전트인 LEO를 소개합니다. LEO는 통합된 작업 인터페이스, 모델 아키텍처 및 두 단계의 목표로 훈련됩니다. (i) 3D 시각-언어(VL) 정렬 및 (ii) 3D 시각-언어-행동(VLA) 지침 튜닝. 우리는 다양한 객체 수준 및 장면 수준 작업으로 구성된 대규모 데이터 세트를 수집하는데, 여기에는 3D 세계에 대한 상당한 이해와 상호 작용이 필요합니다. 또한, 우리는 고품질 3D VL 데이터를 생성하기 위해 LLM 지원 파이프라인을 세심하게 설계합니다. 광범위한 실험을 통해 3D 캡션, 질의 응답, 체현 추론, 탐색 및 조작을 포함한 광범위한 작업에서 LEO의 놀라운 능력을 입증합니다. 우리의 절제 연구와 스케일링 분석은 미래의 체현된 일반 에이전트를 개발하는 데 귀중한 통찰력을 제공합니다. 코드와 데이터는 프로젝트 페이지에서 사용할 수 있습니다.
https://embodied-generalist.github.io/
대규모 언어 모델(LLM)의 방대한 지식을 활용한 최근 머신 러닝 모델은 컴퓨터 비전 및 로봇공학과 같은 다양한 분야에서 범용 작업 해결에 있어 주목할 만한 성공을 거두었습니다. 그러나 몇 가지 중요한 과제가 남아 있습니다. (i) 이러한 모델의 대부분은 2D 이미지에 의존하지만 3D 입력에 대한 용량이 제한적입니다. (ii) 이러한 모델은 3D 세계에서 본질적으로 정의된 작업(예: 3D 접지, 구체화된 추론 및 행동)을 거의 탐색하지 않습니다. 이러한 제한으로 인해 현재 모델이 실제 세계 작업을 수행하고 일반 지능에 접근하는 데 상당한 방해가 된다고 주장합니다. 이를 위해 3D 세계에서 인식, 접지, 추론, 계획 및 행동에 뛰어난 구체화된 다중 모달 일반 에이전트인 LEO를 소개합니다. LEO는 통합된 작업 인터페이스, 모델 아키텍처 및 두 단계의 목표로 훈련됩니다. (i) 3D 시각-언어(VL) 정렬 및 (ii) 3D 시각-언어-행동(VLA) 지침 튜닝. 우리는 다양한 객체 수준 및 장면 수준 작업으로 구성된 대규모 데이터 세트를 수집하는데, 여기에는 3D 세계에 대한 상당한 이해와 상호 작용이 필요합니다. 또한, 우리는 고품질 3D VL 데이터를 생성하기 위해 LLM 지원 파이프라인을 세심하게 설계합니다. 광범위한 실험을 통해 3D 캡션, 질의 응답, 체현 추론, 탐색 및 조작을 포함한 광범위한 작업에서 LEO의 놀라운 능력을 입증합니다. 우리의 절제 연구와 스케일링 분석은 미래의 체현된 일반 에이전트를 개발하는 데 귀중한 통찰력을 제공합니다. 코드와 데이터는 프로젝트 페이지에서 사용할 수 있습니다.
전체 0