최신논문
GR-2: 로봇 조작을 위한 웹 규모 지식을 갖춘 생성적 비디오-언어-행동 모델
작성자
하이룽룽
작성일
2024-11-09 10:33
조회
322
다재다능하고 일반화 가능한 로봇 조작을 위한 최첨단 범용 로봇 에이전트인 GR-2를 소개합니다. GR-2는 먼저 방대한 수의 인터넷 비디오에서 사전 학습되어 세계의 역학을 포착합니다. 3,800만 개의 비디오 클립과 500억 개가 넘는 토큰을 포함하는 이 대규모 사전 학습을 통해 GR-2는 후속 정책 학습 중에 광범위한 로봇 작업과 환경에서 일반화할 수 있는 기능을 갖추게 됩니다. 이어서 GR-2는 로봇 궤적을 사용하여 비디오 생성과 동작 예측을 위해 미세 조정됩니다. 100개가 넘는 작업에서 평균 97.7%의 성공률을 달성하는 인상적인 멀티태스크 학습 기능을 보여줍니다. 게다가 GR-2는 새로운 배경, 환경, 객체 및 작업을 포함하여 이전에 보지 못한 새로운 시나리오에 대한 뛰어난 일반화를 보여줍니다. 특히 GR-2는 모델 크기에 따라 효과적으로 확장되어 지속적인 성장과 응용에 대한 잠재력을 강조합니다.
전체 0