최신논문
V-JEPA 2 소개
https://arxiv.org/abs/2506.09985
얀 르쿤(Yann LeCun) 교수가 주도한 V-JEPA 2 논문에 대해 핵심만 쏙쏙 뽑아 최대한 알기 쉽게 설명해 드리겠습니다.
이 논문은 AI가 '스스로 세상을 이해하고, 미래를 예측하며, 행동을 계획하는 방법'에 대한 아주 중요한 진전을 보여줍니다.
1. 이 연구의 핵심 목표: "세상에 대한 상식을 가진 AI"
얀 르쿤 교수는 오랫동안 AI가 인간처럼 되려면 '월드 모델(World Model)'을 배워야 한다고 주장해왔습니다. 월드 모델이란, 세상이 어떻게 돌아가는지에 대한 내적인 이해(직관, 상식)를 의미합니다.
-
아기를 생각해보세요. 아기는 수많은 비디오(세상 관찰)를 보면서 "공을 던지면 날아간다", "컵을 놓으면 떨어진다"와 같은 물리 법칙을 스스로 배웁니다. 누가 정답을 알려주지 않아도요.
-
V-JEPA 2의 목표는 AI에게 바로 이 '아기'와 같은 학습 능력을 주는 것입니다. 즉, 방대한 양의 비디오를 보고 스스로 세상의 작동 원리를 터득하게 하는 것입니다.
2. V-JEPA 2는 무엇이고, 어떻게 학습하는가? (JEPA의 원리)
V-JEPA 2는 '비디오를 위한 공동 임베딩 예측 아키텍처(Video-Joint Embedding Predictive Architecture)'의 약자입니다. 이름은 복잡하지만 원리는 직관적입니다.
핵심 아이디어: "가려진 부분의 '의미'를 예측하라!"
기존의 많은 AI는 비디오의 가려진 부분을 '픽셀 단위'로 복원하려고 했습니다. 마치 포토샵으로 지워진 부분을 채우는 것처럼요. 하지만 이건 비효율적입니다. 나뭇잎의 모든 잎맥이나 잔디의 모든 풀잎을 정확히 그리는 건 너무 어렵고, 세상의 '이해'와는 거리가 멉니다.
V-JEPA는 다른 방식을 씁니다.
-
비디오의 일부를 가립니다. (마치 퍼즐 조각을 빼놓는 것처럼)
-
AI에게 "이 가려진 부분에 어떤 내용(의미)이 있었을까?"를 예측하게 합니다.
-
이때, 픽셀 하나하나를 복원하는 대신, 가려진 부분의 '의미(추상적인 표현)'를 예측하도록 학습합니다.
예시: 강아지가 공을 향해 달려가는 비디오에서, 미래의 한 부분을 가립니다. AI는 그 부분에 '공에 거의 다다른 강아지의 모습'이라는 추상적인 정보가 있을 것이라고 예측합니다. 강아지의 털 한 올까지 맞추는 게 아니라, 전체적인 맥락과 의미를 맞추는 것이죠.
이 방식은 AI가 세상의 불필요한 디테일은 무시하고, 중요한 핵심 원리(물체의 움직임, 상호작용 등)에 집중하게 만듭니다.
3. V-JEPA 2의 놀라운 2단계 학습 전략
V-JEPA 2의 성공 비결은 영리한 2단계 학습에 있습니다.
1단계: 월드 모델 사전학습 (V-JEPA 2)
-
학습 자료: 인터넷에 있는 100만 시간 분량의 비디오 (유튜브 등)
-
학습 목표: 세상에 대한 일반적인 상식(월드 모델)을 배웁니다. 이 단계에서는 행동(action)에 대한 정보 없이 오직 관찰만으로 학습합니다. "사람은 이렇게 걷는구나", "물체는 이렇게 움직이는구나" 등을 배우는 거죠.
2단계: 행동 기반 모델 후학습 (V-JEPA 2-AC)
-
학습 자료: 단 62시간 분량의 로봇 팔 움직임 데이터 (사람이 조종한 데이터)
-
학습 목표: 이제 "내가 어떤 행동(action)을 하면, 세상이 어떻게 바뀔까?"를 배웁니다.
-
핵심 기술: 1단계에서 학습한 거대한 V-JEPA 2 모델은 그대로 두고(freeze), 그 위에 '행동 예측기'라는 작은 모듈만 추가로 학습시킵니다.
이것이 왜 중요할까요?
값비싸고 얻기 힘든 로봇 데이터를 아주 조금만 사용해서, 이미 인터넷 비디오로 세상의 상식을 터득한 AI에게 '행동의 결과'만 가르치는 것입니다. 매우 효율적이죠.
4. 그래서 V-JEPA 2가 뭘 할 수 있게 되었는가? (주요 성과)
V-JEPA 2는 이해, 예측, 계획 세 가지 영역에서 놀라운 성과를 보여줬습니다.
1. 이해 (Understanding)
-
동작 인식: "사람이 물건을 집어 던진다"와 같은 복잡한 행동을 매우 높은 정확도로 이해했습니다. (Something-Something v2 벤치마크에서 SOTA 달성)
-
비디오 질의응답 (VQA): V-JEPA 2를 LLM(거대 언어 모델)과 연결했더니, "비디오에서 남자가 다음에 무엇을 할 것 같아?" 같은 질문에 최고 수준으로 답변했습니다. 이는 V-JEPA 2가 배운 지식이 언어와 결합될 수 있을 만큼 의미가 풍부하다는 뜻입니다.
2. 예측 (Prediction)
-
행동 예측: 요리하는 사람의 비디오를 보고, 1초 뒤에 어떤 행동(칼질, 재료 넣기 등)을 할지 예측하는 문제에서 기존 모델들을 압도적인 성능 차이로 이겼습니다. (Epic-Kitchens-100 벤치마크에서 44% 상대적 성능 향상)
3. 계획 (Planning) - 가장 흥미로운 부분!
-
로봇 제어: V-JEPA 2-AC 모델을 실제 로봇 팔(Franka arm)에 탑재했습니다.
-
"제로샷(Zero-shot)" 제어 성공: 이 로봇을 위해 단 한 번도 학습한 적 없는 새로운 환경과 새로운 물체에 대해, 목표 이미지(예: "컵을 저기로 옮겨놔")만 보여주자 로봇이 스스로 행동을 계획해서 임무를 완수했습니다.
-
작동 방식 (모델 예측 제어, MPC):
-
로봇은 목표 이미지를 봅니다.
-
머릿속으로 여러 가능한 행동 순서(계획)를 시뮬레이션합니다.
-
각 계획의 결과를 V-JEPA 2-AC로 예측하여, 어떤 계획이 목표 이미지와 가장 가까워지는지 계산합니다.
-
가장 좋은 계획의 첫 번째 행동을 실행하고, 다시 1번부터 반복합니다. (마치 체스 선수가 몇 수 앞을 내다보는 것처럼)
-
결론 및 의의
-
실용적인 월드 모델의 가능성: 엄청난 양의 비디오(관찰)와 소량의 실제 데이터(상호작용)를 결합하여, AI가 세상에 대한 상식을 배우고 실제 행동까지 계획할 수 있음을 증명했습니다.
-
JEPA 아키텍처의 강력함: 픽셀을 예측하는 생성 모델 방식보다, 추상적인 의미를 예측하는 JEPA 방식이 월드 모델을 학습하는 데 더 효율적이고 강력할 수 있다는 것을 보여주었습니다.
-
미래 AI와 로봇 공학의 청사진: 이 연구는 앞으로 AI 에이전트와 로봇이 처음 보는 환경에서도 스스로 적응하고 문제를 해결하는 '범용 AI'로 나아가는 중요한 이정표가 될 것입니다.