인터뷰/예측

얀 르쿤 "앞으로 3년 안에 인간 수준의 지능으로 가는 길을 열어줄지 여부에 대해 좋은 감을 잡을 수 있을 것"

작성자
하이룽룽
작성일
2025-06-15 07:57
조회
652

다음은 Sky News가 보도한 비바 테크놀로지(Viva Technology) 컨퍼런스에서 진행된 파이낸셜 타임즈의 멜리사 헤킬라(Melissa Hekkilä) 기자와 메타의 수석 AI 과학자 얀 르쿤(Yann LeCun)의 인터뷰 내용을 Q&A 형식으로 정리한 것입니다.





Q1. 멜리사 헤킬라 (기자):

얀, 당신은 계속해서 AI에 대한 우리의 생각을 바꾸는 새로운 AI 모델을 발표하고 있습니다. 올해는 'V-JEPA 2'를 공개했는데요, 이것은 무엇이며 왜 중요한가요?


A1. 얀 르쿤:

V-JEPA 2가 있다는 것은 V-JEPA 1이 있었다는 뜻이겠죠. (웃음) 기본적으로 이 모델은 AI가 가진 세 가지 주요 과제를 해결하기 위한 시도입니다.


  1. 물리적 세계를 이해하는 능력

  2. 추론하는 능력

  3. 계획을 세우는 능력

V-JEPA는 AI가 물리적 세계가 어떻게 작동하는지 학습할 수 있는 최초의 시스템 중 하나입니다. 이는 비디오를 예측하도록 훈련하는 방식으로 이루어집니다. 시스템에 비디오의 일부를 보여준 뒤, 특정 부분을 가리거나(마스킹) 미래 장면을 가려서 시스템이 그 빠진 부분을 예측하도록 훈련시키는 것입니다.

이런 방식의 학습(자기 지도 학습)은 지난 10년 이상 시도되었지만 최근까지는 실패에 가까웠습니다. 왜냐하면 LLM이 텍스트의 다음 단어를 예측하는 것과는 달리, 비디오에서 다음에 일어날 일을 픽셀 단위로 완벽하게 예측하는 것은 불가능하기 때문입니다. 세상은 그렇게 예측 가능하지 않습니다.

그래서 JEPA(Joint Embedding Predictive Architecture, 공동 임베딩 예측 아키텍처)는 모든 픽셀을 재구성하려 하지 않습니다. 대신, 불필요한 세부 정보는 제거하고 비디오의 추상적인 표현(representation)을 학습합니다. 그리고 이 추상적인 공간 내에서 예측을 수행하는 것이죠. V-JEPA의 'V'는 비디오(Video)를 의미합니다.


Q2. 멜리사 헤킬라:

로보틱스 데이터, 즉 3D 세계에서 수집된 물리적인 데이터를 사용하고 있다는 점도 흥미롭습니다. 이것이 왜 중요한가요?


A2. 얀 르쿤:

이는 AI의 두 번째 과제인 계획 수립 능력과 관련이 있습니다. V-JEPA처럼 비디오를 보며 세상의 작동 방식을 이해한 시스템이 있으면, 그 위에 '월드 모델(World Model)'을 훈련시킬 수 있습니다.

월드 모델은 현재 상태와 특정 행동이 주어졌을 때, 그 행동의 결과로 세상이 어떻게 변할지를 예측합니다. 이 월드 모델이 있으면 시스템은 일련의 행동들이 가져올 결과를 상상하고, 이를 통해 목표를 달성하기 위한 최적의 행동 순서를 찾아낼 수 있습니다. 이것이 바로 '계획'입니다. 계획과 추론은 사실상 같은 것이며, 이는 추론 능력을 갖춘 AI 시스템의 청사진을 제공합니다.

저희는 V-JEPA 2를 통해 월드 모델을 훈련시키면 로봇 팔이 물건을 집거나 문을 여는 등의 간단한 동작을 계획할 수 있음을 보여줬습니다. 중요한 점은, 시스템이 특정 작업을 위해 명시적으로 훈련받지 않고도, 스스로 학습한 월드 모델을 사용해 행동의 결과를 예측하고 임무를 완수할 수 있다는 것입니다.


Q3. 멜리사 헤킬라:

그렇다면 이 기술의 실제 사용 사례는 무엇이며, 왜 이 기술을 개발해야 하나요?


A3. 얀 르쿤:

모두가 추론하고, 계획하고, 행동할 수 있는 AI 시스템, 즉 '에이전트(Agentic)' 시스템에 대해 이야기하고 있습니다. 신뢰성 있게 행동하려면 시스템은 자신의 행동이 어떤 결과를 낳을지 상상할 수 있어야 합니다. 현재의 LLM은 이런 내부적인 월드 모델이 없기 때문에, 훈련 데이터에서 본 계획을 단순히 따라 하는 것에 가깝습니다.

하지만 월드 모델이 있다면, 시스템은 훨씬 더 발전된 방식으로 행동할 수 있습니다. 이는 대화 시스템, 디지털 세계에서 활동하는 에이전트, 코드 생성, 그리고 궁극적으로는 가정용 로봇과 같은 물리적 로봇에 모두 적용될 수 있습니다.


Q4. 멜리사 헤킬라:

메타 같은 회사에서 구체적으로 어떤 제품으로 나타날 수 있을까요? 챗봇 이외의 다른 제품들인가요?


A4. 얀 르쿤:

챗봇도 물론 포함됩니다. 하지만 그뿐만 아니라 디지털 세계에서 행동하는 에이전트 시스템, 사용자에 대한 멘탈 모델을 가지고 있어 이미 아는 정보는 반복하지 않고 맞춤형으로 소통하는 시스템, 그리고 여행 예약처럼 복잡한 일련의 작업들을 계획하는 시스템 등을 생각할 수 있습니다. 궁극적으로는 물리적 세계의 로봇까지 이어질 것입니다.


Q5. 멜리사 헤킬라:

AI 분야는 인재 전쟁이라 불릴 만큼 경쟁이 치열합니다. FAIR(메타 AI 연구소)의 비전은 무엇이며, 시장에서 어떻게 차별화하고 있나요?


A5. 얀 르쿤:

저희가 추구하는 'AMI'(Advanced Machine Intelligence, 진보된 기계 지능)에 대한 계획, 즉 JEPA와 같은 아키텍처를 기반으로 하는 접근법은 꽤 독창적이라고 생각합니다. 이는 LLM과 같은 현재의 주류 패러다임이 유용하지 않다는 뜻이 아닙니다. LLM은 단기적으로 매우 유용하며 저희도 당연히 연구하고 있습니다. 하지만 FAIR는 항상 3년, 5년, 10년 뒤를 내다보는 장기적인 연구에 집중해 왔습니다.

이러한 거대한 과학적 문제를 해결하기 위해서는 학계, 다른 기업 등 전체 과학 커뮤니티의 기여가 필수적입니다. 이것이 바로 우리가 오픈 리서치(Open Research)를 실천하고 V-JEPA 2와 같은 코드를 오픈소스로 공개하는 이유입니다.


Q6. 멜리사 헤킬라:

(인공) 초지능(Superintelligence)에 대한 시간 계획은 어떻게 보시나요?


A6. 얀 르쿤:

(웃음) 그건 어려운 질문입니다. 솔직히 말해서 AI 연구자들은 그 예측에서 계속 틀려왔습니다. 제 생각에 저희가 상상하는 기술들이 모두 계획대로 작동한다면, 앞으로 3년 안에 JEPA 접근법이 인간 수준의 지능으로 가는 길을 열어줄지 여부에 대해 좋은 감을 잡을 수 있을 것입니다. 그리고 5년 안에는 물리적 세계를 고양이나 개 수준으로 이해하는 시스템의 초기 프로토타입을 볼 수 있을 것입니다.

하지만 인간 수준 지능에 도달하는 것은 우리가 생각하는 것보다 훨씬 더 어려운 일일 겁니다. 인간이 하는 모든 복잡한 작업은 여러 단계의 추상적인 계획을 필요로 하는데, 이것은 아직 해결되지 않은 문제입니다. 이것이 앞으로 몇 년간 풀어야 할 가장 큰 과제 중 하나입니다.

전체 1

  • 2025-06-15 16:36

    "5년 안에는 물리적 세계를 고양이나 개 수준으로 이해하는 시스템의 초기 프로토타입" < 르쿤햄 선형맛 어지럽다