인터뷰/예측

얀르쿤 "앞으로 몇 년 안에 JEPA 모델이 어디까지 갈 것 같냐고 묻는다면, 2년은 조금 짧다. 5년이면 완전한 세계 정복이라고 말할 수 있다."

작성자
하이룽룽
작성일
2026-05-18 21:02
조회
3




얀 르쿤 인터뷰 정리

1. LLM에 대한 기본 입장

얀 르쿤:
나는 LLM이 쓸모없다고 말하는 게 아니다. LLM은 지금도 많은 유용한 AI 제품의 기반이고, 나도 사용한다. LLM은 자신들이 잘하는 일에서는 훌륭하다. 다만 내가 말하는 건, LLM이 인간 수준 지능이나 인간 같은 지능, 심지어 동물 같은 지능으로 가는 길은 아니라는 점이다.

언어는 굉장히 특수한 영역이다. 인간 언어, 컴퓨터 코드, 수학, 법률 문서 같은 것은 LLM이 다루기에 잘 맞는다. 그런데 현실 세계는 언어보다 훨씬 복잡하다. 현실은 고차원적이고, 연속적이고, 노이즈가 많고, 지저분하다. 현실 세계를 이해하는 시스템을 훈련시키는 일은 훨씬 어렵다.

그래서 내가 AMI에서 하려는 것은 현실 세계를 위한 AI다. 단순히 언어를 조작하는 AI가 아니라, 실제 세계를 이해하고 예측하고 행동할 수 있는 AI를 만들려는 것이다.



2. AMI와 월드 모델

얀 르쿤:
AMI는 Advanced Machine Intelligence의 약자이고, 모토는 “AI for the real world”라고 할 수 있다. 지금 많은 AI 기술은 언어 조작에는 강하다. 하지만 현실 세계를 이해하는 것은 전혀 다른 문제다.

내가 추구하는 핵심은 월드 모델이다. 월드 모델이란 에이전트가 자기 행동의 결과를 예측할 수 있게 해주는 것이다. 나는 자기 행동의 결과를 예측하지 못하는 에이전트 시스템을 만든다는 것이 상상되지 않는다. 우리가 현실에서 행동할 때도 항상 어떤 행동이 어떤 결과를 낳을지 예측한다. 그 예측 없이 행동하면 큰 위험을 감수하는 것이고, 사람들은 그런 행동을 어리석다고 본다.

월드 모델이 있으면 시스템은 어떤 행동을 했을 때 어떤 결과가 나올지 예측할 수 있다. 그러면 목표를 달성하기 위해 행동의 순서를 계획할 수 있다. 중요한 점은 이것이 다음 토큰을 하나씩 예측하는 방식이 아니라는 것이다. 지능적인 행동에는 결과 예측 능력과 탐색·최적화를 통한 계획 능력이 필요하다.

LLM은 현재 이 두 가지를 갖고 있지 않다. LLM은 자기 행동의 결과를 예측하지 못하고, 추론도 다음 토큰 예측으로 이루어진다. 내가 말하는 지능 시스템은 행동의 결과를 예측하고, 목표를 달성할 행동 순서를 탐색과 최적화로 찾아내야 한다.



3. 병을 밀었을 때의 예시

얀 르쿤:
내 앞에 물병이 있다고 해보자. 병 아래쪽을 밀면 병이 테이블 위에서 미끄러질 것이다. 병 위쪽을 밀면 아마 넘어질 것이다. 하지만 병이 정확히 어느 방향으로 넘어질지, 물이 어떻게 쏟아질지, 테이블이 약간 기울어져 있다면 물이 어느 쪽으로 흐를지 픽셀 단위로 정확히 예측할 수는 없다.

우리의 정신적 세계 모델은 픽셀 수준으로 예측하지 않는다. 우리는 추상적인 표현 수준에서 예측한다. 이것이 중요하다. 현실 세계를 이해하려면 픽셀을 생성하는 모델이 아니라, 추상적 표현 공간에서 예측하는 모델이 필요하다.



4. JEPA가 왜 중요한가

얀 르쿤:
나는 오랫동안 예측을 통해 세계 모델을 학습하는 문제에 관심을 가져왔다. 그런데 약 5년 전쯤 중요한 깨달음이 있었다. 이미지와 비디오 표현을 잘 학습한 성공적인 구조들은 대부분 생성 모델이 아니었다. 반대로 픽셀을 생성하려는 방식은 대체로 실패했다.

예를 들어 이미지를 입력하고 다시 같은 이미지를 출력하도록 훈련시키는 오토인코더 방식이 있다. 큰 신경망으로 그렇게 하면 흥미로운 일을 하지 않는다. 그냥 항등함수를 배울 뿐이다. 이미지를 그대로 복사하는 법을 배우는 것이다.

반면 Joint Embedding Predictive Architecture, 즉 JEPA는 다르다. 하나의 이미지를 보고, 다른 방식으로 변형되거나 가려진 이미지를 보고, 한쪽의 표현으로 다른 쪽의 표현을 예측하게 한다. 중요한 것은 픽셀을 예측하는 게 아니라 표현을 예측한다는 것이다.

이 방식이 이미지와 비디오 표현 학습에서 훨씬 잘 작동했다. DINO, I-JEPA, V-JEPA 같은 계열이 이런 방향이다. 그래서 나는 픽셀을 예측하는 것은 지는 전략이고, 표현 공간에서 예측하는 것이 맞는 방향이라고 보게 되었다.



5. 로봇과 VLA 모델에 대한 비판

얀 르쿤:
요즘 로봇 데모 중에는 정말 인상적인 것들이 있다. 하지만 많은 경우 그것들은 엄청난 양의 데이터로 훈련된다. 사람이 조작한 데이터를 모으거나, 그리퍼를 들고 시연한 데이터를 모으거나, 손과 손가락 움직임을 추적해서 로봇 명령으로 바꾼다. 대부분은 모방학습이고, 거기에 약간의 강화학습을 붙인다.

문제는 이 방식이 데이터가 너무 많이 필요하고, 비싸고, 취약하다는 것이다. 로봇이 어떤 작업을 하게 만들려면 그 작업에 대한 데이터를 많이 모아야 한다. 하지만 월드 모델이 있다면 시스템은 새로운 작업을 수행하기 위해 따로 훈련받지 않아도 행동 결과를 예측하고 계획할 수 있다.

인간은 운전을 배우는 데 수백만 시간이 필요하지 않다. 17살 아이도 10시간, 20시간 정도 배우면 운전할 수 있다. 그런데 우리는 수백만 시간의 운전 데이터를 갖고도 아직 레벨 5 자율주행을 만들지 못했다. 이것은 모방학습만으로는 충분하지 않다는 뜻이다.



6. 비디오 생성 모델과 합성 데이터에 대한 입장

얀 르쿤:
사람들은 비디오 모델로 엄청난 양의 합성 데이터를 만들고, 그걸 로봇 학습이나 물리 세계 학습에 쓰려는 꿈을 갖고 있다. 하지만 나는 다시 같은 질문을 던진다. 왜 17살 인간은 20시간 만에 운전을 배우는가? 인간은 수백만 시간의 시연 데이터도 필요 없고, 합성 데이터도 필요 없다.

내가 원하는 것은 그렇게 빠르게 배우는 시스템이다. 우리가 그 문제를 풀면 지금처럼 엄청난 양의 생성 데이터가 필요하지 않다. 핵심은 데이터 효율성이다.



7. 5년 안에 “세계 정복”이라는 농담

얀 르쿤:
앞으로 몇 년 안에 JEPA 모델이 어디까지 갈 것 같냐고 묻는다면, 2년은 조금 짧다. 5년이면 완전한 세계 정복이라고 말할 수 있다. 물론 농담이다. 리누스 토르발스가 리눅스의 목표를 “세계 정복”이라고 말한 것과 비슷한 의미다.

하지만 진지하게 말하면, 나는 이것이 미래 지능 시스템의 청사진이라고 생각한다. LLM은 언어 인터페이스로서 작은 자리를 차지할 것이다. 하지만 우리가 설계하는 것은 생각할 수 있는 시스템이다. 처음에는 말하거나 듣지는 못할 수도 있다. 그러나 생각하는 기능을 먼저 만들고, 그 위에 말하기와 듣기를 붙일 수 있다.



8. 산업 분야에서의 응용

얀 르쿤:
가정용 로봇이나 레벨 5 자율주행차는 아직 몇 년은 더 걸릴 것이다. 지금 로봇을 만드는 회사는 많지만, 그 로봇을 충분히 똑똑하게 만들어 유용하게 쓰는 방법은 아직 모른다. 특히 아기가 있는 집에서 믿고 맡길 수 있는 수준은 더더욱 아니다.

하지만 더 짧은 기간 안에 가능한 응용은 산업 분야에 많다. 예를 들어 제트엔진, 화학 공장, 발전소, 제조 라인, 환자, 인간 세포 같은 복잡한 시스템이 있다. 이런 시스템은 몇 개의 방정식으로 행동을 모델링하기 어렵다. 그래서 데이터를 통해 그 동역학을 학습하는 신경망 모델이 필요하다.

만약 어떤 제어 변수를 바꾸면 무슨 일이 일어나는지 예측할 수 있다면, 그 시스템을 최적으로 제어할 수 있다. 나는 이런 산업 응용의 수가 엄청나다고 생각한다.



9. Tapestry와 AI 주권

얀 르쿤:
Tapestry는 AMI와는 조금 별개의 아이디어다. 사람들이 점점 더 AI 어시스턴트를 통해 정보를 얻고 있다. 검색엔진을 덜 쓰고, AI에게 질문한다. 앞으로 스마트 안경 같은 기기가 보급되면 사람들의 정보 식단 전체가 AI 어시스턴트를 통해 매개될 것이다.

그런데 만약 당신이 미국이나 중국 밖의 어떤 나라에 사는 사람이고, 당신이 쓰는 AI 어시스턴트가 캘리포니아나 베이징, 상하이, 선전에서 만들어진 것이라면 그것은 좋은 일이 아니다. 당신의 언어가 제대로 반영되지 않았을 수 있고, 당신의 문화가 제대로 이해되지 않았을 수 있고, 당신의 가치관이나 정치적 견해가 모델에 반영되지 않았을 수 있다.

그래서 필요한 것은 개방형 기반 모델이다. 누구나 특정 언어, 문화, 가치관, 정치적 편향, 관심사에 맞게 미세조정할 수 있는 자유롭고 열린 LLM 플랫폼이 필요하다. 많은 나라가 AI 주권을 원한다. 그들은 국민들이 중국 모델이나 캘리포니아 모델에 의해 세뇌되는 것을 원하지 않는다.

Tapestry는 각국과 기관이 자기 데이터를 공유하지 않고도 글로벌 모델 훈련에 기여할 수 있게 하는 방식이다. 데이터 자체를 공유하는 것이 아니라 파라미터 벡터를 공유한다. 일종의 연합학습 방식이다. 각 참여자는 자기 데이터를 통제하면서도 전 세계 지식과 문화를 담은 공통 모델을 만드는 데 기여할 수 있다.



10. 오픈소스와 리눅스 비유

얀 르쿤:
나는 AI도 결국 플랫폼이 될 것이고, 플랫폼에는 열리는 경향이 있다고 본다. 인터넷 인프라와 무선 네트워크, 소프트웨어 인프라가 그렇게 되었다. 처음에는 독점적이었지만 결국 오픈소스가 이겼다.

1996년에 인터넷 인프라의 강자는 썬 마이크로시스템즈, HP, 델 같은 회사들이었다. 썬은 솔라리스와 전용 하드웨어를 팔았고, HP는 HP-UX를 팔았다. 하지만 결국 이 모든 것은 리눅스에 의해 밀려났다. 지금은 사실상 인터넷 전체가 리눅스 위에서 돌아간다. 심지어 마이크로소프트의 Azure도 리눅스를 쓴다.

오늘날의 OpenAI나 Anthropic은 과거의 썬 마이크로시스템즈나 HP-UX 같은 위치일 수 있다. 장기적으로는 열린 플랫폼이 이길 가능성이 크다.



11. LLM이 잘하는 영역과 못하는 영역

얀 르쿤:
LLM이 특히 잘하는 영역은 언어 자체가 추론의 기판인 영역이다. 수학과 코딩이 그렇다. 수학에서 형식적인 증명이나 기호 조작은 언어 조작의 성격이 강하다. 코드도 마찬가지다. 그래서 LLM은 정리 증명이나 코딩 문제 풀이에서 강하다.

하지만 수학은 단순한 문제 풀이만이 아니다. 수학의 많은 부분은 창조적 행위다. 좋은 개념과 정의를 만들어내는 것이 중요하다. LLM은 그런 부분에는 약하다.

코딩도 마찬가지다. LLM은 좋은 프로그래머가 될 수는 있지만, 소프트웨어 아키텍트나 컴퓨터 과학자가 되는 것은 다르다. 인간의 역할은 더 높은 추상화 수준으로 올라가서 무엇을 만들지 결정하는 쪽으로 바뀔 것이다. 구현은 LLM의 도움을 받을 수 있다.



12. LLM이 르쿤을 설득하려면 무엇을 해야 하는가

얀 르쿤:
나를 설득하려면 제로샷 에이전트 시스템을 보여줘야 한다. 어떤 새로운 문제가 주어졌을 때, 그 시스템이 그 문제를 풀도록 훈련받지 않았고, 스크립트도 없는데도, 그 과제를 수행할 수 있어야 한다.

그렇게 하려면 자기 행동의 결과를 예측하고, 그 예측을 이용해 계획할 수 있어야 한다. 이것은 현재의 LLM으로는 할 수 없다. 물론 크게 보강된 LLM이라면 탐색과 계획을 붙일 수 있을 것이다. 수학과 코딩에서는 이미 어느 정도 그런 일이 일어난다. 코드를 실행해보거나 증명이 맞는지 검증할 수 있기 때문이다.

하지만 그것은 토큰 공간에서의 탐색이다. 내가 JEPA로 말하는 것은 토큰 공간이 아니라 추상적 사고 공간에서 계획하는 것이다.



13. 힌튼·벤지오와 견해가 갈라진 시점

얀 르쿤:
나와 제프 힌튼, 요슈아 벤지오의 견해가 갈라진 것은 2023년부터다. 나는 생각을 바꾼 것이 아니다. 그들이 생각을 바꾼 것이다. 계기는 GPT-4였다.

제프는 GPT-4를 보고 인간 수준 지능에 가까운 시스템이 나왔다고 느낀 것 같다. 그는 인간 피질의 뉴런 수와 신경망의 뉴런 수를 비교하면서, GPT-4 같은 모델이 인간 지능에 가까워질 수 있다고 본 것 같다. 나는 그 주장에 전혀 동의하지 않는다.

내 생각에 현재 LLM은 그렇게 똑똑하지 않다. 인간 같은 지능에 도달하려면 아직 개념적 돌파구가 몇 개 필요하다. 그리고 그런 시스템의 청사진은 LLM과 꽤 다를 것이다.

요슈아와 제프가 걱정하는 것은 AI가 사회에 미칠 영향, 불평등, 나쁜 사용, 정치 시스템이 AI의 이익을 제대로 분배할 수 있는가 같은 문제라고 본다. 그런 걱정은 가능하다. 하지만 나는 AI가 스스로 세계를 장악한다는 식의 종말론에는 동의하지 않는다.



14. Anthropic식 AI 위험론에 대한 비판

얀 르쿤:
나는 Anthropic이 말하는 식의 종말론적 위험론에는 동의하지 않는다. 그들이 진심으로 믿고 있을 수는 있다. 하지만 동시에 그렇게 믿는 데에는 상업적으로 좋은 이유도 있다고 본다. 정부를 겁주고 규제를 유도하는 데 도움이 되기 때문이다.

나는 현재 LLM의 위험을 완전히 부정하는 것이 아니다. 나쁜 사용자는 위험할 수 있다. 하지만 그것이 AI가 세계를 장악한다는 식의 시나리오와는 다르다.



15. “LLM은 본질적으로 안전하지 않다”

얀 르쿤:
나는 논란이 될 수 있는 말을 하겠다. LLM은 본질적으로 안전하지 않다고 생각한다. LLM은 완전히 신뢰 가능하고 안전하게 만들 수 없다. 환각을 멈추게 할 수 없기 때문이다.

LLM이 에이전트가 되면 더 큰 문제가 생긴다. 자기 행동의 결과를 예측하지 못하기 때문에, 어떤 행동이 어떤 결과를 낳을지 보장할 수 없다. 프롬프트를 주면 그 프롬프트에 맞는 작업을 수행하려고 하지만, 그것은 훈련 과정에서 그렇게 조건화되었기 때문일 뿐이다. 해당 작업을 반드시 올바르게 수행하도록 강제하는 구조적 제약이 있는 것은 아니다.

반면 내가 말하는 objective-driven AI는 다르다. 시스템에 목표를 준다. 그 시스템은 월드 모델을 사용해 여러 행동의 결과를 예측한다. 그리고 그 결과가 목표를 얼마나 달성하는지 비용함수로 평가한다. 그런 다음 비용을 최소화하는 행동 순서를 찾는다. 이 경우 시스템은 구조적으로 그 목표를 달성하는 방향으로 움직인다.

물론 여기에도 문제가 있을 수 있다. 비용함수가 잘못되었을 수 있고, 월드 모델이 부정확할 수 있다. 그러면 시스템은 실수할 수 있다. 하지만 적어도 행동의 결과를 예측하려는 구조가 있다. 나는 이것이 모든 에이전트 시스템에 필수적이라고 본다.



16. 헬스케어에서 LLM과 월드 모델의 차이

얀 르쿤:
LLM은 의학 지식을 책에서 읽은 것처럼 되뇌는 데는 강할 수 있다. 하지만 의사가 된다는 것은 책만 읽는 것이 아니다. 의사는 레지던트를 하고, 실제 환자를 보고, 심장 소리를 듣고, 배를 눌러보고, 여러 경험을 통해 진단한다.

의료에서 정말 중요한 문제는 특정 환자에게 맞는 치료 과정을 설계하는 것이다. 그 환자가 기존 템플릿에 딱 맞지 않을 수도 있다. 그러려면 환자의 생리학적 동역학에 대한 좋은 모델이 필요하다.

환자는 사람일 수도 있고, 세포일 수도 있다. 예를 들어 줄기세포를 인슐린을 생산하는 췌장 베타세포로 바꾸려면 어떤 신호의 순서를 보내야 하는가? 이런 문제는 단순한 언어 지식으로 해결되지 않는다. 세포라는 복잡한 시스템의 동역학을 이해하는 모델이 필요하다.



17. Meta와 FAIR에서 잘한 점

얀 르쿤:
FAIR에서 우리가 잘한 것은 최고 수준의 연구소를 만든 것이다. 우리는 PyTorch 같은 도구와 기본 방법론, 과학적 아이디어를 만들었고, 그것들은 전체 산업에 유용했다. 사실상 구글 일부를 제외하면 산업 전체가 PyTorch 위에 세워져 있다고 볼 수 있다.

또 하나 잘한 것은 개방성과 과학적 과정의 문화를 만든 것이다. 나는 돌파적 혁신에는 그런 문화가 필요하다고 생각한다.

좋은 연구는 블루스카이 연구에서 시작된다. 새로운 개념이 나오고, 그것이 가능성이 있어 보이면 더 밀어붙인다. 그다음 회사가 큰 엔지니어링 노력을 투입해 제품화한다. 문제는 많은 회사가 이 중간 단계를 잘 이어받지 못한다는 것이다.

Meta는 한때 그런 전환을 꽤 잘했다. 하지만 완벽하지는 않았다. 어느 시점부터 FAIR는 회사 안에서 고립되었고, 좋은 아이디어가 있어도 제품 조직이 받아가지 않는 일이 많아졌다.



18. LLaMA와 GenAI 조직에 대한 설명

얀 르쿤:
LLaMA 1은 FAIR 안의 작은 프로젝트였다. 2023년 초에 GenAI 조직이 만들어졌고, LLaMA 팀이 그쪽으로 옮겨갔다. 이후 LLaMA 2, 3, 4가 나왔다. 그런데 GenAI 조직은 단기 압박을 너무 많이 받았다. 그래서 점점 보수적이 되었고, FAIR와 제대로 대화할 시간이 없었다.

LLaMA 4는 실망스러운 결과였고, 마크 저커버그도 실망했다. 그래서 조직을 재부팅하고, 새 사람들을 채용하고, 구조를 바꿨다. 하지만 그 과정에서 회사 전체가 LLM 경쟁을 따라잡는 데 집중하게 되었고, 탐색적 연구의 우선순위는 낮아졌다.

내가 하던 JEPA와 월드 모델 연구는 마크와 CTO인 앤드루 보즈워스가 관심을 갖고 지지하던 프로젝트였다. 하지만 회사의 나머지 층위에서는 LLM에 완전히 집중하고 있었다. 그래서 Meta는 더 이상 이 프로젝트를 밀어붙이기에 적절한 장소가 아니라는 점이 분명해졌다.



19. Meta를 떠난 이유

얀 르쿤:
사람들은 내가 Meta에서 어떤 역할을 했는지 오해하는 경우가 많다. 나는 2013년 말에 합류했고, 2014년 초부터 본격적으로 FAIR를 만들었다. 처음 4년 반 동안은 FAIR의 디렉터였다. 조직을 만들고, 문화를 만들고, 핵심 인재를 채용했다.

그 후 나는 디렉터 자리에서 물러나 Chief AI Scientist가 되었다. 나는 관리자가 되고 싶지 않았다. 나는 과학적·기술적 비전을 제시하는 사람이고, 엔지니어이자 과학자에 가깝다. 관리는 나보다 더 잘하는 사람들이 있다.

나는 오래전부터 인간 수준 AI를 위한 구조를 생각해왔다. 2016년 NeurIPS 기조연설에서도 AI의 미래는 자기지도학습, 월드 모델, 행동 결과 예측, 계획이라고 말했다. 강화학습은 너무 비효율적이고, 지도학습도 한계가 있다고 봤다.

2020년쯤에는 JEPA 아이디어를 갖게 되었고, 2022년에는 내 전체 비전을 담은 긴 논문을 썼다. 내 비밀을 다 공개해버리자는 생각이었다. 그런데 효과가 있었다. 많은 학생과 연구자들이 그 비전에 끌렸고, FAIR 안에서도 하나의 큰 미션이 되었다. 내부 이름이 Advanced Machine Intelligence, 즉 AMI였다. 지금 내 회사 이름도 거기서 온 것이다.

하지만 Meta는 결국 LLM에 모든 노력을 집중하게 되었다. 로보틱스 AI 그룹도 없앴고, JEPA와 월드 모델의 주요 응용 분야는 Meta가 관심 있는 영역이 아니었다. 대부분 산업, 제조, 의료 같은 분야였다. 그래서 떠나서 AMI Labs를 시작하는 것이 자연스러운 선택이 되었다.



20. LLaMA에 대한 자신의 역할

얀 르쿤:
나는 LLaMA에 기술적으로 기여한 것이 전혀 없다. 긍정적이든 부정적이든, 나는 LLaMA를 만들거나 늦추거나 막지 않았다. 내가 LLaMA에 기여한 한 가지는 LLaMA 2를 오픈소스로 공개해야 한다고 강하게 주장한 것이다.

내부에서는 큰 논쟁이 있었다. 법무팀과 정책팀은 반대했고, 커뮤니케이션 팀과 엔지니어링 쪽은 찬성했다. 마크 저커버그까지 참여한 고위급 회의가 몇 달 동안 매주 열렸다. 나는 안전 위험이 과장되었고, 오픈소싱을 통해 AI 산업을 크게 촉진할 수 있다고 주장했다. 실제로 그렇게 되었다고 생각한다.

하지만 다시 말하지만, 나는 LLaMA의 기술 개발에는 기여하지 않았다. 나는 LLM이 인간 지능으로 가는 길은 아니라고 말했지만, LLM 자체를 반대한 적은 없다. 유용한 기술이고, speech recognition이나 번역처럼 좋은 응용이 있다.



21. 현재 대형 연구소 문화에 대한 비판

얀 르쿤:
요즘 산업계는 점점 더 폐쇄적으로 변하고 있다. 구글도 더 닫혔고, Meta와 FAIR도 어느 정도 그런 방향으로 가고 있다. 출판 제한이 많아지고 있다. 정말 돌파적 연구를 하고 싶은 사람에게는 매력적이지 않은 환경이 되고 있다.

돌파적 연구를 얻는 가장 좋은 방법은 최고의 사람들을 뽑고, 그들에게 성공할 수단을 주고, 방해하지 않는 것이다. 그 사람들은 무엇을 연구해야 하는지 감각이 있다. 관리자가 옆에서 너무 간섭하면 안 된다.



22. 박사과정 학생들에게 LLM 연구를 추천하지 않는 이유

얀 르쿤:
내가 보기에는 지금 학계에서 LLM을 연구하는 것은 별로 흥미롭지 않다. 현재 세대의 AI를 연구할 것이 아니라 다음 세대의 AI 시스템을 연구해야 한다.

학계에서 LLM을 연구하면 대부분 LLM이 왜 작동하는지, 어떤 한계가 있는지를 설명하는 기술적·묘사적 과학이 된다. 유용할 수는 있지만 창조적인 연구라고 느껴지지는 않는다. 그리고 LLM으로 새로운 능력을 보여주려면 엄청난 GPU가 필요한데, 박사과정 학생에게는 그런 자원이 없다. 그러니 박사과정이라면 LLM을 연구하지 말라고 말하고 싶다. 거기서는 기여하기 어렵다.



23. 최근 생각이 바뀐 점

얀 르쿤:
내가 놀란 점은 자기지도학습이 엄청나게 성공했다는 것이다. 다만 내가 원래 기대했던 비디오가 아니라 언어에서 성공했다.

나는 오래전부터 시스템이 세상을 보면서 스스로 세계의 작동 방식을 이해하게 만들고 싶었다. 비디오를 통해 자기지도학습을 하려 했다. 픽셀 수준 비디오 예측도 시도했지만 잘 되지 않았다. 그래서 표현 공간에서 예측해야 한다고 생각하게 되었다.

그런데 LLM은 자기지도학습이 매우 성공한 사례다. 다음 토큰을 예측하는 방식으로 훈련된 LLM은 자기지도학습의 눈부신 성공 사례다. 그 점은 인정해야 한다.



24. LLM이 작동하는 이유와 현실 세계에서 안 되는 이유

얀 르쿤:
LLM이 작동하는 이유는 이산적인 기호들의 시퀀스에서는 예측이 쉽기 때문이다. 언어에는 가능한 토큰 수가 유한하다. 대략 10만 개 정도의 토큰에 대해 확률분포를 만들고, 그중 하나를 샘플링하고, 다시 입력에 넣어서 다음 토큰을 예측하면 된다.

하지만 현실 세계에서는 그렇게 할 수 없다. 현실은 연속적이고 고차원적이다. 그래서 생성 모델 방식으로는 안 된다. 현실 세계를 다루려면 시스템이 표현을 학습하고, 그 표현 공간에서 예측해야 한다.

JEPA에서 큰 문제는 표현 붕괴다. 두 입력을 인코더에 넣고 한쪽 표현으로 다른 쪽 표현을 예측하게 하면, 시스템이 모든 입력에 대해 같은 상수 표현을 내놓는 쉬운 해법을 택할 수 있다. 그러면 예측 문제는 쉬워지지만 아무것도 배운 것이 없다. 이것이 representation collapse다.

그래서 중요한 문제는 붕괴를 어떻게 막느냐이다. 예전에는 contrastive learning을 제안했지만, 차원이 커질수록 잘 확장되지 않는다. DINO 같은 distillation 방식도 있고, 실제로 잘 작동하지만 왜 작동하는지 완전히 만족스럽게 이해하지는 못한다.

최근에는 encoder에서 나오는 정보량을 최대화하는 명시적 정규화 방법을 연구하고 있다. SIGReg 같은 방식이 있고, 이것은 매우 유망하다고 본다. 작은 규모이긴 하지만 이 방식으로 월드 모델을 훈련한 연구도 있다. 나는 이것이 앞으로 중요한 방향이라고 생각한다.
전체 0