인터뷰/예측

엔비디아 짐 팬 "Physical Turing Test는 아마 2~3년 정도 남았을지도 모릅니다."

작성자
하이룽룽
작성일
2026-05-01 14:30
조회
3

핵심 수치 예측

짐 팬: “Physical Turing Test는 아마 2~3년 정도 남았을지도 모릅니다.”
로봇이 다양한 작업에서 인간이 하는지 로봇이 하는지 구분하기 어려운 수준, 즉 물리적 튜링 테스트를 언급하면서 2~3년을 제시했어.

짐 팬: “95% 확신으로 말할 수 있습니다. 우리는 2040년까지 엔드게임의 끝, 기술 트리의 끝에 도달할 것입니다.”
가장 강한 장기 예측이 이거야. 로보틱스가 Physical Turing Test → Physical API → Physical Auto Research까지 가는 기술 트리의 끝에 2040년까지 도달할 것이라고 했고, 확신도를 95%로 표현했어.

짐 팬: “2026년은 2012년과 2040년의 정확히 중간입니다.”
AI가 2012년 AlexNet에서 2026년 agentic auto research 논의까지 오는 데 14년 걸렸으니, 로보틱스도 앞으로 14년을 더하면 2040년이라는 식으로 비유했어.

데이터·스케일 관련 수치

텔레오퍼레이션의 한계:
이론적으로는 로봇 한 대당 하루 24시간이 상한이지만, 실제로는 “하루 3시간에 가깝다”고 했어. 즉 teleop은 스케일링이 너무 어렵다는 주장.

EgoScale 사전학습 데이터:
EgoScale은 인간 1인칭 영상 2만 1천 시간으로 사전학습했다고 말했어. 이때 로봇 데이터는 0시간이었다고 강조했어.

Action fine-tuning 데이터:
EgoScale의 후속 정렬에는 고정밀 mocap 데이터 장갑 50시간, teleop 4시간만 사용했다고 했어. teleop은 전체 학습 믹스의 0.1% 미만이라고 말했어.

Egocentric video 스케일 예측:
인간 1인칭 영상 데이터는 FSD식 데이터 플라이휠을 만들면 “내년쯤 1천만 시간까지 쉽게 갈 수 있다”고 했어.

데이터 웨어러블 스케일:
UMI/Dex UMI 같은 데이터 웨어러블은 수십만 시간까지 갈 수 있다고 했어.

모델·시스템 관련 수치

Dream Zero:
로봇이 몇 초 뒤의 미래를 꿈꾸고 그에 맞춰 행동하는 policy model이라고 설명했어. 정확한 초 단위는 말하지 않았지만 “couple of seconds”라고 했어.

EgoScale 출력:
카메라 픽셀에서 바로 22자유도 고정밀 로봇 손으로 매핑한다고 했어.

셔츠 접기 등 적응:
테스트 시점에서 단 한 번의 시연(one-shot demonstration)만으로 다른 셔츠 접기 전략을 배울 수 있다고 했어.

강화학습 환경 스케일:
기존 방식으로 100만 개 환경을 만들려면 로봇 100만 대가 필요하다고 했고, 그래서 시뮬레이션·월드모델 기반 환경 스케일링이 필요하다고 설명했어.

가까운 미래 예측

짐 팬: “앞으로 1~2년 안에 teleop은 거의 무시할 수 있는 수준까지 떨어질 것입니다.”
텔레오퍼레이션 데이터 비중이 급격히 줄고, 데이터 웨어러블과 egocentric video가 주류가 될 것이라고 예측했어.

정리하면, 가장 중요한 숫자는 이거야:

2~3년: Physical Turing Test 가능성
1~2년: teleop 데이터 비중 급감
2026 → 2040: 로보틱스 엔드게임까지 14년 비유
2040년: 기술 트리 끝 도달 예상
95%: 2040년까지 도달할 것이라는 확신도
1천만 시간: egocentric video 데이터 스케일 가능성
2만 1천 시간: EgoScale 사전학습 데이터
50시간 + 4시간: action fine-tuning에 필요한 로봇 관련 데이터
0.1% 미만: teleop 비중
100만 환경/100만 로봇: 현실 RL 스케일의 한계 비유



1. 오프닝: “2016년, 나는 OpenAI 사무실에서 젠슨 황을 처음 만났다”

짐 팬:

2016년 여름이었습니다. 바로 우리가 지금 앉아 있는 이 사무실에서였죠.

그때 반짝이는 가죽 재킷을 입고, 팔뚝이 엄청난 한 남자가 커다란 금속 트레이 같은 걸 들고 들어왔습니다. 거기에 이렇게 적혀 있었어요.

“일론과 OpenAI 팀에게. 컴퓨팅과 인류의 미래를 위해, 세계 최초의 DGX-1을 선물합니다.”

그게 제가 젠슨 황을 처음 만난 순간이었습니다.

그리고 훌륭한 인턴이라면 당연히 해야 할 일을 했죠. 저는 제 이름을 거기에 사인하려고 줄을 섰습니다. 제 이름이 여기 있습니다. 그리고 여기 안드레이 카파시도 있죠.

그때는 제가 도대체 무엇에 사인하고 있는지 전혀 몰랐습니다. 하지만 그 이후에 무슨 일이 벌어졌는지는 일리야 수츠케버가 가장 잘 표현했습니다.

“당신이 딥러닝을 믿으면, 딥러닝도 당신을 믿어줄 것이다.”

그리고 정말로, 딥러닝은 우리 모두를 엄청나게 믿어줬습니다.



2. “LLM은 이미 엔드게임에 들어갔다”

짐 팬:

여기까지 오는 데 걸린 시간은 단 6년이었습니다. 세 번의 큰 계단식 도약이 있었죠.

첫 번째는 GPT-3였습니다.

GPT-3의 사전학습, 즉 다음 토큰 예측은 결국 문법의 규칙, 언어의 형태를 배우는 것이었습니다. 생각, 코드, 문자열이 어떻게 이어져야 하는지를 시뮬레이션하는 일이었죠.

두 번째는 2022년의 InstructGPT였습니다.

지도 미세조정을 통해 그 시뮬레이션을 유용한 작업으로 정렬했습니다. 단순히 말을 이어가는 모델에서, 인간에게 도움이 되는 방향으로 맞춘 것이죠.

세 번째는 추론(reasoning)입니다.

강화학습을 사용해서 단순한 모방학습을 넘어서는 단계로 간 겁니다. 그리고 마지막으로는 자동 연구(auto research)가 있습니다. 인간이 할 수 있는 것 이상으로 전체 연구 루프를 가속하는 것이죠.

안드레이가 말했듯이, 모든 연구소들이 이제 최종 보스전에 들어가고 있습니다.

LLM 쪽은 이미 엔드게임 한가운데 있습니다. 솔직히 저는 매우 질투가 납니다. 안드레이 얼굴을 보세요. 얼마나 행복해 보입니까.

언어모델 쪽 사람들은 인생 최고의 파티를 하고 있습니다. 그들은 Mythos라고 불리는 신화적 존재들 위에서 AGI를 스피드런하고 있습니다.

그렇다면 로보틱스도 재미를 좀 봐야 하지 않겠습니까?



3. “나는 LLM의 성공 방식을 베껴서 로보틱스에 적용했다”

짐 팬:

그래서 자기 존중이 있는 과학자라면 누구나 하듯이, 저는 숙제를 베꼈습니다. 그리고 거기에 새 이름을 붙였습니다.

저는 이것을 “위대한 평행선(great parallel)”이라고 부릅니다.

문자열을 시뮬레이션하는 대신, 다음 물리적 세계 상태를 시뮬레이션할 수는 없을까요?

그다음, 실제 로봇에게 중요한 얇은 조각의 시뮬레이션 위에 action fine-tuning을 해서 정렬할 수는 없을까요?

그리고 강화학습이 마지막 한 걸음을 맡게 하면 됩니다.

그게 바로 로보틱스가 LLM 성공 방식을 따라가는 길입니다.

이길 수 없다면, 합류해야죠.

그래서 저는 여러분을 새로운 에피소드로 초대합니다.

“로보틱스: 엔드게임.”



4. “로보틱스 엔드게임은 모델 전략과 데이터 전략으로 갈린다”

짐 팬:

우리가 엔드게임을 어떻게 플레이할 것인가?

결국 두 가지로 요약됩니다.

첫 번째는 모델 전략입니다.
두 번째는 데이터 전략입니다.

먼저 모델부터 보겠습니다.

지난 3년 동안 로보틱스는 VLA, 즉 Vision-Language-Action 모델들이 지배했습니다. π 같은 모델이나 GR00T 같은 모델이 이 범주에 속합니다.

이 접근법은 기본적으로 사전학습이 VLM, 즉 비전-언어 모델에서 이미 끝났다고 가정합니다. 그리고 그 위에 action head를 붙이는 방식이죠.

하지만 잘 생각해보면, 이 모델들은 사실 VLA가 아니라 LVA입니다. 대부분의 파라미터가 언어에 쓰이기 때문입니다.

언어가 1등 시민이고, 그다음이 비전이고, 마지막이 액션입니다.

이 설계상 VLA는 지식과 명사에는 강합니다. 하지만 물리와 동사에는 그다지 강하지 않습니다.

머리가 너무 무겁습니다. 그것도 잘못된 곳에 무겁습니다.



5. “VLA는 테일러 스위프트 사진에는 강하지만, 우리가 원하는 사전학습은 아니다”

짐 팬:

제가 가장 좋아하는 예시는 원래 VLA 논문에 나온 것입니다.

“콜라 캔을 테일러 스위프트 사진으로 옮겨라.”

이 모델은 테일러 스위프트를 본 적이 없습니다. 그런데도 일반화할 수 있습니다. 좋습니다.

하지만 이것은 우리가 로보틱스에서 원하는 사전학습 능력은 아닙니다.

우리가 정말 원하는 것은 명사를 아는 것이 아니라, 물리적 세계가 어떻게 움직이는지를 아는 것입니다.



6. “두 번째 사전학습 패러다임은 AI 비디오 쓰레기처럼 보였다”

짐 팬:

두 번째 사전학습 패러다임은 무엇일까요?

저는 항상 그것이 뭔가 영광스러운 형태일 거라고 생각했습니다.

그런데 불행히도, 실제로는 우리가 AI 비디오 슬롭이라고 부르는 것들이었습니다.

보안 카메라 영상 속에서 고양이가 밴조를 치는 그런 영상들이죠. 저는 그런 걸 하루 종일 볼 수도 있습니다. 인터넷의 정점입니다.

하지만 처음 보면 아무도 이런 걸 진지하게 받아들이지 않습니다.

그런데 어느 순간 우리는 깨닫게 됩니다.

이 비디오 모델들은 내부적으로 다음 세계 상태를 시뮬레이션하는 법을 배우고 있습니다.

V3에서 나온 결과를 보면, 모델이 중력, 부력, 조명, 반사, 굴절을 스스로 익힙니다.

이 중 어떤 것도 물리 방정식으로 코딩된 것이 아닙니다.

픽셀의 다음 덩어리를 대규모로 예측하다 보니 물리가 emergent하게 나타난 것입니다.

심지어 시각적 계획도 나타납니다.

비디오 모델이 미로를 푸는 것을 보면, 픽셀 공간에서 시뮬레이션을 앞으로 굴려가며 문제를 해결합니다.

다만, 가끔은 너무 똑똑해서 이상한 방식으로 풀기도 합니다. 제가 좋아하는 예시는 이것입니다. V3는 우리가 보지 않을 때 기하학은 선택사항이라고 판단합니다.

저는 이것을 “physics slop”이라고 부릅니다.



7. “Dream Zero: 로봇이 몇 초 뒤를 꿈꾸고 그에 맞게 행동한다”

짐 팬:

그렇다면 이런 월드 모델을 어떻게 유용하게 만들 수 있을까요?

우리는 action fine-tuning을 합니다.

가능한 모든 미래 상태의 중첩을 실제 로봇에게 중요한 얇은 조각으로 붕괴시키는 것입니다.

여기서 Dream Zero를 소개합니다.

Dream Zero는 새로운 유형의 policy model입니다. 몇 초 뒤의 미래를 꿈꾸고, 그에 맞게 행동합니다.

로봇의 모터 액션은 고차원의 연속 신호입니다. 이것은 픽셀과 매우 비슷합니다. 그래서 우리는 비디오를 렌더링하는 것과 동시에 액션도 렌더링할 수 있습니다.

Dream Zero는 다음 세계 상태와 다음 행동을 함께 디코딩합니다.

그 결과, 학습 중 한 번도 보지 못한 task와 verb도 zero-shot으로 해결할 수 있습니다.

그리고 로봇이 실행하는 동안, 우리는 로봇이 무엇을 꿈꾸고 있는지 시각화할 수 있습니다. 그 상관관계는 매우 강합니다.

비디오 예측이 맞으면 액션도 맞습니다.

비디오가 환각하면 액션도 실패합니다.

이제 비전과 액션이 1등 시민이 된 것입니다.



8. “VLA는 죽었다. World Action Model 만세”

짐 팬:

우리는 Dream Zero로 많은 실험을 했습니다.

그냥 연구실에서 로봇을 굴려놓고, 프롬프트 박스에 아무 말이나 입력했습니다.

물론 Dream Zero가 모든 과제를 100% 안정적으로 수행하는 것은 아닙니다.

하지만 이것은 마치 GPT-2와 비슷합니다. 모든 경우에 대해 움직임의 형태를 맞추려고 합니다.

Dream Zero는 로보틱스에서 open-ended, open-vocabulary prompting으로 가는 첫걸음입니다.

우리는 이런 새로운 유형의 모델을 World Action Model, 즉 WAM이라고 부릅니다.

그러니 이제 우리의 친구 VLA를 위해 잠시 묵념합시다.

VLA는 우리를 잘 섬겼습니다.

편히 쉬십시오.

World Action Model 만세.



9. “데이터 전략: 텔레오퍼레이션은 물리적 한계가 있다”

짐 팬:

이제 데이터 전략을 보겠습니다.

여기 보이는 것은 NVIDIA의 수석 과학자 빌 달리가 우리 연구실에서 teleoperation을 하고 있는 모습입니다.

그의 연봉을 생각하면, 이것은 아마 우리 데이터셋에서 가장 비싼 teleop trajectory일 겁니다.

지난 3년은 teleoperation이 지배했습니다. 황금기였죠.

VR 헤드셋, 극도로 최적화된 스트리밍 지연시간, 중세 고문기구처럼 보이는 복잡한 장비들. 업계 전체가 엄청난 투자를 했고, 수많은 고통이 있었습니다.

하지만 teleop에는 물리적 상한이 있습니다.

로봇 한 대당 하루 24시간입니다.

사실 제가 누구를 속이고 있겠습니까? 현실적으로는 로봇 한 대당 하루 3시간에 가깝습니다.

그것도 로봇 신이 자비로울 때만 가능합니다. 로봇들은 늘 떼를 쓰니까요.



10. “UMI: 로봇 손을 사람 손에 끼고 데이터를 모은다”

짐 팬:

그럼 어떻게 더 잘할 수 있을까요?

이렇게 하면 됩니다.

로봇 손을 자기 손에 끼는 것입니다.

이것을 UMI, Universal Manipulation Interface라고 부릅니다.

아이디어는 놀라울 정도로 단순합니다.

로봇 액추에이터를 자기 손에 착용하고, 로봇 몸체는 루프에서 빼낸 채 인간이 직접 데이터를 수집하는 것입니다.

저는 UMI가 로보틱스 데이터 분야에서 쓰인 가장 위대한 논문 중 하나라고 생각합니다.

그리고 이 아이디어는 두 개의 유니콘 스타트업을 낳았습니다.

왼쪽에는 이 디자인을 개선한 Generalist가 있고, 오른쪽에는 세 손가락 데이터 장갑을 만든 Sunday가 있습니다.



11. “Dex UMI: 텔레오퍼레이션 없이도 로봇 정책을 학습시킨다”

짐 팬:

작년에 우리는 이 아이디어를 한 단계 더 발전시켰습니다.

다섯 손가락 dexterous robot hand와 1대1로 매핑되는 외골격을 설계했습니다.

우리는 이것을 Dex UMI라고 부릅니다.

왼쪽을 보면, 인간이 직접 데이터를 수집합니다. 항상 가장 빠릅니다.

오른쪽을 보면 teleop이 얼마나 어려운지 보입니다. 숙련된 박사과정 연구자조차 아주 조심스럽게 정렬해야 하고, 매우 느리며, 성공률도 낮습니다.

가운데에서는 외골격을 착용하고 데이터를 직접 수집합니다.

우리는 이 데이터로 로봇 정책을 학습시켰습니다.

여기 보이는 것은 teleoperation 데이터가 0개인 상태에서 학습된 정책이 완전히 자율적으로 실행되는 모습입니다.

이렇게 우리는 “로봇 한 대당 하루 24시간”이라는 저주를 깰 수 있었습니다.

로봇들도 행복해졌습니다. 더 이상 데이터 수집 루프 안에 들어갈 필요가 없기 때문입니다.



12. “하지만 UMI도 아직 FSD 같은 데이터 플라이휠은 아니다”

짐 팬:

그렇다면 이것이 정답일까요?

우리는 로보틱스 스케일링 문제를 해결한 걸까요?

여기 테슬라나 웨이모 타는 분 계십니까?

여러분이 운전할 때, 사실 여러분은 가장 큰 물리 데이터 플라이휠에 기여하고 있습니다.

그 아름다움은, FSD에서는 데이터 업로드가 배경에서 자연스럽게 일어난다는 것입니다. 운전자는 거의 느끼지 못합니다.

하지만 UMI나 데이터 웨어러블을 착용하는 것은 여전히 번거롭습니다. 침입적입니다.

출근길에 운전하는 것만큼 자연스럽지 않습니다.

우리는 FSD에 해당하는 것이 필요합니다.

데이터 수집은 방해가 되면 안 됩니다. 배경으로 사라져야 합니다.

그래야 모든 삶의 영역, 경제적 가치가 있는 모든 노동 영역에서 인간 손재주의 완전한 영광을 포착할 수 있습니다.



13. “EgoScale: 인간 1인칭 영상으로 로봇 손재주를 학습한다”

짐 팬:

그래서 우리는 인간의 egocentric video, 즉 1인칭 영상에 올인하고 있습니다.

여기에는 손 위치 추적, 조밀한 언어 주석 같은 자세한 annotation이 붙습니다.

EgoScale을 소개합니다.

EgoScale의 학습 중 99.9%는 인간의 1인칭 영상에 기반합니다.

그 결과는 end-to-end policy입니다.

카메라 픽셀에서 바로 22자유도 고정밀 로봇 손으로 매핑합니다.

여기 보이는 것은 완전히 자율적으로 실행되는 모습입니다.

우리는 EgoScale을 야생 환경의 인간 1인칭 데이터 2만 1천 시간으로 사전학습했습니다.

로봇 데이터는 전혀 없었습니다.

사전학습 중에는 손 관절과 손목 포즈를 예측했습니다.

그다음 action fine-tuning 단계에서는 고정밀 mocap 데이터 장갑 데이터 50시간과 teleop 4시간만 수집했습니다.

teleop은 단 4시간입니다.

전체 학습 믹스의 0.1%도 되지 않습니다.

그런데도 EgoScale은 카드 분류, 주사기 조작, 액체 옮기기 같은 매우 정교한 작업으로 일반화할 수 있었습니다.

언젠가 우리는 집에서 로봇 간호사를 갖게 될지도 모릅니다. 그러니 이런 것도 시도해봐야죠.

그리고 셔츠 접기 전략처럼, 테스트 시점에 단 한 번의 시연만으로 다른 전략을 학습할 수 있었습니다.



14. “로보틱스 손재주에도 신경 스케일링 법칙이 발견됐다”

짐 팬:

이 논문에서 가장 흥미로운 발견은 dexterity에 대한 neural scaling law를 발견했다는 점입니다.

사전학습에 투입한 시간과 최적 validation loss 사이에 매우 깨끗한 관계가 있었습니다.

정말 깔끔한 log-linear 수학 방정식이 나왔습니다.

언어모델의 원래 neural scaling law가 나온 지 6년 만에, 로보틱스 손재주에서도 같은 종류의 법칙이 나타난 것입니다.



15. “앞으로 teleop은 거의 사라지고, 로봇의 주식은 1인칭 영상이 될 것이다”

짐 팬:

이제 모든 데이터 전략을 차트에 올려봅시다.

X축은 로봇 하드웨어와의 정렬도입니다.
Y축은 확장성입니다.

Teleop은 가장 확장성이 낮습니다.

Data wearable은 수십만 시간까지 갈 수 있습니다.

Egocentric video는 FSD 플라이휠을 만들 수 있다면, 내년쯤 1천만 시간까지도 쉽게 갈 수 있습니다.

여기 선을 하나 긋겠습니다.

이 선의 왼쪽에 있는 모든 것은 새로운 패러다임입니다.

Sensorized human data입니다.

제가 몇 가지 예측을 해보겠습니다.

앞으로 1~2년 안에 teleop은 점점 줄어들다가 거의 무시할 수 있는 수준까지 떨어질 것입니다.

그리고 다양한 하드웨어와 사용 사례에 맞춘 데이터 웨어러블의 앙상블이 등장할 것입니다.

마지막으로, 로보틱스의 주식은 egocentric video가 될 것입니다.

그러니 우리의 친구 teleop을 위해 잠시 묵념합시다.

Teleop은 우리를 잘 섬겼습니다.

편히 쉬십시오.

Sensorized human data 만세.



16. “하지만 데이터 전략은 아직 끝나지 않았다. 환경을 스케일해야 한다”

짐 팬:

데이터 전략이 끝났을까요?

아닙니다.

제가 데이터 전략에 두 개의 고리를 그린 것을 눈치채셨습니까?

바깥쪽 고리는 무엇일까요?

모든 프론티어 LLM 연구소들은 강화학습을 위해 수백만 개의 코딩 환경을 확보하는 데 막대한 예산을 쓰고 있습니다.

로보틱스도 마찬가지입니다.

우리는 환경을 시급하게 스케일해야 합니다.

물론 실제 로봇에서 직접 강화학습을 할 수도 있습니다.

우리 연구실에서는 RL을 사용해 특정 작업의 성공률을 거의 100%까지 밀어붙였습니다.

그러면 로봇들이 몇 시간 동안 연속 실행할 수 있습니다.

로봇이 혼자 GPU를 조립하는 모습을 보면 꽤 치료적입니다.

하지만 기존 방식으로는 100만 개의 환경에 도달할 수 없습니다.

그렇게 하려면 로봇이 100만 대 필요하기 때문입니다.

그래서 더 나은 방법이 필요합니다.



17. “iPhone은 포켓 월드 스캐너가 된다: real-to-sim-to-real”

짐 팬:

예를 들어 iPhone으로 사진을 찍는다고 해봅시다.

그 사진을 3D world scan pipeline에 넣으면 모든 물체를 추출할 수 있습니다.

그다음 고전 물리 시뮬레이터 안에서 자동으로 다시 합성할 수 있습니다.

스캔 이후에는 이 물체들이 모두 상호작용 가능해집니다.

그리고 시뮬레이션 안에서 무한히 변형할 수 있습니다.

우리는 이것을 digital cousins라고 부릅니다.

이제 iPhone은 사실상 주머니 속 월드 스캐너가 됩니다.

이 과정을 우리는 real-to-sim-to-real이라고 부릅니다.

이 방식으로 물리 세계를 디지털 세계로 확장 가능하게 포팅할 수 있습니다.



18. “Dream Dojo: 물리 엔진 없이 뉴럴 시뮬레이터를 만든다”

짐 팬:

하지만 이 방법은 여전히 고전 그래픽 엔진에 의존합니다.

더 잘할 수 있을까요?

Dream Dojo를 소개합니다.

Dream Dojo는 비디오 월드 모델을 완전한 neural simulator로 바꾸는 접근입니다.

Dream Dojo는 연속적인 action signal을 입력으로 받고, 다음 RGB 프레임과 센서 상태를 실시간으로 출력합니다.

여기 보이는 픽셀 중 실제인 것은 단 하나도 없습니다.

Dream Dojo는 순수하게 데이터 기반 접근으로 서로 다른 로봇의 mechanics를 포착하고 학습할 수 있습니다.

이 과정에는 물리 방정식도 없고, 그래픽 엔진도 없습니다.



19. “로보틱스의 새로운 post-training 공식: compute = environment = data”

짐 팬:

로보틱스의 새로운 post-training 패러다임은 대규모 병렬 RL 시스템입니다.

소수의 실제 로봇 스테이션이 있고, 다수의 그래픽 코어에서 월드 스캔이 돌아가고, 무거운 추론 컴퓨트에서 월드 모델이 실행됩니다.

이제 공식은 이렇게 됩니다.

Compute equals environment equals data.

컴퓨트가 곧 환경이고, 환경이 곧 데이터입니다.

혹은 현명한 남자가 말했듯이,

“더 많이 살수록 더 많이 절약한다.”

그리고 이 메시지는 제 보스의 승인을 받았습니다.



20. “로보틱스는 LLM과 같은 위대한 평행선을 따라갈 것이다”

짐 팬:

이것이 전부입니다.

모델 전략과 데이터 전략을 합치면, 로보틱스가 따라갈 위대한 평행선이 보입니다.

그리고 이 일은 지금 이 순간에도 벌어지고 있습니다.

우리는 엔드게임의 시작을 보고 있습니다.

저는 제 연구를 문명 기술 트리에서 업적을 하나씩 해금하는 일처럼 생각합니다.

그리고 로보틱스에는 아직 해금해야 할 업적이 세 개 남아 있습니다.

그 세 개만 해금하면 끝입니다.

그러면 저는 은퇴할 수 있습니다.

솔직히 그날이 기다려집니다.



21. 첫 번째 업적: “Physical Turing Test”

짐 팬:

첫 번째 업적은 Physical Turing Test를 통과하는 것입니다.

넓은 범위의 활동에서, 어떤 일을 하는 주체가 인간인지 로봇인지 구분할 수 없어야 합니다.

술 취한 인간은 제외합시다.

Physical Turing Test는 결국 단위 에너지를 넣었을 때 단위 노동이 나오는 문제입니다.

이 로봇의 섹시한 포즈만 봐도, 아직 할 일이 많다는 것을 알 수 있습니다.

아마 2~3년 정도 남았을지도 모릅니다.



22. 두 번째 업적: “Physical API”

짐 팬:

두 번째는 Physical API입니다.

여러분에게 로봇 함대가 있고, 그것을 소프트웨어처럼 API와 커맨드라인으로 설정할 수 있는 상태입니다.

언젠가는 Opus 9.0 같은 모델이 이것을 오케스트레이션할 수도 있겠죠.

Physical API가 있다면, 우리는 lights-out factory를 실현할 수 있습니다.

이것은 본질적으로 원자의 프린터입니다.

입력으로 markdown 파일에 담긴 설계를 받고, 출력으로 완전히 조립된 제품을 내놓습니다.

완전히 자율적으로요.

또는 화학, 생물학, 의학에서 과학적 발견을 자동화하는 wet lab도 만들 수 있습니다.



23. 세 번째 업적: “Physical Auto Research”

짐 팬:

마지막 목적지는 Physical Auto Research입니다.

로봇이 자기 자신의 다음 버전을 설계하고, 개선하고, 만들기 시작하는 단계입니다.

인간이 할 수 있는 것을 훨씬 넘어서는 수준으로 말입니다.

여러분은 이렇게 물을 수 있습니다.

이것이 너무 공상과학적인 이야기 아닌가요?

우리가 살아 있는 동안 볼 수 있을까요?

AI 커뮤니티는 2012년 AlexNet의 첫 forward pass에서 2026년 AI Ascent까지 오는 데 14년이 걸렸습니다.

그 모델은 고양이와 개를 겨우 구분하던 수준이었습니다.

그런데 이제 우리는 agentic auto research를 이야기하고 있습니다.

그렇다면 여기에 14년을 더해봅시다.

2026년은 2012년과 2040년의 정확히 중간입니다.

기술은 선형적으로 발전하지 않습니다.

기술은 지수적으로 발전합니다.

그래서 저는 95% 확신으로 말할 수 있습니다.

우리는 2040년까지 엔드게임의 끝, 기술 트리의 끝에 도달할 것입니다.

그리고 우리는 여전히 살아 있을 것입니다.



24. 클로징: “로보틱스를 믿으면, 로보틱스도 당신을 믿어줄 것이다”

짐 팬:

당신이 로보틱스를 믿으면, 로보틱스도 당신을 믿어줄 것입니다.

여기 앉아 있는 우리 모두에게 말하고 싶습니다.

우리 세대는 지구를 탐험하기에는 너무 늦게 태어났고, 별을 탐험하기에는 너무 일찍 태어났습니다.

하지만 우리는 로보틱스를 해결하기에는 정확히 제때 태어났습니다.



핵심만 압축하면

로보틱스도 LLM이 걸어온 길을 따라갈 수 있다.

언어모델이 “다음 토큰 예측 → instruction tuning → RL reasoning → auto research”로 발전했듯이, 로보틱스는 “다음 물리 세계 상태 예측 → action fine-tuning → RL → physical auto research”로 갈 것이다.

기존 VLA 모델은 언어 중심이라 물리와 행동을 제대로 다루기 어렵다. 앞으로는 비전과 액션이 중심인 World Action Model이 중요해진다.

데이터 측면에서는 teleoperation이 너무 비싸고 느리다. UMI, Dex UMI 같은 sensorized human data가 중간 단계가 되고, 최종적으로는 인간 1인칭 영상이 로보틱스의 주된 학습 데이터가 될 것이다.

또한 실제 로봇만으로 RL 환경을 스케일할 수 없기 때문에, world scan, digital cousins, Dream Dojo 같은 neural simulator가 필요하다.

짐 팬은 로보틱스의 남은 큰 업적으로 Physical Turing Test, Physical API, Physical Auto Research를 제시했고, 2040년까지 로보틱스 기술 트리의 끝에 도달할 가능성을 95%로 본다고 말했다.
전체 0