인터뷰/예측
gemini 공동책임자(Oriol Vinyals) "하사비스의 특이점의 산기슭, 비슷하게 느껴"
작성자
하이룽룽
작성일
2026-05-24 09:18
조회
3
Gemini 공동 책임자가 말하는 월드 모델, 강화학습의 다음 영역, 지속적 학습
1. 도입: Google I/O 이후, Gemini의 연구 방향
진행자 Jacob Efron:“오늘은 Google I/O 직후라서 매우 흥미로운 시점입니다. 어제 Google은 AI 전반에 걸쳐 정말 많은 제품을 공개했습니다. 그래서 오늘은 그 발표의 뒤에 있는 연구적 배경, Gemini 모델의 향후 방향, 강화학습과 포스트트레이닝, 에이전트, 월드 모델에 대해 이야기해보고 싶습니다.”
진행자:
“특히 저는 월드 모델부터 이야기하고 싶습니다. 어제 공개된 Omni가 매우 인상적이었고, Google이 다른 연구소들과 비교해 꽤 독특하게 집중하는 분야처럼 보입니다. 다른 연구소들은 코드, 자기개선, recursive self-improvement 쪽에 더 집중하는 것처럼 보이는데, Google은 왜 월드 모델에 큰 비중을 두고 있나요?”
2. 월드 모델과 멀티모달: 언어만으로는 부족하다
Oriel Vignal:“코딩이나 자기개선은 사실 조금 다른 층위의 문제입니다. 모델이 스스로를 재프로그래밍하고 개선할 수 있다는 믿음은 충분히 가능하고, 저도 지금 꽤 적극적으로 그 부분을 연구하고 있습니다.”
Oriel:
“하지만 그 모델이 개선하려는 대상이 무엇인지가 중요합니다. 그 대상은 멀티모달 모델일 수도 있고, 우리가 부르는 월드 모델일 수도 있습니다. Gemini 프로그램이 시작되기 훨씬 전부터 우리는 단순히 언어만이 아니라 시각 세계를 이해하고, 단어를 이미지·비디오 같은 맥락 속에서 함께 모델링하는 작업을 해왔습니다.”
Oriel:
“언어에는 분명 엄청난 정보가 들어 있습니다. 인류가 세계에 대해 쓴 지식이 인터넷에 축적되어 있었고, 우리는 그 지식을 모델의 가중치 안으로 증류해왔습니다. 이것이 엄청난 성과를 냈다는 점은 분명합니다.”
Oriel:
“하지만 세상에 대한 지식은 텍스트에만 있지 않습니다. 이미지와 비디오에도 엄청난 지식이 있습니다. 문제는 우리가 아직 이미지와 비디오에서 ‘GPT 모멘트’에 해당하는 순간을 보았는가입니다. 제 생각에는 아직 완전히 보지는 못했습니다.”
진행자:
“그렇다면 이미지와 비디오에서 GPT 모멘트가 온다는 것은 어떤 의미일까요?”
Oriel:
“현재 우리는 여러 모달리티를 섞어서 학습합니다. Omni는 그 진전의 좋은 예입니다. 이제 모델은 이미지와 비디오를 입력으로 이해할 뿐 아니라, 비디오를 출력하고, 언어를 통해 자연스럽게 편집하고, 모달리티들을 거의 마법처럼 결합할 수 있습니다.”
Oriel:
“하지만 딥러닝의 오래된 꿈 중 하나는 텍스트가 붙어 있지 않은 이미지와 비디오 데이터만으로도 그 안의 의미와 뉘앙스를 추출할 수 있느냐입니다. 모든 비디오와 이미지를 학습해서, 언어 모델이 언어를 통해 얻는 수준의 이해에 도달할 수 있느냐는 것이죠.”
Oriel:
“우리는 아직 그 순간을 보지 못했습니다. Google은 아마도 세계에서 가장 발전된 멀티모달 학습 레시피 중 하나를 갖고 있지만, 순수한 이미지·비디오 데이터에서 의미를 추출해 언어적 이해 수준으로 옮기는 문제는 여전히 머신러닝의 핵심 과제 중 하나입니다.”
3. 이미지·비디오만으로 물리 법칙을 배울 수 있는가
진행자:“그 문제를 해결하기 위해 아직 남아 있는 핵심 과제는 무엇인가요?”
Oriel:
“예를 들어, 모델이 모든 비디오를 보고 중력 법칙을 알아낸다고 생각해봅시다. 이미지에서 세계가 어떻게 작동하는지를 정밀하게 설명할 수 있어야 합니다. 그런데 여기서 어려운 점은 이미지 속에서 보이는 것과 ‘중력’, ‘원인과 결과’, ‘물체’, ‘운동’ 같은 개념을 연결하는 일입니다.”
Oriel:
“지금은 보통 이미지나 비디오에 언어 라벨, 설명, 캡션을 붙여서 연결합니다. 하지만 그렇게 하면 사용할 수 있는 데이터 양이 크게 줄어듭니다. 세상에 존재하는 모든 미디어가 명확하게 설명되거나 전사되어 있는 것은 아니기 때문입니다.”
Oriel:
“따라서 진짜 강력한 것은 언어적 설명 없이도 이미지와 비디오에서 순수하게 개념을 추출하는 것입니다. 이것이 가능해진다면 엄청난 돌파구가 될 겁니다. 다만 아직은 연구 단계에 가깝고, 대규모로 확실히 확장 가능한 방법은 아닙니다.”
4. Omni가 왜 월드 모델인가
진행자:“Omni를 월드 모델이라고 부르는 이유는 무엇인가요? 기존 비디오 생성 모델과 무엇이 다릅니까?”
Oriel:
“월드 모델의 순수한 측면은 표현학습입니다. 이미지나 비디오를 받아서 그 안의 움직임, 물체, 관계를 압축된 개념 표현으로 바꾸는 것이죠. 이것은 세상을 압축적으로 모델링하는 일입니다.”
Oriel:
“하지만 Omni를 사용자가 체감할 때 보이는 월드 모델적 성격은 조금 다릅니다. 사용자는 언어로 비디오의 행동이나 움직임을 바꿀 수 있습니다. 예를 들어 이미지를 애니메이션화하고, 특정 움직임이나 행동을 지시할 수 있습니다. 모델은 그것을 일종의 세계 렌더러처럼 시뮬레이션합니다.”
Oriel:
“이런 모델은 단순히 재미있는 제품을 넘어서, 실제 세계에서 행동하기 전에 예측하고 시뮬레이션하는 데 쓰일 수 있습니다. 명백한 응용 분야는 자율주행차와 로보틱스입니다.”
5. 로보틱스와 월드 모델: 시뮬레이션이 현실을 대체할 수 있는가
진행자:“로보틱스와 연결하면, 월드 모델이 로봇 학습에 직접적으로 도움이 될까요?”
Oriel:
“연결은 매우 아름답습니다. 로봇에서 얻은 데이터가 월드 모델을 더 좋게 만들 수 있고, 반대로 월드 모델은 로봇이 훈련할 수 있는 다양한 시나리오를 시뮬레이션할 수 있습니다. 물리 세계에서 직접 데이터를 얻는 비용과 시간 지연을 줄일 수 있는 것이죠.”
Oriel:
“하지만 아직 매우 열린 문제입니다. 특히 현실 전이 문제가 있습니다. 시뮬레이션에서 잘 되던 것이 현실에서도 잘 되려면, 모델의 정밀도가 매우 높아야 합니다.”
Oriel:
“예를 들어 물체를 잡는다는 것은 인간에게는 당연한 일이지만, 로봇에게는 시각, 촉각, 힘, 마찰, 물체의 움직임을 매우 정확하게 이해해야 하는 일입니다. 현재 모델은 촉각 같은 모달리티 데이터도 충분히 갖고 있지 않습니다.”
Oriel:
“따라서 미세한 운동 제어 수준에서는 아직 격차가 있습니다. 하지만 계획이나 거친 행동 수준에서는 월드 모델이 로보틱스 발전을 가속할 가능성이 큽니다.”
6. 월드 모델이 물리학을 이해했는지 어떻게 평가할 것인가
진행자:“월드 모델이 중력 같은 물리 개념을 정말 배웠는지 어떻게 평가할 수 있을까요?”
Oriel:
“그 질문은 평가 문제로 이어집니다. 언어를 넣는 순간, 모델은 이미 인터넷에서 중력 설명을 읽었기 때문에 답을 할 수 있습니다. 그래서 모델이 실제로 비디오에서 중력 개념을 배웠는지 구분하기 어렵습니다.”
Oriel:
“이론적으로는 월드 모델 안의 개념 표현과 언어 모델의 표현을 정렬하고, 거기서 설명을 디코딩하는 방식이 있을 수 있습니다. 과거 비지도 기계번역 연구에서 서로 다른 언어의 표현을 정렬하려고 했던 것과 비슷한 아이디어입니다.”
Oriel:
“또 다른 방식은 복잡한 시스템에서 움직임을 유도하거나 예측하는 능력을 보는 것입니다. 직접적으로 ‘중력이 무엇인가?’를 묻는 대신, 세계 모델의 표현에서 실제 물리적 행동을 얼마나 잘 예측할 수 있는지 평가하는 것이죠.”
7. 에이전트: 모델과 시스템을 함께 최적화해야 한다
진행자:“이제 에이전트 이야기를 해봅시다. Google I/O에서 Spark 같은 소비자용 에이전트가 공개됐고, Project Mariner나 컴퓨터 사용 에이전트에서 한 단계 진전한 것처럼 보였습니다. 어떤 연구적 돌파가 있었나요?”
Oriel:
“우리는 행동이라는 모달리티가 매우 중요해질 것이라는 점을 알고 있었습니다. 디지털 컴퓨터의 상태를 바꾸고, 실제로 행동하는 능력 말입니다.”
Oriel:
“처음에는 모델을 더 좋게 만들고, 그다음 모델 주변에 시스템을 만들고, 다시 모델과 시스템을 함께 최적화합니다. 능력 향상은 어떤 한 가지 마법 같은 돌파라기보다, 모델 능력이 일정 수준에 도달했을 때 그 위에 어떤 시스템을 만들 수 있는지 단계적으로 확장하는 과정입니다.”
진행자:
“소비자용 에이전트는 사람들이 원하는 작업 범위가 매우 넓습니다. 이런 시스템은 특정 문제에 맞춰 좁게 특화되어야 하나요, 아니면 매우 일반적이어야 하나요?”
Oriel:
“처음에는 통제 가능하고 유용한 영역에 맞춰 좁게 만드는 것이 좋습니다. 예를 들어 Spark는 일정 관리, 하루 조직, 사용자의 풍부한 맥락을 활용하는 문제에 초점을 둡니다.”
Oriel:
“하지만 머신러닝의 역사를 보면, 우리가 만드는 구성 요소는 결국 일반적인 방향으로 갑니다. 트랜스포머도 원래는 기계번역용 신경망이었지만, 이제는 Omni부터 컴퓨터 제어까지 모든 것을 합니다.”
Oriel:
“시스템 역시 기본적으로는 일반적이어야 합니다. 사용자가 무엇을 요구하느냐에 따라 모델이 어떤 능력을 사용할지 결정하는 식으로 특화가 일어나는 것이죠. 즉, 특화는 하드코딩된 시스템이 아니라 모델의 지능과 일반적 시스템 위에서 발생합니다.”
8. Bitter Lesson과 스캐폴딩: 언젠가는 모델이 스스로 시스템을 쓸 수 있다
진행자:“당신은 과거부터 Bitter Lesson에 대해 많이 이야기했습니다. 지금 AI 분야에서 그 교훈이 아직 충분히 적용되지 않는 영역이 있다고 보나요?”
Oriel:
“그렇다고 생각합니다. 지금 우리는 모델 주변에 복잡한 스캐폴딩을 코드로 만듭니다. 여러 에이전트, 하위 에이전트, 위임 구조, 장기 실행 시스템 같은 것들이죠.”
Oriel:
“하지만 궁극적으로는 그 시스템 자체도 코드입니다. 그러면 언젠가는 모델이 주어진 작업에 맞춰 그 스캐폴딩을 즉석에서 작성할 수 있을 겁니다.”
Oriel:
“즉, 고정된 일반 시스템이 있는 것이 아니라, 모델이 문제에 따라 가장 토큰 효율적이고 품질 높은 하위 에이전트 구조를 만들어내는 방식으로 갈 수 있습니다.”
Oriel:
“추론 모델에서도 비슷한 변화가 있었습니다. 모델이 토큰 공간에서 오랫동안 추론할 수 있게 되었지만, 이제 중요한 것은 얼마나 오래 추론해야 하는지, 언제 추론해야 하는지 판단하는 능력입니다. 에이전트 시스템도 마찬가지로, 어떤 작업에 어떤 스캐폴딩이 필요한지 자동으로 정하는 방향으로 갈 수 있습니다.”
9. 장기 실행 에이전트와 안정성
진행자:“수백 단계에 걸쳐 실행되는 장기 에이전트는 안정성 문제가 많습니다. 더 높은 에이전트 신뢰성을 위해 무엇이 필요합니까?”
Oriel:
“가장 직접적인 답은 모델 주변의 스캐폴딩과 모델 자체를 모두 개선하는 것입니다.”
Oriel:
“신경망은 특정 분포의 작업과 모달리티 위에서 학습됩니다. 그런데 장기 실행 에이전트는 매우 긴 맥락을 활용해야 하고, 새로운 유형의 작업을 수행해야 합니다. Gemini 1.5에서 긴 컨텍스트가 중요한 돌파였던 것처럼, 모델도 이런 사용 사례를 따라잡아야 합니다.”
Oriel:
“단순히 프롬프트가 일반화해주기를 바라는 것이 아니라, 모델의 가중치 자체가 긴 맥락과 복잡한 실행 패턴을 더 자연스럽게 다룰 수 있도록 학습되어야 합니다.”
10. 메모리: 작업 기억, 에피소드 기억, 파일 시스템형 지속학습
진행자:“에이전트에서 모두가 해결하려는 문제가 메모리입니다. 이 문제는 어디에서 해결될까요?”
Oriel:
“메모리는 매우 흥미로운 주제입니다. 단순하게 보면 두 가지 수준으로 생각할 수 있습니다. 하나는 작업 기억입니다. 지금 대화하거나 수행 중인 일과 직접 관련된, 현재 맥락 안의 기억입니다.”
Oriel:
“다른 하나는 에피소드 기억입니다. 과거 상호작용이나 경험에서 검색해오는 장기 기억입니다. 컴퓨터에도 캐시, L1, L2 같은 여러 수준의 메모리가 있듯이, 모델에도 이런 층위가 필요합니다.”
Oriel:
“트랜스포머 덕분에 작업 기억은 매우 강력해졌습니다. 수십만, 수백만 토큰을 맥락으로 넣고, 그 안에서 복잡한 수학 증명이나 문제 해결을 할 수 있습니다.”
Oriel:
“하지만 더 큰 문제는 과거의 상호작용이나 긴 작업 과정에서 얻은 지식을 어떻게 저장하고 통합하느냐입니다.”
Oriel:
“현재 꽤 유망한 메커니즘은 모델이 컴퓨터의 파일 시스템을 메모리로 사용하는 것입니다. 에이전트가 자신의 생각을 파일에 쓰고, 디렉터리나 폴더 구조로 정리하고, 나중에 다시 읽는 식입니다.”
Oriel:
“우리는 이것을 일종의 지속적 학습이라고 부를 수 있습니다. 하지만 저는 이 방식이 모델의 가중치에 직접 통합하는 것보다 실용적으로 더 매력적이라고 봅니다.”
Oriel:
“왜냐하면 실제 서비스에서는 하나의 모델을 대규모로 서빙해야 하기 때문입니다. 사용자마다 다른 기억을 가진 다른 가중치 모델을 서빙하는 것은 매우 어렵습니다. 그래서 비파라메트릭한 파일 시스템형 지식 저장 방식이 더 현실적입니다.”
11. 사용자별 모델 가중치가 달라질까?
진행자:“그러면 미래에는 사람마다 다른 파일 시스템을 가진 모델이 생길까요, 아니면 사람마다 가중치 자체가 달라질까요?”
Oriel:
“가중치가 달라지는 것은 서빙 측면에서 어렵습니다. 물론 그것이 최선의 방법이라면 하드웨어까지 바꿔서 방법을 찾겠지만, 최소한 당장은 각자의 개인 지식베이스를 갖는 방식이 더 현실적입니다.”
Oriel:
“또 하나의 층위로는 모든 사용자가 공유하는 공통 지식베이스가 있을 수 있습니다. 모델의 가중치를 바꾸지 않으면서도, 모델의 능력을 풍부하게 만드는 지식 계층이 생기는 것이죠.”
12. 지속학습 연구는 기존 LLM 경로와 분리되어야 하나
진행자:“최근 지속학습이 매우 큰 주제가 됐습니다. OpenAI 같은 곳에서 나온 연구자들이 별도 회사를 세우며, 기존 LLM 확장만으로는 부족하고 새로운 연구 베팅이 필요하다고 말하기도 합니다. 어떻게 보나요?”
Oriel:
“저는 Google Brain 초창기에 있었고, 2016년에 DeepMind로 옮겼습니다. 그 경험에서 보면, 단기적으로 다음 훈련 런에 바로 들어갈 수 없는 연구 질문을 탐구하는 것도 중요합니다.”
Oriel:
“하지만 그것이 LLM의 최전선과 완전히 분리되어서는 안 됩니다. Gemini는 계속 빠르게 개선되고 있습니다. 몇 달 전 Pro보다 지금의 Flash가 더 나은 일이 계속 일어나고 있습니다.”
Oriel:
“최전선 능력의 바로 옆에 있으면서도, 동시에 연구가 보호받을 수 있어야 합니다. 이제는 수년 단위가 아니라 몇 달 단위로 움직입니다. 이 둘을 결합하는 것이 연구 조직을 만드는 핵심입니다.”
Oriel:
“문제는 아이디어 하나가 다음 논문이나 다음 모델에 들어가느냐가 아닙니다. 어떻게 조직 전체를 구성해서, 장기 연구와 당장의 모델 발전을 연결하느냐가 중요합니다.”
13. Google의 장점: 넓은 제품 면적과 집중된 Gemini 코어
진행자:“AI 모델이 너무 많은 영역에서 발전할 수 있다 보니, 한 가지에 집중해야 하는지 아니면 넓은 표면적을 가져가야 하는지 고민이 큽니다. Google은 어떻게 균형을 잡나요?”
Oriel:
“Google은 독특한 위치에 있습니다. Gemini는 이미 매우 많은 제품 표면을 구동하고 있습니다. 동시에 조직의 다른 부분들도 LLM 시대를 완전히 받아들였습니다.”
Oriel:
“그래서 핵심 모델 팀은 프런티어 능력 향상에 집중할 수 있고, 다른 팀들은 그 모델을 가져가 각자의 제품 영역에 적용할 수 있습니다.”
Oriel:
“또한 Google은 하드웨어 조달과 자본 투자에서 안정성이 있습니다. 자체 수익 흐름이 있고, 엔드투엔드로 투자할 수 있습니다. 그래서 특정 연구 영역에서 더 큰 위험을 감수할 수 있습니다.”
Oriel:
“Gemini는 매우 강한 통합력과 집중력을 만들었습니다. 동시에 Google DeepMind의 DNA에는 계속 혁신하려는 성향이 있습니다. Gemini 코어 모델링 노력은 집중되어 있고, 주변에서는 다양한 탐색과 응용이 들어오는 구조입니다.”
Oriel:
“월드 모델이 꼭 필요한가? 성공하면 분명 필요할 것입니다. 실패하면 없어도 괜찮을 수 있습니다. 하지만 그런 베팅을 올바르게 배치하는 것이 중요합니다.”
14. 포스트트레이닝과 RL: 다음 영역은 어디인가
진행자:“이제 Gemini 모델과 포스트트레이닝 이야기로 넘어가고 싶습니다. 당신은 포스트트레이닝이 아직 완전히 열린 들판이라고 말한 적이 있습니다. 최근에는 코딩과 수학에서 RL이 엄청난 진전을 보이고 있습니다. 다음으로 RL이 크게 먹힐 영역은 어디라고 보나요?”
Oriel:
“모델들이 이미 많은 일을 매우 잘한다는 점에서 겸손해야 합니다. 거의 기본 프롬프팅만으로도 디지털 세계에서는 이미 매우 인상적인 일들이 가능합니다.”
Oriel:
“제가 포스트트레이닝이 그린필드라고 말한 것은 특정 능력이 아직 너무 부족하다는 뜻이라기보다, 기계적으로 보았을 때 지금 모델들이 포스트트레이닝에 쓰는 컴퓨트가 프리트레이닝에 비해 상대적으로 작다는 뜻입니다.”
Oriel:
“과거 AlphaGo 같은 게임 강화학습에서는 환경이 무한한 데이터를 만들어줬습니다. 바둑을 몇 수 두면 이전에 본 적 없는 새로운 판이 생기고, 그 안에서 계속 학습할 수 있습니다. 그래서 훈련 데이터가 사실상 공짜로 무한히 생성됩니다.”
Oriel:
“하지만 LLM에서는 데이터가 제한적입니다. 무엇이 무한한 복잡성의 원천이 될 수 있는지는 아직 명확하지 않습니다. 그 레시피를 푸는 것은 알고리즘적으로 매우 아름다운 돌파가 될 수 있습니다.”
15. 가장 흥미로운 능력은 ‘메타 능력’이다
Oriel:“제가 가장 흥미롭게 보는 것은 특정 도메인 능력, 예를 들어 수학이나 코딩 자체가 아닙니다. 저는 그것을 메타 능력이라고 부릅니다.”
Oriel:
“지능의 속성은 무엇인가? 모델이 경험으로부터 매우 효율적으로 배울 수 있는가? 계속 학습할 수 있는가? 인컨텍스트 러닝이나 메타러닝이라고 부르던 능력들이 여기에 들어갑니다.”
Oriel:
“또 하나는 지시 따르기입니다. 어떤 의미에서는 지시 따르기가 궁극의 능력일 수도 있습니다. 내가 ‘AI가 되어라’라고 지시했을 때 모델이 그것을 따를 수 있느냐는 식으로 볼 수 있기 때문입니다.”
Oriel:
“저는 특정 수직 영역보다, 문제 해결 방식 자체에서 지능적인 행동이 나타나는지를 봅니다. 모델이 적응하고 배우는 능력, 이것이 가장 흥미롭습니다.”
16. 모델의 학습 능력을 어떻게 테스트하는가
진행자:“그런 능력을 테스트하는 방식이 있나요?”
Oriel:
“저는 게임을 좋아합니다. 새로운 게임을 즉석에서 정의하고, 모델이 그 규칙을 이해하고 플레이할 수 있는지 봅니다.”
Oriel:
“중요한 것은 그 게임이 모델의 가중치 안에 이미 들어 있으면 안 된다는 점입니다. 인터넷에 누군가 올려둔 게임이라면 모델이 이미 봤을 수 있으니까요.”
Oriel:
“제가 좋아하는 오래된 평가 방식 중 하나는 Civilization 같은 게임의 설명서를 주고, 모델이 그 게임을 플레이할 수 있는지 보는 것입니다. 이 방식은 두 가지를 봅니다. 첫째, 규칙을 이해할 수 있는가. 둘째, 게임을 하면서 더 잘하게 되는가.”
Oriel:
“모델들은 인상적이지만, 훈련 분포 밖의 새로운 게임을 정말 잘 배우는 것은 아직 쉽지 않습니다.”
17. RL의 일반화: 수학·코딩에서 배운 추론이 다른 영역으로 넘어가는가
진행자:“현재 RL은 코딩과 수학에서 크게 발전하고 있습니다. 그런데 그 능력이 다른 영역으로 일반화되나요?”
Oriel:
“우리는 일반화를 보고 있습니다. 추론 모델은 주로 코딩과 수학을 통해 깊은 추론을 학습하지만, 그 추론 방식이 다른 질문에도 적용됩니다.”
Oriel:
“예를 들어 제가 최근 미국으로 다시 이사하면서 세금이나 이주 관련 질문을 많이 했는데, 모델의 추론은 꽤 좋았습니다. 그런 질문이 정확히 훈련 데이터에 있었을 것이라고 믿기는 어렵습니다.”
Oriel:
“그래서 우리는 깊은 추론이나 에이전트적 행동을 유도하는 어려운 문제의 원천을 창의적으로 찾으려 합니다. 다만 검증 가능성에만 의존하는 것은 불만족스럽습니다.”
Oriel:
“우리가 모델에게 원하는 많은 일은, 저 자신이 무한한 시간이 있어도 완벽한 검증기를 만들 수 없는 것들입니다. 하지만 해답을 만드는 것보다 평가하는 것이 더 쉬운 경우가 많습니다. NP-hard 문제에서 해답 생성은 어렵지만 검증은 쉬운 것과 비슷합니다.”
Oriel:
“그래서 모델이 완전히 형식적인 검증기 없이도 판단자가 될 수 있다는 점에 희망을 겁니다. 예를 들어 어떤 코드가 아름다운 게임을 만드는지, 어떤 결과물이 매력적인지 같은 문제는 명확한 검증기가 없지만 평가 자체는 가능할 수 있습니다.”
Oriel:
“궁극적으로 넓은 분포에서 훈련하는 것이 좋다고 믿고 싶습니다. 다만 수학과 코딩 같은 좁지만 어려운 문제에서 나오는 일반화가 예상보다 훨씬 강하다는 점도 인정해야 합니다.”
18. 스타트업은 모델 레이어를 해야 하나, 앱 레이어를 해야 하나
진행자:“많은 창업자들이 모델 레이어에서 직접 일해야 할지, 아니면 모델 위에 앱을 만들어야 할지 고민합니다. 어떻게 보나요?”
Oriel:
“제가 말하고 싶은 것은 평가와 데이터의 가치입니다. 자체 모델을 만들지 않더라도, 자신이 해결하려는 문제에서 진전을 어떻게 평가할 것인지 매우 신중하게 생각하는 것은 큰 가치가 있습니다.”
Oriel:
“좋은 평가셋은 나중에 우리 같은 큰 연구소도 채택하거나 관찰할 수 있는 표준 평가가 될 수 있습니다. 그리고 데이터의 가치는 엄청납니다. 특히 포스트트레이닝에서는 충분한 데이터가 부족하기 때문입니다.”
Oriel:
“모델 위에 제품을 만드는 것도 여전히 큰 기회가 있습니다. 대형 플레이어가 집중하지 않는 문제를 깊이 이해하고, 사용자를 모으고, 임계 질량을 확보한다면, 모델을 직접 훈련하지 않아도 큰 가치를 만들 수 있습니다.”
진행자:
“초기에는 모델 위에 제품을 만들고, 규모가 생기면 평가와 데이터를 축적한 뒤 포스트트레이닝을 고민하는 식으로 볼 수 있겠네요.”
Oriel:
“맞습니다. 또 하나의 각도는 지식베이스입니다. 모델이 더 잘 지속학습하고 복잡한 지식베이스를 사용할 수 있게 될수록, 특정 응용을 위한 지식베이스를 잘 구축하는 것이 강력한 방어력이 될 수 있습니다.”
Oriel:
“이것은 가중치를 훈련하는 것보다 효율적일 수 있고, 특정 영역에서 오래 고민한 사람만 만들 수 있는 독특한 자산이 될 수 있습니다.”
19. 가장 어려운 능력: 진짜 혁신
진행자:“앞으로 가는 연구 경로가 가장 불확실한 능력은 무엇인가요?”
Oriel:
“저는 여러 능력에 대해서는 연구 경로가 보인다고 생각합니다. 특히 메타러닝, 즉 모델이 배우는 법을 배우는 능력은 오래전부터 저를 매료시켰고, 지금은 어느 정도 베이스라인도 생겼으며 계속 개선될 것입니다.”
Oriel:
“하지만 더 어려운 것은 모델이 정말로 혁신할 수 있느냐입니다.”
Oriel:
“예를 들어 머신러닝에서 새로운 아이디어를 내고, 코딩으로 구현하고, 실험을 배포하고, 개선하는 일은 매우 중요합니다. 그런데 기존 지식을 종합해 ‘취향 있게’ 진짜 새로운 아이디어를 내는 것은 인간에게도 드문 능력입니다.”
Oriel:
“인간의 혁신도 때로는 무작위적입니다. 1만 명이 시도하고, 그중 맞았던 한 사람을 나중에 천재로 추앙하는 면도 있습니다.”
Oriel:
“그래서 과학이나 머신러닝에서 진짜 혁신하는 능력은 자기개선과도 연결되어 매우 중요합니다. 하지만 평가하기 어렵습니다. 평가하기 어렵다는 것은 힐클라임하기도 어렵다는 뜻입니다.”
진행자:
“최근 모델이 AlphaGo의 37수 같은 진짜 창의적 발견을 보여준 사례가 있나요?”
Oriel:
“머신러닝 내부를 보면, 아직 모델이 낸 정말 탁월한 아이디어를 본 것 같지는 않습니다. 하지만 아주 곧 보게 될 것이라고 확신합니다.”
Oriel:
“모델이 훈련 과정이나 시스템을 이해하는 방식에서 이미 인간을 넘어서는 듯한 통찰이 보이기도 합니다. 모델은 인간이 접근할 수 없는 정보 대역폭에 접근할 수 있기 때문입니다. 다만 아이디어 수준에서도 그런 인상적인 순간을 보고 싶습니다.”
20. Recursive Self-Improvement와 물리적 한계
진행자:“모델이 머신러닝 연구에 진짜 통찰을 내고, recursive self-improvement의 세계로 들어가면 어떻게 될까요? 그때도 Bitter Lesson은 유효할까요?”
Oriel:
“우선 연구자나 엔지니어가 AI 도구를 사용해 생산성을 높이는 일은 이미 일어나고 있습니다. 최전선 분야 사람들과 이야기하면, 생산성 향상이 꽤 크다고 말합니다.”
Oriel:
“하지만 이 과정이 무한히 빨라지는 데는 물리적 한계가 있습니다. 모델은 훈련되어야 하고, 에너지와 하드웨어 제약이 있습니다.”
Oriel:
“어떤 문제는 더 자율적으로 자동화될 수 있겠지만, 모델 훈련에는 자연스러운 속도 제한과 상한이 있습니다. 우리가 정확한 레시피를 안다고 해도, 다음 세대 모델을 훈련하는 데에는 여전히 물리적 비용과 시간이 필요합니다.”
Oriel:
“또 어떤 능력은 이미 충분히 좋아서 더 개선할 필요가 없을 수도 있습니다. 예를 들어 모델이 인간보다 영어를 더 잘 쓰는 지점에 도달했다면, 그 능력을 더 끌어올리는 것이 꼭 필요한가라는 질문도 생깁니다.”
21. 최근 1년간 생각을 바꾼 점
진행자:“최근 1년 동안 AI에 대해 생각을 바꾼 것이 있나요?”
Oriel:
“저는 넓은 분포에서 훈련하는 것이 모델을 향상시킬 것이라고 믿고 싶었습니다. 그런데 수학이나 코딩처럼 좁지만 매우 어려운 영역에서 훈련했을 때 나오는 일반화가 예상보다 훨씬 강했습니다. 그 점은 제가 생각을 바꾼 부분입니다.”
22. AGI는 가까운가? “어떤 의미에서는 이미 여기 있다”
진행자:“Demis Hassabis는 우리가 특이점의 산기슭에 있고, AGI가 몇 년 안에 올 수 있다고 말했습니다. 당신도 비슷하게 느끼나요?”
Oriel:
“비슷하게 느낍니다. 더 말하자면, 7년 전의 제가 지금의 모델을 실험했다면 이것을 AGI라고 선언했을 가능성이 큽니다.”
Oriel:
“정의는 계속 움직입니다. 하지만 몇 년 전 우리가 AGI에 대해 기대했던 기준으로 보면, 어떤 의미에서는 AGI가 이미 여기 있다고 말할 수 있습니다.”
Oriel:
“다만 제가 보고 싶은 방식의 AGI는 아직 아닙니다. 저는 모델이 경험으로부터 진짜로 학습하는 능력이 아직 부족하다고 봅니다. 사람마다 AGI의 기준은 다르겠지만, 제게는 그 능력이 중요한 남은 격차입니다.”
23. Google이 Anthropic에 컴퓨트를 판매하는 이유
진행자:“Google은 자체 최첨단 칩을 가진 거의 유일한 프런티어 모델 제공자입니다. 그런데 일부 컴퓨트를 Anthropic에 판매한 것을 두고, ‘그렇게 모델에 낙관적이면 왜 모든 컴퓨트를 직접 쓰지 않느냐’는 질문이 있습니다. 어떻게 답하겠습니까?”
Oriel:
“컴퓨트를 어디에 투자할지는 균형의 문제입니다. 우리는 컴퓨트를 서비스에도 쓰고, 작은 모델과 더 작은 모델도 훈련하며, 프런티어 모델도 훈련합니다.”
Oriel:
“Alphabet을 생각하는 한 방식은, 어떤 활동은 수익과 경제적 영향을 만들고, 그 수익을 다시 투자하게 해준다는 것입니다. 단순히 지금 당장 모든 것을 독점적으로 쓰자는 문제가 아닙니다.”
Oriel:
“전략은 다면적입니다. 우리는 기술 발전에 낙관적이지만, 여러 수익 흐름과 투자 기간을 함께 고려해야 합니다. 하드웨어는 매우 중요한 자산이고, 일부는 직접 쓰고 일부는 전략적으로 활용해 재투자 여력을 만드는 선택이 있을 수 있습니다.”
24. 자체 칩과 모델 연구의 결합
진행자:“Google은 자체 칩을 가진 프런티어 모델 회사라는 점에서 독특합니다. 모델 연구와 하드웨어 협업은 어떻게 작동하나요?”
Oriel:
“저는 Google 내부에서 딥러닝이 아직 증명되어야 했던 아주 초기 시절을 기억합니다. 2013년이나 2014년쯤, 저와 Jeff Hinton, Jeff Dean, Ilya가 한 방에 모여 서버에 어떤 구성을 넣어야 할지 논의했던 기억이 있습니다.”
Oriel:
“당시에는 CPU와 GPU가 있었고, 연구가 어디로 갈지 예측해서 하드웨어 결정을 내려야 했습니다. 그런 결정은 보상이 몇 달, 몇 년 뒤 데이터센터에서 나타납니다.”
Oriel:
“연구 방향을 보고 인프라 투자를 실제로 영향을 줄 수 있다는 것은 매우 특권적인 위치입니다. Jeff Dean처럼 Google 인프라를 오랫동안 생각해온 사람과 함께, 모델이 어디로 가고 있는지 보고 하드웨어 투자를 조정할 수 있다는 점은 큰 장점입니다.”
Oriel:
“이것은 회사의 운명에 깊은 영향을 미치는 선택입니다.”
25. 마지막 메시지: 모든 사람은 모델을 써봐야 한다
진행자:“마지막으로 청중에게 남기고 싶은 말이 있나요?”
Oriel:
“AI에 있는 사람이라면 지금은 정말 매혹적인 시기입니다. 사용자라면 모델을 사용하세요. 빌더라면 모델을 사용해서 무언가를 만드세요.”
Oriel:
“당신이 하는 일이 AI와 전혀 관련 없어 보이더라도, 이 모델들을 가지고 놀아보세요. 모델들은 이미 놀랍고, 앞으로 더 좋아질 것입니다.”
핵심 요약
Oriel은 언어 모델만으로 AGI에 도달하는 그림보다, 이미지·비디오·행동·메모리·지속학습을 포함한 더 넓은 지능 시스템을 강조한다. 특히 Google/Gemini의 차별점으로 월드 모델을 들고, 비디오와 이미지에서 텍스트 없이 개념과 물리 법칙을 추출하는 것이 아직 풀리지 않은 거대한 과제라고 본다.그는 에이전트에 대해서는 단순히 모델을 잘 만드는 것만으로 부족하고, 모델과 시스템을 함께 최적화해야 한다고 말한다. 하지만 장기적으로는 사람이 만든 스캐폴딩도 모델이 직접 생성할 수 있다고 본다.
메모리와 지속학습에서는 사용자마다 모델 가중치를 바꾸는 방식보다, 파일 시스템형 지식베이스·비파라메트릭 메모리가 더 현실적이라고 본다. 이는 향후 에이전트와 개인화 AI에서 매우 중요한 패러다임이 될 수 있다.
강화학습에서는 코딩·수학에서 얻은 추론 능력이 다른 영역으로 일반화되는 현상을 인정하면서도, 앞으로는 특정 도메인이 아니라 경험으로부터 배우는 능력, 적응, 지시 따르기 같은 메타 능력이 중요해질 것이라고 말한다.
AGI에 대해서는 꽤 강한 발언을 한다. 그는 7년 전 기준으로 지금 모델을 봤다면 AGI라고 불렀을 가능성이 높다고 말하며, “어떤 의미에서는 AGI가 이미 여기 있다”고 본다. 다만 그가 원하는 수준의 AGI에는 아직 진짜 경험학습과 지속학습이 부족하다고 본다.
마지막으로 recursive self-improvement에 대해서는 가능성과 생산성 향상을 인정하지만, 훈련 시간, 에너지, 하드웨어 같은 물리적 제약 때문에 무한히 빠른 폭발은 아닐 수 있다고 신중하게 본다.
전체 0