인터뷰/예측
제프 딘 "1년 후 일종의 self-improvement, 자기개선 가능해질 것"
작성자
작성일
2026-05-30 14:31
조회
3
장기 실행 에이전트·제품 미래 전망
1년 뒤 미래 전망: 2027년 IO에는 무엇을 이야기하게 될까?
Logan Kilpatrick:“좋습니다. 이제 예측을 해봅시다. 그래야 1년 뒤에 이 대화를 돌아봤을 때 우리가 틀릴 수 있는 무언가가 생기니까요.
올해 IO에서 엄청난 진전이 있었고, 흥미로운 것들이 많이 나왔습니다. 만약 우리가 2027년에 다시 이 자리에 앉아 있다고 해봅시다. 2027년이라는 말이 거의 지어낸 연도처럼 느껴지긴 하지만요. 곧 다가오고 있죠.”
참석자:
“지어낸 연도라니요.”
Logan:
“제 말은, 2027년이라는 게 너무 먼 미래처럼 느껴지는데, 사실 6개월 뒤쯤이라는 겁니다.”
Jeff Dean:
“저는 그때 50살이 됩니다.”
Logan:
“와, 그렇군요. 미리 생일 축하드립니다. 50번째 생일이네요. 그때 IO 2027에서 우리가 축하하고 있겠죠.
모델 능력 관점에서, 그때쯤 실제로 도달했으면 하는 것들이 있을까요? 예를 들어 코딩은 이미 엄청난 진전을 이뤘습니다. 앞으로도 코딩에 이렇게 많은 시간을 쓰게 될까요? 아니면 어느 정도 포화될까요? 에이전트도 마찬가지입니다. 지금 여러 능력에서 기하급수적인 흐름 위에 있는 것처럼 느껴지는데, 방향성 차원에서 어떤 예측을 할 수 있을까요?”
Self-learning: 모델이 스스로 배우고, Gemini 개선에 참여하는 단계
Koray Kavukcuoglu:“제가 먼저 말해보겠습니다. 1년 뒤쯤 일어나고 있을 수 있는 한 가지는 self-learning, 즉 자기학습입니다.”
Logan:
“self-learning은 continual learning과 같은 건가요, 아니면 다른 건가요?”
Koray:
“둘은 관련이 있습니다. 사람에 따라서는 같은 의미로 볼 수도 있습니다.
우리는 모델들이 훨씬 더 에이전트적으로 변하는 시대에 있습니다. 모델들은 코드를 매우 잘 작성하고 있고, 우리는 연구에서도 그 모델들을 사용하고 있습니다. 앞으로는 연구 과정에서 모델들을 점점 더 많이 사용하게 될 것입니다.
그리고 어느 시점에는, 적어도 실험 수준에서는, Gemini의 여러 부분을 개선하는 데 모델에 의존하게 될 것입니다. 제 예측으로는 내년에는 분명히 그 길 위에 있을 것이고, 아마 우리는 그 이야기를 하고 있을 것입니다.”
Jeff Dean:
“아마 우리는 우리 모델의 어떤 매우 중요한 부분을 가리키면서, ‘이건 모델과 에이전트들이 작업해서 만들어낸 것이다’라고 말할 수 있게 될 겁니다. 일종의 self-improvement, 자기개선이죠.”
참석자:
“사람의 지도 아래에서요.”
Jeff:
“맞습니다. 지금은 팀원에게 ‘이 아이디어를 조금 실험해보고, 다음 주에 어떻게 진행되는지 알려줘’라고 말합니다. 앞으로는 그런 말을 모델에게 하게 될 겁니다.”
Continual learning: 가중치를 업데이트하지 않고도 경험으로 개선되는 모델
Noam Shazeer:“그 의견에는 반대하기 어렵네요. 다만 continual learning 쪽에서 하나 더 얹어보겠습니다.
모델이 어떤 능력으로서, 자신의 경험과 상호작용을 통해 개선되는 것입니다. 꼭 가중치를 업데이트할 필요는 없습니다. 일종의 지식베이스 업데이트 같은 것이 매우 잘 작동하는 형태일 수 있습니다.
우리는 이런 것이 작동하는 예시들을 이미 가지고 있습니다. 하지만 아직 그 능력이 너무나 좋아져서 누구나 당연히 모델에서 켜놓고 쓸 만큼 가파른 곡선을 보지는 못했습니다.
그래서 저는 그 부분에서 진전을 보기를 희망합니다. 1년이면 가능할 수도 있다고 봅니다.”
Logan:
“그와 관련해서 이상하고 흥미로운 문제들이 많이 있는 것 같습니다. 요즘도 그런 예시를 자주 봅니다. 모델에게 질문을 하면, 전혀 관련 없는 개인적 맥락을 끌어옵니다. 예를 들면 친구 생일파티 같은 임의의 정보를 가져와서, 제 질문과 아무 상관이 없는데도 관련 있는 것처럼 엮어버리는 경우가 있습니다.
그래서 이 능력은 한 단계 더 발전해야 할 것 같습니다.”
Long-running agent: 30일 동안 독립적으로 작업하는 모델
Koray:“우리는 약간 우리만의 기술 버블 안에 있습니다. 우리는 이 연구 안에 있기 때문입니다. Logan, 당신은 우리보다 현실 세계와 더 연결되어 있다고 볼 수 있는데, 당신 입장에서는 무엇을 보고 싶나요? 무엇을 기대하나요?”
Logan:
“좋은 질문입니다. 이건 Logan 인터뷰 편은 아니지만요.”
참석자:
“그런 편도 있으면 좋겠네요.”
Logan:
“아니요, 제 얘기는 별로 듣고 싶지 않으실 겁니다. 제가 할 말은 하나입니다. 모델이 제품이다. 저는 모델이 더 좋아지길 원합니다.
제가 흥미롭게 보는 것은 long-running, 즉 장시간 실행되는 에이전트입니다. 그게 정말 흥미로운 프런티어라고 생각합니다. 우리가 쉽게 추적할 수 있는 영역이기도 합니다.
코딩 모델이 내일 20% 더 좋아지고, 이미 정말 뛰어나다고 하더라도, 모델이 얼마나 오랫동안 자율적으로 실행될 수 있는지에는 여전히 한계가 있습니다.
그래서 IO 2027쯤에 우리가 ‘이 모델은 IO를 앞두고 30일 동안 계속 실행되어 왔다’고 말할 수 있다면, 많은 사람들에게 정말 놀라운 일이 될 것 같습니다. 물론 실제로 그렇게 말하지는 않을 수도 있지만, 목표로 삼을 만한 방향이라고 생각합니다.”
참석자:
“모델이 독립적으로 수행하는 작업량이 중요한 기준이 되는 거군요.”
Logan:
“맞습니다. 그것은 놀라운 일이 될 겁니다.
그리고 그걸 해내려면 전체 스택이 필요하다고 생각합니다. 메모리 시스템이 필요하고, continual learning도 필요하고, 더 나은 하드웨어도 필요합니다. 무언가를 30일 동안 실행하려면 엄청난 양의 토큰이 들 테니까요.”
Jeff:
“그리고 더 좋은 하드웨어에는 낮은 지연시간도 필요합니다. 왜냐하면 30일 걸릴 일을 하루 만에 끝낸다면 훨씬 더 행복할 테니까요. 30일이라는 말은 마케팅 문구로는 좋지만, 실제로는 하루 만에 끝나는 게 더 좋습니다.”
에이전트가 드러낼 문제: “우리 도구들은 너무 느리다”
Noam:“또 하나의 예측을 하자면, 이런 에이전트들이 스트레스를 줄 부분이 있습니다. 바로 우리의 모든 도구들이 너무 느리다는 점입니다.”
참석자:
“맞습니다.”
Noam:
“모델을 무한히 빠르게 만든다고 해도, 실제 작업을 얼마나 빠르게 할 수 있는지는 제한될 수 있습니다. 왜냐하면 에이전트들이 의존하는 도구들과의 상호작용이 들어가기 때문입니다. 그런데 그런 도구들은 대체로 인간의 지연시간에 맞춰 설계되어 있습니다.”
Koray:
“혹은 인간이 작업하는 빈도에 맞춰 설계되어 있죠.”
Noam:
“정확합니다. 30일 동안 실행된다고 했을 때, 그중 29.5일은 그냥 기다리는 데 쓰일 수도 있습니다.”
5년 뒤 Google 제품 전망: 하나의 제품인가, 1만 개의 제품인가?
Logan:“또 하나, 약간 메타적이고 논쟁적일 수 있는 질문이 있습니다. Koray의 연구자적 관점이 궁금해서 묻고 싶습니다.
제가 Josh에게도 물어봤던 질문인데요. 5년 뒤 Google에는 제품이 세 개 정도만 있을까요, 아니면 1만 개의 제품이 있을까요? 어느 쪽이 더 그럴듯해 보이나요?”
Noam:
“우리는 하나를 갖게 될 겁니다.”
Logan:
“하나의 제품이요?”
Noam:
“네. 모델입니다.”
Logan:
“좋습니다. 그 답변 마음에 드네요. 다른 분들은 어떻게 생각하시나요?”
Jeff:
“정말 유능한 모델이 있다면, 그 모델은 정말 많은 일을 할 수 있습니다. 오늘 IO에서 보여준 Search 데모에서도 볼 수 있었죠. 검색 안에서 사용자에게 맞춘 작은 앱을 만들고, 시각화도 하고, 코드를 작성하기도 합니다.
어떤 의미에서는 이걸 하나의 제품이라고 해야 할지, 1만 개의 제품이라고 해야 할지, 아니면 사용자가 많다면 1,000만 개의 제품이라고 해야 할지 모르겠습니다.”
Koray:
“진지하게 말하자면, 사람들은 정보를 소비하는 방식이 서로 다릅니다. Search 같은 것은 근본적인 것이라고 생각합니다.
5년 뒤에도 우리는 분명히 Search를 갖고 있을 것입니다. 아마 훨씬 더 마법 같은 박스를 갖게 되겠지만요. 사람들이 정보에 접근하고, 그 정보를 스스로 소비하고, 배우고 싶어 하는 활동은 여전히 근본적입니다. 그래서 저는 Search가 계속 있을 것이라고 봅니다.
그리고 제품은 훨씬 더 많아질 수도 있습니다. 왜냐하면 점점 더 많은 제품이 지능에 의해 구동될 것이고, 그러면 제품을 만드는 일이 쉬워질 것이기 때문입니다.”
Jeff:
“저는 제품의 출구는 많다고 봅니다. 하지만 그 제품들을 놀랍게 만드는 핵심 요소는 더 적을 수 있습니다.
예를 들어 IO에서 시연한 안경을 생각해봅시다. 그것은 하나의 제품입니다. 하지만 그 제품은 모델이 더 좋아지고, 오디오를 더 잘 이해하고, 사용자에게 더 잘 말할 수 있게 되면서 더 좋아집니다. Search와는 별개의 제품이지만, 같은 모델의 발전에 의해 좋아지는 것이죠.”
Koray:
“정확합니다.”
Noam:
“우리에게 분명한 것은, 그것이 무엇이든 하나의 모델이 구동하고 있다는 점입니다.”
Oriol:
“저는 전문가가 아니지만, 사용자로서 느끼기에는 가끔 제가 디지털 기기로 무엇을 하고 싶은지 능동적으로 선택합니다. 예를 들어 캘린더를 확인하고 싶다거나, 이메일을 보고 싶다거나, 무언가를 사고 싶다는 식입니다.
그런 구분이 기술적으로 하나의 제품 안에 모두 표현될 수 없기 때문에 생기는 것인지, 아니면 인간적인 요인 때문인지는 모르겠습니다. 저는 때때로 그런 관심사의 분리를 좋아합니다. 그래서 지금 시점에서 하나의 제품에 베팅하지는 않을 것 같습니다.”
정보 제품을 넘어 물리 제품으로: bits에서 atoms로
Jeff:“지금까지 우리는 정보를 전달하는 제품들에 대해 이야기했습니다. 거기서는 인간이 정보를 어떻게 소비하고 싶어 하는지가 중요합니다. 시각적으로 소비할 수도 있고, 텍스트로 소비할 수도 있고, 안경을 통해 볼 수도 있습니다.
어쩌면 언젠가는 뇌-컴퓨터 인터페이스 같은 것으로, 모델의 내부 임베딩을 뉴런에 직접 넣는 이상한 방식이 나올 수도 있겠죠.”
참석자:
“벡터 처리네요.”
Jeff:
“그렇죠. 하지만 Omni 같은 것들에 의해 구동되면서, 어쩌면 미래에는 물리적인 제품으로도 들어갈 수 있습니다. bits만 움직이는 것이 아니라, atoms를 움직이기 시작하는 것이죠.
다만 그것은 더 먼 미래에 대한 예측입니다.”
Logan:
“좋습니다. bits가 아니라 atoms를 움직이는 것이 미래라는 말이군요.”
--
Gemini 프로젝트의 시작: “우리는 흩어진 노력을 하나로 합쳐야 했다”
Logan Kilpatrick:“오늘은 Google DeepMind 팀에서 Gemini 프로젝트의 기원, Gemini가 어떻게 시작됐는지, 그리고 앞으로 어디로 가는지 이야기하려고 합니다. 지금 우리는 Gemini 3.5 시대에 들어왔고, Flash 모델부터 출시했습니다. Gemini는 벌써 세 번째 반 세대 정도까지 온 셈인데, 지금 이 순간을 어떻게 봐야 할까요?”
Oriol Vinyals:
“Gemini는 2023년쯤 시작됐다고 볼 수 있습니다. 그동안 몇 번의 릴리스가 있었고, 0.5세대나 0.1세대 같은 중간 모델들도 있었습니다. 처음부터 우리는 멀티모달, 툴 사용, 에이전트적 기능을 기반으로 삼았고, 계속 그 능력을 쌓아왔습니다. 이번 3.5 Flash는 매우 강력한 시리즈이고, 특히 코딩 능력에 초점이 있습니다. 동시에 기존의 다른 능력들도 보존하고 강화했습니다.”
Oriol:
“지금은 코딩 능력과 에이전트 경험이 사람들이 AI를 체감하는 방식을 정의하는 시대라고 봅니다. 그런 점에서 Gemini 3.5는 아주 큰 도약입니다.”
Jeff Dean:
“사실 Gemini 프로젝트가 시작되기 전에도, 매우 범용적인 모델을 만들려는 노력은 여러 곳에서 진행되고 있었습니다. DeepMind에서는 Oriol이 그런 노력을 이끌고 있었고, 저는 Google 쪽에서 Pathways, PaLM, PaLM 2 같은 프로젝트를 도우며 방향을 잡고 있었습니다.”
Jeff:
“그런데 어느 순간 제가 말했습니다. ‘이건 말이 안 된다. 우리는 노력도 쪼개고 있고, 컴퓨트도 쪼개고 있다. 정말 강력한 모델을 만들려면 모두가 모여서 하나의 모델을 만들어야 한다.’ Gemini라는 이름도 거기서 나왔습니다. 쌍둥이, 즉 두 조직이 하나로 합쳐지는 의미였습니다.”
Noam Shazeer:
“그러니까 map 하고 reduce 한 거죠.”
Jeff:
“맞습니다. 그런 느낌입니다.”
다른 참석자:
“저는 제게 쌍둥이가 있어서 Gemini라고 한 줄 알았는데요.”
Jeff:
“그것도 맞습니다.”
“벤치마크만 오르는 모델은 위험하다. 실제 사용자가 써야 한다”
Logan:“Gemini 모델을 제품으로 세상에 내보내는 것이 단순히 제품 전략 차원이 아니라, 모델 자체를 개선하는 데도 중요하다는 점이 처음부터 분명했나요?”
Jeff:
“저에게는 꽤 분명했습니다. 모델이 많은 사람들에게 사용되면, 무엇이 잘 작동하고 무엇이 부족한지 많은 교훈을 얻을 수 있습니다. Google Search도 오랫동안 그랬습니다. 사용자들이 검색을 어떻게 쓰는지가 우리가 무엇을 개선해야 하는지 알려줬습니다.”
Jeff:
“AI 모델도 다르지 않습니다. 많은 사용 데이터를 종합해서 어디가 부족한지 이해하고, 그걸 개선하는 것이 중요합니다. 하지만 그러려면 실제로 사람들이 쓰는 무언가가 있어야 했습니다.”
Noam:
“그게 진짜 테스트입니다. 사람들이 실제로 쓰는가, 그리고 그게 사람들에게 유용한가. 연구실 안에서 벤치마크만 오르도록 최적화하면 결국 벤치마크만 잘하는 모델이 됩니다. 심지어 벤치마크가 유출될 수도 있고, 좋은 방향으로 끝나지 않습니다.”
Koray Kavukcuoglu:
“지능을 블랙박스 안에서 만들고 싶지는 않습니다. 유용해야 하고, 사람들이 실제로 사용해야 합니다. 기술적 능력의 프런티어를 긁는 것뿐 아니라, 사용자가 다음에 무엇을 할 수 있게 되는지를 발견하는 것도 프런티어입니다. 제품과 함께 가지 않으면 그걸 알 수 없습니다.”
Koray:
“Gemini가 시작될 때 이미 Google의 여러 제품에는 머신러닝 모델들이 들어가 있었습니다. 하지만 여러 모델이 각자 따로 쓰이는 방식이었습니다. 그때 분명했던 것은, 평균적인 여러 모델보다 더 강력한 하나의 모델을 만들고, 그 모델이 모든 것을 구동하게 하면 Google이 이미 머신러닝을 쓰고 있던 많은 영역을 뛰어넘을 수 있다는 점이었습니다.”
Koray:
“처음에는 하나의 모델을 중심으로 하나의 제품이 만들어질지까지는 명확하지 않았습니다. 하지만 컴퓨트와 지능을 하나의 강력한 모델에 모으는 것이 큰 도약을 만들 것이라는 점은 명확했습니다. 결과적으로 Gemini는 Google intelligence의 핵심 엔진이 되었습니다.”
조직 통합의 어려움: “반 페이지짜리 메모에서 시작됐다”
Logan:“지금 와서 보면 여러 팀이 하나로 모이는 게 당연해 보입니다. 하지만 당시에는 논란이 있었나요? 정말 이것이 이기는 길이라는 확신이 있었나요?”
Jeff:
“저는 함께 모이는 것이 옳다고 확신했습니다. 반 페이지짜리 메모로도 설명했습니다. ‘이렇게 흩어지는 건 말이 안 된다’고요. 최고의 아이디어들이 서로 다른 연구팀에 흩어져 있고, 컴퓨트도 쪼개져 있는 상황이었습니다. 이 두 문제를 해결해야 한다고 봤습니다.”
Jeff:
“물론 조직적으로는 복잡했습니다. 런던에 많은 사람이 있었고, 이곳에도 많은 사람이 있었습니다. 시차도 8시간이었고, 쉬운 협업 환경은 아니었습니다. 하지만 우리는 잘 해냈고, 지금은 전 세계에 걸친 훌륭한 팀이 좋은 모델들을 계속 만들어내고 있습니다.”
Noam:
“그 당시에는 LLM을 만들던 팀들이 여러 개 있었습니다. 결국 그 팀들을 하나로 합쳐야 했습니다.”
Koray:
“10년 전의 AI 연구는 훨씬 더 학문적이었습니다. 그때는 빠르게 탐험하는 것이 중요했고, 조직 방식이 핵심은 아니었습니다. 하지만 점점 더 초점이 명확해지고, 모델 하나를 만드는 일이 거대한 작전이 되면서, 많은 연구자가 모여 여러 문제를 함께 풀어야 했습니다. 그 시점에서는 집중된 조직이 필요했습니다.”
Koray:
“두 조직 모두 큰 긴박감을 가지고 움직였습니다. 두 조직을 합치는 일은 결코 쉽지 않았지만, 모두가 그 순간이 맞다고 느꼈습니다. Gemini는 우리가 함께 만든 결과물이고, 조직 전체가 그것을 자랑스럽게 생각합니다.”
Jeff:
“규모가 중요합니다. 하나의 거대하고 아름다운 언어모델을 만들면 정말 많은 일을 할 수 있습니다. 그러려면 많은 사람, 많은 컴퓨트, 인프라 팀, 데이터 팀이 필요합니다.”
Noam:
“작은 팀 다섯 개보다 그런 큰 팀 하나가 낫습니다.”
Jeff:
“모델도 다섯 개보다 하나가 낫습니다.”
Pathways에서 Gemini까지: “하나의 모델이 많은 일을 하는 꿈”
Jeff:“Gemini 이전에도 Pathways 프로젝트의 기원 중 하나는 하나의 모델이 많은 일을 할 수 있는지를 탐구하는 것이었습니다. 다양한 모달리티를 다룰 수 있는 멀티모달 모델, 거대한 sparse 모델, 작업에 따라 다른 부분이 활성화되는 모델 같은 아이디어들이 있었습니다.”
Jeff:
“이 세 가지는 오늘날의 Gemini 모델에도 어느 정도 반영되어 있습니다. 그리고 이제 Omni를 통해 멀티모달 측면은 훨씬 더 발전했습니다. 이제는 비디오도 생성할 수 있습니다. 예전에는 이미지나 오디오를 생성하는 정도였지만, 이제는 다양한 입력 모달리티를 이해하고, 생성한 비디오를 편집하는 놀라운 추론 모델의 능력을 갖게 되었습니다.”
Koray:
“Omni는 완전히 새로운 능력입니다. 기존에도 Veo나 Imagen처럼 텍스트에서 비디오, 텍스트에서 이미지를 만드는 모델은 있었습니다. 하지만 정말 원하는 것은 물리 세계의 모든 모달리티를 이해하는 모델입니다. 그래야 물리 법칙과 세계를 이해할 수 있습니다. 동시에 텍스트도 이해해야 합니다. 세계에 대한 많은 정보가 텍스트에도 담겨 있기 때문입니다.”
월드 모델과 Omni: “단순 생성이 아니라 미래를 굴려볼 수 있어야 한다”
Logan:“IO 키노트에서 Omni를 world model 섹션으로 설명했습니다. 이것이 실제로 Genie 같은 월드 모델 연구와 연결된 것인가요, 아니면 어떤 입력이든 받고 어떤 출력이든 내는 다음 단계의 모델이라는 의미인가요?”
Koray:
“제 의견을 말하자면, world modeling은 단순히 이미지를 생성하는 것이 아닙니다. 역학, 물리, 시각적 구조를 이해해야 하고, 그것을 시뮬레이션할 수 있어야 합니다. 시뮬레이션 능력이 중요한 이유는 모델이 제대로 이해했는지 확인할 수 있고, 모델에 의존해야 할 때 미래 상태를 굴려보면서 결정할 수 있기 때문입니다.”
Koray:
“Gemini Omni는 그런 점에서 다른 범주입니다. 기존 Gemini가 주로 이해와 텍스트 출력 중심이었다면, Veo는 텍스트 입력을 받아 비디오 모델링을 하는 쪽이었습니다. Omni는 이 둘을 공동 학습으로 결합해 진정한 world model에 가까워지는 방향입니다.”
Koray:
“처음에는 복잡한 비디오 장면을 시간에 따라 일관되게 굴리는 일이 매우 어려웠습니다. 객체가 사라지거나, 시점이 바뀌면 망가지거나, 시각적 일관성을 사람이 미리 설계해야 했습니다. 하지만 스케일을 키우고 데이터를 더 많이 섞으면서 이런 능력이 emergent하게 나타나고 있습니다. 이제는 일관된 3D 세계, 소리, 다양한 요소를 출력하는 단계로 가고 있습니다. 몇 년 전이었다면 이런 접근이 작동할 거라고 믿기 어려웠을 것입니다.”
Jeff:
“멀티모달이라고 하면 사람들은 보통 텍스트, 이미지, 오디오, 비디오 같은 인간의 모달리티를 떠올립니다. 하지만 정말로는 훨씬 더 풍부한 모달리티를 이해해야 합니다. 예를 들어 유전체 서열, 화학 구조, 로봇 grasping 데이터, LiDAR 데이터 같은 과학적·물리적 데이터도 이해해야 합니다.”
Jeff:
“모델이 이런 데이터를 조금이라도 접하면, 나중에 그런 데이터를 만났을 때 훨씬 더 잘 이해할 수 있게 됩니다.”
사람들의 역사: “Jeff는 거의 코딩 에이전트처럼 일했다”
Logan:“Gemini가 가능했던 이유 중 하나는 사람들인 것 같습니다. 여러분은 서로 오래 알고 지냈고, 함께 일해왔습니다. 처음 어떻게 만났나요?”
Jeff:
“제가 가장 오래 사람들을 알고 있을 겁니다. Google 초기에는 엔지니어 채용과 리크루팅을 많이 했습니다. 3년 정도 Google에 들어오는 엔지니어 이력서를 거의 다 봤습니다.”
Noam:
“정말 대단했습니다. 책상 위에 이력서가 엄청 쌓여 있으면 Jeff가 ‘아니오, 예, 예, 아니오, 아니오, 예’ 이런 식으로 아주 빠르게 훑었습니다.”
Jeff:
“Noam을 직접 면접한 것 같지는 않지만, 그는 오퍼를 받은 상태였고 받아들일지 고민하고 있었습니다. 그래서 2000년에 제가 전화를 걸어 말했습니다. ‘당신이 흥미로워하는 일들이 여기와 잘 맞을 것 같다. 여기 오면 즐거울 것이다.’ 사실상 오퍼를 수락하도록 설득한 것입니다.”
Noam:
“저는 입사한 뒤 Jeff와 3년 반 정도 같은 사무실을 썼습니다. 신입사원에게는 멘토가 있었고, 모르는 것을 물어볼 수 있었는데, 제가 질문할 때마다 멘토가 답을 알고 있었습니다. 처음엔 Google 사람들은 다 모든 걸 아는 줄 알았습니다. 나중에 알고 보니 제 멘토가 Jeff였고, Jeff가 코드베이스의 절반을 쓴 사람이었습니다.”
Jeff:
“2012년쯤에는 Oriol도 비슷했습니다. 그는 오퍼를 받은 상태였고, 다른 회사와 고민하고 있었습니다. 제가 전화를 걸어 ‘우리는 흥미로운 딥러닝 모델을 하고 있고 정말 재미있게 일하고 있다’고 설득했습니다.”
Oriol:
“그때 저는 박사 논문 마지막 1년쯤이었습니다. 지금처럼 LLM이 없었기 때문에 논문을 한 단어 한 단어 직접 써야 했습니다. 많은 고민 끝에 합류했습니다.”
Oriol:
“합류한 뒤 Jeff와 함께 두 개의 프로젝트를 시작했는데, 그중 하나가 distillation이었습니다. 저는 학계에서 왔기 때문에 복잡한 C++ 코드베이스를 잘 몰랐습니다. 하지만 아이디어는 명확했습니다. Jeff의 책상 옆에 앉아 있으면 Jeff가 ‘distillation 클래스, KL divergence’ 이런 식으로 바로 코딩했습니다. 그때는 코딩 에이전트가 없었지만, 잠깐 동안 Jeff가 프로젝트의 코딩 에이전트처럼 행동했다고 말할 수 있습니다.”
Jeff:
“그 프로젝트는 좋았습니다. Geoffrey Hinton이 MNIST 같은 작은 데이터셋에서 큰 모델의 지식을 작은 모델로 옮기는 초기 아이디어를 탐구했습니다. 우리는 그걸 대규모로 보여줘야 한다고 생각했습니다. 그래서 3억 개 이미지에 대해 50개 모델 앙상블을 훈련했습니다. 당시에는 엄청난 규모였습니다.”
Oriol:
“당시에도 컴퓨트가 제약이었지만, CPU가 부족하면 Jeff에게 말하면 됐습니다. Jeff가 어떤 웹사이트에 가서 숫자를 바꾸면 컴퓨트가 두 배가 됐습니다. 그걸 몇 번 했습니다.”
Jeff:
“그때는 제가 슈퍼유저 권한 같은 걸 갖고 있었습니다.”
DeepMind 인수 논의와 코드 리뷰: “슬라이드보다 코드를 보자”
Koray:“제가 Jeff와 처음 진지하게 앉아서 이야기한 건 DeepMind 인수 논의 때였습니다. Jeff가 런던에 왔고, 여러 논의가 있었습니다. 방 안에 사람들이 많았는데, Jeff가 제게 와서 ‘코드를 봅시다’라고 했습니다.”
Koray:
“저는 키보드 앞에 앉았고, Jeff는 ‘너무 민감한 건 보여주지 말고, 이 디렉터리를 보고 싶다’고 했습니다. 그래서 디렉터리를 열고 파일을 보면서 ‘여기서는 이런 아이디어를 쓰고 있고, 저기서는 저런 아이디어를 쓰고 있다’고 설명했습니다. 저에게는 큰 일이었습니다. Jeff와 함께 앉아 코드를 설명하고 있었으니까요.”
Jeff:
“우리의 첫 코드 리뷰였죠. 제 평가는 ‘좋아 보인다’였습니다.”
Jeff:
“그날 우리는 13개 정도의 30분짜리 발표를 연속으로 봤습니다. Geoffrey Hinton은 허리가 안 좋아서 회의실 뒤쪽 바닥에 누워 있었습니다. 발표를 다 본 뒤 저는 ‘좋아, 꽤 유망해 보인다. 하지만 코드를 보자’고 생각했습니다. 슬라이드는 멋졌지만, 실제 코드를 보는 것이 중요했습니다.”
예상보다 잘 된 것: “Pro의 지능을 Flash에 계속 집어넣고 있다”
Logan:“지난 3년 반을 돌아봤을 때 긍정적으로 놀라운 점, 혹은 반대로 생각보다 진전이 느린 점이 있나요?”
Oriol:
“긍정적인 면부터 말하자면, 저는 우리가 세대마다 Pro의 지능을 Flash에 다시 압축해 넣는 일을 계속할 수 있으리라고는 기대하지 않았습니다. 1.0 때는 처음이었고, 레시피가 덜 최적화됐기 때문에 그럴 수 있다고 생각했습니다. 그런데 어떤 버전에서는 오히려 그 과정이 가속되는 것처럼 보입니다. 다음 세대 Flash가 이전 세대 Pro를 능가하는 경우가 있습니다.”
Oriol:
“저는 distillation이 어떻게 이렇게 잘 작동하는지 아직도 놀랍습니다. 바이트당, 파라미터당 이렇게 많은 지능을 어떻게 압축할 수 있는지 신기합니다.”
Logan:
“distillation은 근본적으로 바뀌었나요? 아키텍처나 기법이 크게 달라졌나요?”
Jeff:
“오히려 더 단순합니다. 예전에는 softmax temperature 같은 트릭도 있었고, 50개 모델 앙상블을 썼습니다. 지금은 정말 좋은 teacher 모델 하나와 student 모델 하나가 있습니다. 원래 논문의 기본 정신은 거의 같습니다. 약간의 조정은 있지만 핵심은 그대로입니다.”
Noam:
“가장 기술적인 설명을 하자면 이렇습니다. 레몬을 짭니다. 좋은 즙이 나옵니다. 그 즙을 작은 모델이라는 잔에 담습니다.”
예상보다 어려운 것: “질병을 모두 치료하진 못했다”
Logan:“반대로 Gemini가 많은 진전을 이뤘음에도 불구하고 아직 못 이룬 것 중 아쉬운 게 있나요?”
Noam:
“저는 continual learning이나 더 비정형적인 모델 아키텍처에서 더 많은 진전이 있을 줄 알았습니다. 지금은 많은 expert들이 있지만 구조적으로는 꽤 비슷합니다. 더 유기적인 스타일의 모델이 나올 수 있을 거라고 생각했습니다. 아직 그렇게 하지는 못했지만, 지금 하는 방식이 잘 작동하고 있습니다.”
Jeff:
“저는 우리가 아직 모든 질병을 치료하지 못했다는 점이 조금 아쉽습니다. 모델에 ‘암 치료법을 발명해줘’라고 입력하면 바로 해내는 단계는 아닙니다. 하지만 우리는 계속 나아가고 있습니다.”
Logan:
“제가 보기에는 여러 능력을 하나의 모델에 합치는 일이 생각보다 훨씬 어렵다는 점이 놀랍습니다. 새로운 능력을 넣는다고 그냥 작동하는 게 아니라, 다른 능력과 trade-off가 생기고, 그걸 다시 보완해야 합니다.”
Koray:
“저는 그 점이 오히려 모델의 놀라운 면이라고 봅니다. 현재 모델들은 3~4년 전 모델보다 그렇게까지 크지 않은데도, 계속 더 많은 능력과 정보를 집어넣고 있습니다. 아직도 모델 안에는 엄청난 공간이 있습니다. 그래서 저는 알고리즘적 AI 발전에 큰 여지가 있다고 믿습니다. 지금 모델에서 우리가 끌어내는 것보다 훨씬 더 많은 능력이 숨어 있습니다.”
Jeff:
“우리는 모델이 보는 데이터 하나하나, 토큰 하나하나에서 훨씬 더 많은 것을 뽑아내는 알고리즘적 방법이 필요합니다. 인간 학습의 효율과 비교하면 현재 LLM은 훨씬 비효율적입니다. 인간은 평생 약 10억 단어를 듣는다고 볼 수 있지만, 모델은 수조 단어를 학습합니다. 그런데도 어떤 영역에서는 인간과 비슷하거나 조금 더 낫고, 어떤 영역에서는 아직 부족합니다. 만약 예시 하나에서 1,000배 더 많은 정보를 얻을 수 있다면 엄청난 일이 될 것입니다.”
Oriol:
“하지만 인간도 완전히 처음부터 배우는 것은 아닙니다. 우리는 일종의 사전학습을 받고 태어나는 셈입니다.”
Jeff:
“그런데 그 소스코드는 아주 작습니다. 기가바이트 정도의 소스코드라고 볼 수 있습니다.”
평가의 어려움: “벤치마크 숫자보다 실제 일반화가 어렵다”
Oriol:“제가 어렵다고 느끼는 것 중 하나는 evaluation입니다. 능력을 독립적으로 평가하는 일, 다음에 어떤 큰 능력이 나올지 평가하는 일, 데이터셋에 유출되지 않으면서도 사용자가 동의할 수 있는 숫자를 만드는 일이 매우 어렵습니다.”
Oriol:
“과거 학계에서는 논문 표에 숫자를 적는 방식이 많았습니다. 하지만 지금은 실제 사용자와 피드백이 있습니다. 평가 문제는 생각보다 어렵고, 계속 나아져야 합니다.”
Jeff:
“AI 연구자들의 오랜 꿈은 한 번도 마주하지 못한 것에 일반화할 수 있는 시스템을 만드는 것이었습니다. 특정 작업에 대해 훈련하더라도 그 작업의 새로운 예시에 일반화하기를 원했습니다. 그런데 지금 우리가 하려는 것은 사람들이 무엇을 묻든 일반화하는 것입니다. 그건 정말 어려운 문제입니다.”
Jeff:
“하지만 사용자가 많으면 피드백을 많이 얻을 수 있습니다. 이 문제들에서는 잘 일반화하지만, 저 문제들에서는 부족하다는 것을 알 수 있습니다.”
연구 의견 차이: “큰 disagreement보다는 실험이 우리를 이끈다”
Logan:“여러분은 오래 함께 일했지만, 아직도 동의하지 않는 연구 주제가 있나요?”
Koray:
“큰 틀에서는 Gemini 설계에 대해 큰 disagreement가 있다고 보지는 않습니다. 우리는 실험을 통해 많은 아이디어를 만들어왔습니다. Jeff는 항상 더 유연하고, plasticity가 있고, fluid한 시스템을 만들고 싶어 했습니다. 거기까지는 아직 못 갔지만, disagreement라기보다는 현재 시스템이 경험적으로 길을 보여준 것입니다.”
Jeff:
“각자 어느 시점에 더 많은 시간을 쓰는 주제가 다릅니다. 예를 들어 저는 미래의 inference hardware가 어떻게 생겨야 하는지에 많은 시간을 씁니다. 그것이 매우 중요하다고 생각하기 때문입니다. 다른 사람들은 그만큼 시간을 쓰지는 않지만, 제가 주방에서 설명하면 ‘좋다, 언제 가질 수 있나’라고 합니다.”
Noam:
“현실은 사람들을 합의하게 만드는 좋은 방법입니다. 실험 결과를 보면 무엇이 작동하고 무엇이 작동하지 않는지 알 수 있습니다.”
Jeff:
“Gemini는 상당히 데이터 중심적입니다. 많은 사람이 작은 규모에서 실험을 돌리고, 결과를 보고, 유망하면 다른 것과 결합해봅니다. 연구용 컴퓨트를 가장 효과적으로 써야 하기 때문에 데이터 중심 접근이 중요합니다.”
Koray:
“Gemini나 AI 전체를 생각하면, 하드웨어, 모델 설계, 제품, 운영까지 너무 많은 것이 들어갑니다. 그래서 서로 다른 영역을 깊이 생각하는 사람들이 함께 일하는 것이 중요합니다. Jeff는 하드웨어를 보고, Noam은 모델을 보고, Oriol은 모델과 에이전트에 깊이 들어가고, 저는 Gemini가 어디로 가야 하는지, 제품과 잘 연결되고 있는지를 봅니다. 이런 기술 전환은 여러 관점이 함께 있어야 작동합니다.”
2027년 전망: “모델이 Gemini의 일부를 개선하는 시점이 올 것”
Logan:“2027년 IO쯤 다시 여기 앉아 있다고 해봅시다. 모델 능력 면에서 어떤 변화가 올까요?”
Koray:
“1년 뒤쯤에는 self-learning이 중요한 주제가 될 수 있다고 봅니다.”
Logan:
“self-learning은 continual learning과 같은 건가요, 다른 건가요?”
Koray:
“관련되어 있습니다. 모델들이 훨씬 더 에이전트적으로 변하고 있고, 코드를 잘 쓰고 있습니다. 우리는 연구에서 모델들을 점점 더 많이 쓰게 될 것입니다. 어느 시점에는 실험 수준에서라도 Gemini의 여러 부분을 개선하는 데 모델에 의존하게 될 것입니다. 내년에는 분명 그 길 위에 있을 것이고, 아마 그것에 대해 이야기하고 있을 것입니다.”
Jeff:
“우리 모델의 아주 중요한 어떤 부분이 모델과 에이전트들에 의해 생성되었다고 말할 수 있게 될 가능성이 있습니다. 일종의 self-improvement입니다. 물론 사람의 지도 아래에서요.”
Jeff:
“팀원에게 ‘이 아이디어를 실험해보고 다음 주에 알려줘’라고 말하는 대신, 모델에게 그렇게 말하게 될 것입니다.”
Oriol:
“continual learning 측면에서 덧붙이자면, 모델이 경험과 상호작용을 통해 가중치를 업데이트하지 않고도 개선되는 능력이 중요합니다. 예를 들어 어떤 지식베이스 업데이트가 매우 잘 작동하는 방식입니다. 그런 예시는 있지만, 아직 누구나 당연히 켜놓고 쓸 만큼 가파른 곡선을 보지는 못했습니다. 1년 안에 가능할 수도 있다고 봅니다.”
장기 실행 에이전트: “30일 동안 돌아가는 모델은 놀라울 것이다”
Logan:“제가 보고 싶은 것은 long-running agent입니다. 코딩 모델이 내일 20% 더 좋아진다고 해도, 모델이 얼마나 오래 자율적으로 실행될 수 있는지는 여전히 한계가 있습니다. IO 2027에 ‘이 모델은 IO 전까지 30일 동안 계속 실행됐다’고 말할 수 있다면 많은 사람이 놀랄 것 같습니다.”
Jeff:
“30일 동안 실행된다는 말도 좋지만, 같은 일을 하루 만에 끝낸다면 훨씬 더 행복할 겁니다.”
Noam:
“또 하나의 예측은, 이런 에이전트들이 우리의 도구들이 너무 느리다는 점을 드러낼 것이라는 겁니다.”
Koray:
“맞습니다. 모델이 무한히 빨라진다고 해도, 실제 일을 얼마나 빠르게 할 수 있는지는 도구와의 상호작용 때문에 제한될 수 있습니다. 많은 도구는 인간의 지연 시간과 작업 빈도에 맞춰 설계되어 있습니다.”
Noam:
“30일 중 29.5일은 기다리는 데 쓰일 수도 있습니다.”
Google 제품의 미래: “제품은 많아도 핵심은 하나의 모델”
Logan:“5년 뒤 Google은 제품이 세 개만 있을까요, 아니면 10,000개가 있을까요?”
Noam:
“하나일 겁니다.”
Logan:
“하나의 제품이요?”
Noam:
“네. 모델입니다.”
Jeff:
“매우 유능한 모델이 있다면 많은 일을 할 수 있습니다. IO의 Search 데모에서도 봤듯이, 검색 안에서 사용자에게 맞춘 작은 앱을 만들고, 시각화하고, 코드를 작성할 수 있습니다. 이걸 하나의 제품이라고 봐야 할지, 10,000개 제품이라고 봐야 할지 애매합니다.”
Koray:
“사람들은 정보를 소비하는 방식이 다양합니다. Search 같은 것은 여전히 근본적일 것입니다. 5년 뒤에도 Search는 있을 것입니다. 아마 훨씬 더 마법 같은 박스를 갖게 되겠죠. 사람들이 정보를 찾고, 스스로 소비하고, 배우고 싶어 한다는 활동은 계속 중요합니다.”
Koray:
“동시에 제품은 더 많아질 수도 있습니다. 지능이 점점 더 많은 제품을 구동하게 되면, 제품을 만드는 일이 쉬워질 것이기 때문입니다.”
Jeff:
“제품 출구는 많을 수 있습니다. 하지만 그 제품들을 놀랍게 만드는 핵심 요소는 더 적을 수 있습니다. 예를 들어 IO에서 시연한 안경은 하나의 제품입니다. 하지만 그 제품은 모델이 더 좋아지고, 오디오를 더 잘 이해하고, 더 잘 말할 수 있기 때문에 좋아집니다. Search와는 다른 제품이지만, 같은 지능이 구동합니다.”
Oriol:
“사용자로서 저는 때로 분리된 제품을 좋아합니다. 캘린더를 확인하고 싶을 때, 이메일을 보고 싶을 때, 물건을 사고 싶을 때가 다릅니다. 하나의 제품이 모든 것을 보여줄 수 없어서라기보다, 인간이 무엇을 하려는지 선택하고 집중하는 방식 때문일 수 있습니다. 그래서 지금으로서는 하나의 제품에만 베팅하지는 않을 것 같습니다.”
Jeff:
“지금까지는 정보를 전달하는 제품에 대해 이야기했습니다. 사람들은 정보를 시각적으로, 텍스트로, 안경으로, 혹은 언젠가는 모델의 내부 임베딩을 뉴런에 직접 넣는 이상한 방식으로 소비할 수도 있습니다. 하지만 Omni 같은 것들이 발전하면 미래에는 물리적 제품, 즉 bits뿐 아니라 atoms를 움직이는 방향으로 갈 수도 있습니다. 다만 그건 더 먼 미래의 예측입니다.”
Logan:
“bits가 아니라 atoms를 움직이는 것이 미래라는 말이군요.”
지금 각자가 만들고 있는 것
Logan:“마지막으로, 지금 개인적으로 만들고 있는 것이 있나요? Gemini와 직접 관련 없어도 됩니다. 코드일 수도 있고, 물리 세계의 물건일 수도 있습니다.”
Jeff:
“저는 요즘 소비자용 제품들이 훨씬 더 능력 있어진 것을 즐기고 있습니다. 딸이 첫 아이를 낳아서 Mother’s Day 카드를 귀엽게 만들어봤습니다.”
Koray:
“저는 새 집으로 이사했습니다. 새 집은 고칠 것도 많고, 배울 것도 많고, 적응할 것도 많습니다. 요즘은 집 DIY를 하고 있습니다. 홈 자동화부터 못과 망치로 뭔가를 고치는 것까지 다양합니다. 손으로 직접 하는 일이 좋습니다.”
Noam:
“저는 그냥 모델을 더 똑똑하게 만들려고 하고 있습니다. 새로운 모델 아키텍처를 만들고 있습니다.”
Oriol:
“저는 우리가 너무 바빠서 처리하지 못한 많은 연구를 지식베이스로 만들고 있습니다. 그리고 그걸 기반으로 다음 큰 아이디어가 무엇일지 함께 브레인스토밍할 수 있는 파트너를 만들고 있습니다.”
Logan:
“오늘 이야기 감사합니다. 논란이 되는 답변도 많았지만 훌륭한 대화였습니다. IO에서 사람들이 모이고, 이 기술을 함께 만들어가는 과정에서 인간적인 따뜻함이 느껴집니다. 이 대화도 그런 느낌을 줬습니다.”
핵심 요약
이 인터뷰의 핵심은 Gemini가 단순한 모델 하나가 아니라 Google과 DeepMind의 연구·컴퓨트·제품 역량을 하나로 통합한 프로젝트라는 점이야. Jeff Dean은 흩어진 연구팀과 컴퓨트를 하나로 합쳐야 한다고 봤고, 그 결과 Gemini라는 이름처럼 두 조직의 결합이 이루어졌다.또 중요한 부분은 모델과 제품의 결합이야. 이들은 벤치마크만 올리는 모델이 아니라, 실제 사용자 피드백을 통해 모델을 개선해야 한다고 강조한다. Gemini 3.5 Flash는 특히 코딩과 에이전트 능력에서 큰 도약으로 묘사된다.
기술적으로는 멀티모달에서 Omni, 그리고 world model로 가는 흐름이 핵심이다. 단순히 텍스트에서 비디오를 만드는 수준이 아니라, 물리 세계를 이해하고 미래 상태를 시뮬레이션할 수 있는 모델로 가야 한다는 이야기다.
미래 전망에서는 self-learning, continual learning, 장기 실행 에이전트, 모델이 모델 개발을 돕는 self-improvement가 중요한 키워드로 등장한다. 2027년쯤에는 Gemini의 중요한 일부가 모델과 에이전트의 도움으로 개선되었다고 말할 수 있을지도 모른다고 전망한다.
전체 0