인터뷰/예측

구글 딥마인드 내부: 추론, 옴니채널, 그리고 최첨단 AI의 출시 | AGI 하우스

작성자
작성일
2026-06-05 22:51
조회
5




Inside Google DeepMind: Reasoning, Omni, and Shipping Frontier AI

AGI House 대담 정리

1. 패널 소개

진행자:
“오늘 이 자리에 DeepMind 팀의 정말 뛰어난 분들이 와 계십니다. 본격적으로 시작하기 전에 각자 간단히 자기소개를 해주실 수 있을까요?”



패널 1:
“물론입니다. 저는 꽤 오래 딥러닝 연구를 해왔습니다. 2015년에 Google Brain에서 인턴십을 시작했고, 그 이후로는 거의 Google Brain, OpenAI, 그리고 다시 Google DeepMind에서 일해왔습니다.

예전에는 step-by-step 관련 논문 이전에, 감마 소프트맥스 같은 꽤 기술적인 주제들을 연구했습니다. 또 알고리즘의 샘플 효율성을 높이는 작업도 했습니다.

그런데 약 3~4년 전, 정확히 말하면 4년 전쯤부터는 제가 느끼기에 모든 것이 준비되었다고 생각했습니다. 우리는 디지털 AGI와 물리적 AGI를 만들 수 있는 지점에 도달했다고 느꼈습니다.

그래서 그때부터 저는 사실상 프런티어 랩에 집중해왔고, 최고의 모델을 만들기 위해 필요한 일이라면 무엇이든 하는 데 집중하고 있습니다.”



Jay:
“저는 항상 시각적인 것에 더 관심이 많은 사람이었습니다. 생성 AI 붐이 시작됐던 시기를 생각해보면, 아마 2010년대부터였을 텐데요. 저는 이미지와 멀티모달 생성 작업을 정말 좋아했습니다.

그 관심은 계속 이어졌습니다. 대학원 시절에는 Imagen, Imagen Video 같은 작업을 했고, 그 연구 흐름이 결국 지금의 Gemini Omni 작업으로 이어졌습니다.

제가 지금 가장 흥미롭게 보는 부분은, 멀티모달 생성 모델들이 이제 단순히 예쁜 이미지나 영상을 만드는 단계가 아니라는 점입니다. 이제는 실제로 지능이 담긴 콘텐츠를 생성하는 단계에 다가가고 있다고 생각합니다.

바로 그 부분이 제가 가장 기대하는 지점입니다.”



패널 3:
“제 나이가 드러나는 이야기가 될 수도 있겠지만, 저는 1980년대 초반 Apple II에서 기본적인 역전파 퍼셉트론을 프로그래밍했던 기억이 있습니다.

그 당시 사람들은 신경망이 아무 데도 가지 못할 것이라고 말했습니다. 쓸모없다고 했죠. 왜냐하면 아무도 여러 층을 사용할 수 있다는 가능성을 진지하게 고려하지 않았기 때문입니다.

그 사실 하나가 사실상 업계 전체를 10년 정도 멈추게 만들었습니다.

저는 그 이후로도 머신러닝과 신경망에서 무슨 일이 일어나는지 꾸준히 지켜봤습니다. 하지만 제가 Google X에서 DeepMind로 옮긴 것은 불과 1년 반 전입니다.

그리고 정말 믿기 어려운 시간이었습니다. 처음에는 솔직히 말해 꽤 무능한 상태입니다. 엄청난 양의 정보를 한꺼번에 마시는 것처럼 배워야 하니까요. 하지만 동시에 저는 제가 세계에서 가장 좋은 직업 중 하나를 갖고 있다고 생각합니다. 정말 운이 좋다고 느낍니다.

지금은 정말 믿기 어려울 만큼 흥미로운 시기입니다. 세상이 하루하루 바뀌고 있습니다. DeepMind 내부에서 연구 관점에서 어떤 일이 일어나고 있는지, 어떤 진전이 오고 있는지를 보면 정말 정신이 아찔할 정도입니다.

솔직히 말하면 6개월 이후도 예측하기 어렵습니다.

사람들이 Sergey에게 ‘20년 뒤 Google은 어떻게 될까요?’라고 묻는 것을 봤는데, 저는 ‘올해 말이 어떤 모습일지 예측하는 것도 괜찮은 목표’라고 생각합니다.

그만큼 모든 것이 너무 빠르게 움직이고 있습니다. 정말 놀라운 시기이고, 이곳에 있을 수 있어서 매우 감사하게 생각합니다.”



진행자:
“정말 좋습니다. 오늘 이렇게 와주셔서 저희도 정말 감사합니다. 그러면 궁금한 게 있습니다. DeepMind나 Google에 오기 전에도 연구나 학계에 계셨나요?”



2. 혁신 문화와 실패를 허용하는 조직

패널 3:
“그건 긴 이야기입니다. 저는 사실 Apple II와 Commodore 64용 비디오게임을 만들면서 시작했습니다. 제가 처음 미국에 오게 된 이유도 그것 때문이었습니다.

그 이후로는 운영체제 설계에 10년 정도를 보냈습니다. 제 경력에는 BeOS라는 운영체제도 있었습니다.

제가 생각하는 중요한 점은 이것입니다. 사람들이 실패하도록 허용하지 않으면, 사람들은 충분히 과감하게 시도하지 않습니다.

포뮬러 원 드라이버가 한 번도 충돌하지 않는다고 생각해보세요. 그러면 저는 이렇게 말할 겁니다. ‘이 사람은 충분히 한계까지 밀어붙이고 있지 않은 것 같은데?’

혁신도 똑같다고 생각합니다. 존중과 개방성의 문화를 만들고, 사람들이 자기 전문 분야 바깥의 아이디어도 말할 수 있게 해야 합니다. 때로는 그 아이디어가 약간 엉뚱하거나 자기 영역 밖의 것처럼 보여도 말입니다.

그런 것들이 혁신을 만드는 데 마법 같은 효과를 냅니다.”



패널 3:
“그리고 또 하나의 주제가 있습니다. 혁신을 어떻게 제품으로 연결할 것인가 하는 문제입니다.

제가 오랜 시간 배운 것 중 하나는, 연구 조직이 회사에 들어갔다면 가장 먼저 잘 지내야 하는 팀이 영업팀이라는 것입니다.

왜냐하면 영업팀에게 당신이 이루려는 것이 중요하다고 설득할 수 있다면, 영업팀은 회사 안에서 음악을 만들어냅니다. 회사의 리듬을 만들어낸다는 뜻입니다.

영업팀이 매우 흥분하게 만들고, 앞으로 올 것에 대해 조금이라도 말하게 만들 수 있다면, 그것은 연구 작업에 아주 좋은 기반이 됩니다.

또 하나 중요한 것은 이야기의 명확성입니다. 사람들이 당신이 개발하고 있는 것의 천재성을 이해하기 위해 많은 노력을 할 것이라고 기대하면 안 됩니다.

다른 사람들이 받아들일 수 있는 이야기, 더 좋게는 그 사람들이 자기 이야기처럼 만들 수 있는 이야기를 가져야 합니다.

목적이 무엇인지, 영향이 무엇인지, 비용이 무엇인지 명확해야 합니다. 그런 것을 이루고 영업팀까지 흥분시킬 수 있다면, 좋은 방향으로 갈 가능성이 큽니다.”



3. AI 코딩, AI 과학자, 발견 자동화

진행자:
“정말 훌륭한 답변들이었습니다.

말씀을 듣다 보니 혁신을 거의 엔지니어링 실천처럼 바꾸는 방식이 인상적입니다. 여러분 모두 엔지니어링 배경이 있지만, 동시에 혁신이 여러분의 일이라는 느낌이 듭니다.

그래서 저는 AI 코딩에 대해 생각하게 됩니다. AI 코딩은 어떤 면에서 소프트웨어 엔지니어링 과정을 자동화하는 일입니다.

그리고 그다음 단계, 혹은 그리 멀지 않은 단계에는 AI 과학자 같은 것이 있을 수 있다고 느낍니다. 발견과 혁신의 과정을 실제로 최적화하고 속도를 높이는 AI 말입니다.

Google 내부에서도 코딩, AI for science, discovery가 중요한 영역이라고 알고 있습니다. 이에 대해 어떻게 생각하시나요?”



패널 1:
“네, 확실히 코딩은 지금 가장 흥미로운 영역입니다.

4년 전에도 저는 큰 모델이 자기개선을 할 수 있다는 글을 썼습니다. 그때 예시로 선택했던 것은 수학 모델이었습니다. 하지만 본질적으로 수학과 코딩은 서로 연결되어 있습니다.

코딩이 특히 독특한 점은, 그 과정을 훨씬 더 잘 들여다볼 수 있다는 것입니다. 수학은 많은 경우 손으로 직접 풀고 머릿속에서 생각하지만, 프로그램은 자신의 사고 과정을 코드로 작성하는 것에 가깝습니다.

그래서 코딩은 훨씬 긴 추론 과정을 담을 수 있습니다. 일반적인 지식도 그 안에 포함될 수 있고요.

저는 코딩에 매우 큰 기대를 갖고 있습니다. 그리고 검증 가능한 보상 학습과 목표 지향적인 자기개선을 결합할 수 있다면, 재귀적으로 발전할 수 있습니다.”



패널 1:
“핵심은 프런티어 사용 사례를 확보하는 것입니다.

지금 우리는 오프라인 지도학습에서 온라인 지도학습으로 이동하고 있습니다. 이것이 100%에 가까워지기 위해 필요한 방식입니다.

하지만 여기에는 중요한 문제가 있습니다. 예를 들어 95% 모델에 도달하려면, 94% 수준의 제품과 사용 사례가 필요합니다. 94% 수준의 모델과 제품이 있어야 95%로 올라갈 수 있는 피드백이 생기는 것입니다.

그래서 우리는 마지막 몇 퍼센트, 마지막 구간에 매우 신경을 씁니다. 많은 모델들이 어느 정도 높은 수준에는 도달하지만, 진짜 중요한 것은 그 마지막 구간입니다.”



진행자:
“좋습니다. 다음 패널로 넘어가기 전에 한 질문 정도 더 받을 시간이 있습니다.”



4. 월드 모델과 과학 시뮬레이션

Jay:
“Sergey가 말한 자기개선 관점과 월드 모델 관점을 연결해서 생각해볼 수 있을 것 같습니다.

저는 Gemini Omni를 작업하고 있기 때문에 월드 모델 관점도 꽤 따르고 있습니다.

좋은 월드 모델이 있다면, 우리가 풀고 싶은 문제를 아주 자연스럽게 포착할 수 있습니다. 예를 들어 모델에게 ‘누군가 NP-complete 문제를 푸는 장면을 생성해봐’라고 할 수 있습니다. 또는 ‘아주 어려운 수학 문제의 증명을 만들어내는 장면을 생성해봐’라고 요청할 수도 있습니다.

물론 현재 모델은 아직 그런 것을 할 수 없습니다.

하지만 이 예시는 중요한 점을 보여줍니다. 월드 모델의 지능은 그 모델의 세계 지식, 세계 이해, 추론 능력과 연결되어 있다는 점입니다.

그런 방향으로 작업하면, 많은 과제를 가속할 수 있는 시뮬레이션 환경을 얻게 될 것이라고 생각합니다. 특히 과학 분야에서 그렇습니다.

만약 우리의 월드 모델이 물리를 실제로 잘 시뮬레이션할 정도로 강해진다면, 자연과학에서 사용하는 많은 실험장을 모델로 대체할 수도 있습니다.

저는 바로 그 방향에 큰 관심이 있습니다.”



5. Vibe coding과 소프트웨어 개발의 여러 층위

패널 3:
“우선 저는 vibe coding에 완전히 중독되었다고 말해야 할 것 같습니다.

저는 계속해서 Gemini 인스턴스 20개 정도를 흥미롭다고 생각하는 문제들에 돌리고 있습니다.

그것은 단순히 코드를 작성하게 하는 일이 아닙니다. 저는 모델들이 알고리즘에 대해 생각하고, 진전을 만들도록 밀어붙이고 있습니다.

그런데 코드를 보고, 우리가 해결해야 할 것들의 지평을 보면, 예전에는 이 분야에 명확한 용어들이 있었습니다.

코드 작성이 있었고, 소프트웨어 엔지니어링이 있었고, 소프트웨어 아키텍처가 있었고, UI 디자인이 있었습니다. 이 모든 것은 개발 과정의 서로 다른 층위로 잘 이해되고 있었습니다.”



패널 3:
“오늘날 모델로 우리가 하고 있는 일을 보면, 우리는 그 단계들을 다시 하나씩 거슬러 올라가고 있습니다.

제 생각에 코드 작성은 끝났습니다.

최근 몇 달 동안 Gemini가 코드 조각을 작성했을 때, 제가 ‘이건 내가 더 잘할 수 있겠다’고 생각한 경우가 떠오르지 않습니다. 그 단계는 끝났다고 봅니다.

하지만 소프트웨어 엔지니어링은 더 흥미로운 문제입니다. 소프트웨어 엔지니어링은 복잡성을 관리하는 일이기 때문입니다.

예를 들어 1,500만 줄짜리 코드베이스가 있고, 거기에 기능을 구현해야 한다고 해봅시다. 이것은 코드 조각을 쓰는 것과는 완전히 다른 종류의 능력입니다.

우리는 그 부분에서도 분명한 진전을 만들고 있습니다.”



패널 3:
“아키텍처는 훨씬 더 어렵습니다.

왜냐하면 그것은 소프트웨어가 실제로 무엇을 해야 하는지, 그리고 그 소프트웨어가 실행될 하드웨어의 물리적 한계가 무엇인지 등 여러 측면을 건드리기 때문입니다.

그래서 저는 아키텍처에는 아직 분명한 프런티어가 남아 있다고 생각합니다.

반면 UI는 이상하게도 꽤 잘 작동하고 있습니다. 월드 모델, Nano Banana, 그리고 다른 기법들이 좋은 UI를 구성하는 요소가 무엇인지에 대해 많은 것을 알려줬습니다.

그래서 저는 기본적인 코드 작성 위생과 UI가 매우 빠르게 움직이는 두 영역이라고 봅니다.

하지만 그 외에도 아직 해결해야 할 여러 층위가 남아 있습니다.”



6. 코딩은 추론을 시험하기 좋은 영역

진행자:
“정말 좋은 vibe coding 이야기입니다. 저도 그걸 좋아합니다. 다만 가능하면 agentic engineering이라고 부르려고 합니다.

마지막 질문을 하나 하겠습니다. 좋은 질문으로 해보겠습니다.

코딩은 매우 흥미롭습니다. 왜냐하면 코딩은 반쯤 검증 가능한 영역이기 때문입니다. 예를 들어 코드는 컴파일되어야 합니다.

저는 코딩이 추론을 테스트하기에 훌륭한 장소라고 생각합니다. 실제로 저희도 그렇게 해왔고요.

그리고 여러분이 아마 이 분야에서 state-of-the-art일 것 같습니다. 저는 항상 Google이 역사적으로 최고의 코더들을 가지고 있다고 생각했고, 지금도 그렇다고 느낍니다. 그렇다면 최고의 코딩 모델을 갖고 있는 것도 아주 이상한 일은 아닙니다.

제가 궁금한 것은 이것입니다. 코딩 모델의 thinking, 즉 사고 능력을 어떻게 개선하나요? 그리고 실제로 상징적 사고를 넘어서는 것이 가능할까요?”



7. 텍스트를 넘어선 사고: 비디오 모델과 시공간 정보

패널 1:
“저는 세계의 정보 대부분이 단지 기호에만 담겨 있는 것이 아니라고 생각합니다.

세계의 정보는 공간과 시간 정보에도 담겨 있습니다. 그리고 비디오 모델은 그것을 표현하기에 좋은 모델입니다.

약 반년 전에 저희는 비디오 모델을 일종의 추론자로 보는 논문을 썼습니다. 그런 방향은 우리가 데이터 속에 존재하는 훨씬 더 풍부한 정보에 접근할 수 있는 하나의 축이 될 수 있습니다.”



Jay:
“저도 그렇게 생각합니다.

인간은 순수하게 텍스트만으로 생각하지 않습니다. 물론 텍스트 기반 사고 능력에서는 많은 개선이 있었습니다. 산업 전체가 그 방향에서 큰 발전을 이뤘고, 아직도 더 나아갈 부분이 있습니다.

하지만 시각적 사고 측면에서는 아직 더 초기 단계에 있다고 생각합니다.

그래서 그것을 모델의 사고 과정에 통합하는 것은 매우 유망해 보입니다.”



8. Chain-of-thought는 시작일 뿐이다

패널 3:
“저도 그 말에 동의합니다.

사고 과정은 앞으로도 많이 진화할 것이라고 생각합니다.

코드를 작성하는 분들은 아시겠지만, 코드는 영어로 생각하는 것이 아닙니다. 사고는 시각적일 수도 있고, 동적일 수도 있습니다.

우리가 보통 chain-of-thought라고 부르는 것보다 훨씬 더 풍부한 어휘와 표현 방식이 있습니다.

그래서 저는 앞으로 많은 진전이 있을 것이라고 봅니다. 조심해서 말해야 할 부분도 있지만, chain-of-thought는 훌륭했습니다. 하지만 우리는 훨씬 더 잘할 수 있습니다.

저는 thinking, 즉 사고라는 것이 이제 막 시작 단계에 있다고 생각합니다.”



패널 3:
“그리고 코드는, 말씀하신 것처럼, 그 사고가 맞는지 틀리는지 검증할 수 있는 놀라운 벤치마크입니다.

현재 모델들을 보면 정말 놀랍습니다. 이 모델들은 주로 GitHub 데이터로 학습되었습니다. 그런데 GitHub 데이터의 대부분은 쓰레기입니다. 저도 그 쓰레기에 꽤 많이 기여했습니다.

그런데도 작동한다는 사실 자체가 놀랍습니다.”



9. 합성 데이터와 인간 수준을 넘어서는 코딩 능력

패널 3:
“앞으로는 합성 학습 사례가 매우 중요해질 것이라고 생각합니다.

왜냐하면 합성 데이터는 우리가 인간 수준의 코딩 능력을 넘어설 수 있게 해주기 때문입니다.

예를 들어 코드에서 합성 개선을 하는 아주 단순한 방법이 있습니다.

먼저 코드 조각을 가져옵니다. 그리고 모델에게 그 코드 조각을 영어로 설명하라고 합니다.

그다음 그 영어 설명을 다시 모델에게 주고, 그 설명을 바탕으로 코드를 작성하라고 합니다.

그리고 원래 코드와 새로 작성된 코드의 기능을 비교합니다.

이런 종류의 작업은 모델이 단순히 코드를 작성하는 것을 넘어서, 코드를 이해하도록 강제합니다.

저는 이것이 앞으로 우리가 보게 될 큰 흐름이라고 생각합니다.”



진행자:
“정말 흥미롭습니다. 더 많은 질문을 하고 싶지만 시간이 다 됐네요.

오늘 와주셔서 정말 감사합니다. 정말 멋진 시간이었습니다.

AGI House에 오신 것을 환영합니다.”



핵심 발언 정리

1. “4년 전부터 디지털 AGI와 물리적 AGI를 만들 수 있다고 느꼈다”

패널 1:
“약 3~4년 전, 정확히는 4년 전부터 저는 모든 것이 준비되었다고 느꼈습니다. 우리는 디지털 AGI와 물리적 AGI를 만들 수 있다고 생각했습니다.”

이 발언은 이 대담에서 가장 AGI 타임라인에 가까운 말입니다. 구체적으로 “몇 년도에 AGI가 온다”는 예측은 아니지만, DeepMind 연구자 입장에서 이미 몇 년 전부터 AGI 개발 조건이 갖춰졌다고 느꼈다는 의미입니다.



2. “6개월 뒤도 예측하기 어렵다”

패널 3:
“DeepMind 내부에서 연구 진전이 오는 것을 보면 정말 놀랍습니다. 솔직히 6개월 뒤도 예측하기 어렵습니다.”

이 말은 수치 예측이라기보다는 발전 속도에 대한 체감입니다. 장기 예측보다 단기 변화조차 예측하기 어려울 정도로 속도가 빠르다는 의미입니다.



3. “코드 작성은 끝났다”

패널 3:
“제 생각에 코드 작성은 끝났습니다. 최근 몇 달 동안 Gemini가 작성한 코드 조각을 보고 ‘내가 더 잘할 수 있겠다’고 생각한 경우가 떠오르지 않습니다.”

이 발언은 매우 강합니다. 단순 코드 작성 단계에서는 이미 AI가 충분히 강해졌고, 이제 문제는 더 높은 층위인 소프트웨어 엔지니어링과 아키텍처라는 뜻입니다.



4. “소프트웨어 엔지니어링은 복잡성 관리다”

패널 3:
“소프트웨어 엔지니어링은 복잡성을 관리하는 일입니다. 1,500만 줄짜리 코드베이스에서 기능을 구현하는 것은 완전히 다른 종류의 능력입니다.”

즉, 앞으로의 프런티어는 단순 함수 작성이 아니라 거대한 코드베이스 이해, 수정, 유지, 설계입니다.



5. “월드 모델이 강해지면 과학 실험장을 대체할 수 있다”

Jay:
“우리의 월드 모델이 물리를 실제로 잘 시뮬레이션할 정도로 강해진다면, 자연과학에서 사용하는 많은 실험장을 모델로 대체할 수 있습니다.”

이 발언은 AI for science의 핵심입니다. 강한 비디오/월드 모델이 단순 생성 모델이 아니라 과학 실험 시뮬레이터가 될 수 있다는 뜻입니다.



6. “인간은 텍스트로만 생각하지 않는다”

Jay:
“인간은 순수하게 텍스트만으로 생각하지 않습니다. 시각적 사고를 모델의 사고 과정에 통합하는 것은 매우 유망합니다.”

이것은 LLM의 다음 발전 방향이 단순 텍스트 chain-of-thought가 아니라 멀티모달 사고라는 점을 보여줍니다.



7. “Thinking은 이제 막 시작이다”

패널 3:
“Chain-of-thought는 훌륭했습니다. 하지만 우리는 훨씬 더 잘할 수 있습니다. 저는 thinking이 이제 막 시작 단계라고 생각합니다.”

현재 추론 모델은 끝이 아니라 시작이라는 말입니다. 앞으로 사고 방식 자체가 훨씬 더 풍부해질 수 있다는 관점입니다.



전체 해석

이 대담은 명확한 연도별 AGI 예측을 제공하는 영상은 아닙니다. 대신 DeepMind 내부 연구자들이 지금 어떤 기술적 흐름을 가장 중요하게 보고 있는지를 잘 보여줍니다.

핵심 흐름은 이렇습니다.

코딩은 검증 가능한 추론의 실험장이고, 단순 코드 작성은 이미 상당 부분 해결되었다. 다음 프런티어는 대규모 소프트웨어 엔지니어링, 아키텍처, 멀티모달 사고, 월드 모델, 합성 데이터 기반 자기개선이다.

특히 이 대담의 분위기는 “조심스러운 장기 예측”보다는 “이미 내부 발전 속도가 너무 빨라 몇 달 뒤도 예측하기 어렵다”는 쪽에 가깝습니다. DeepMind 연구자들은 AI가 단순 챗봇을 넘어, 코딩·과학·시뮬레이션·자기개선으로 확장되는 과정을 상당히 진지하게 보고 있습니다.
전체 0