인터뷰/예측
구글 클라우드CEO "Gemini와 관련해서는 Google Cloud Next에서, 그리고 그 직후에도 새로운 발표들이 있을 것"
작성자
하이룽룽
작성일
2026-04-26 17:37
조회
8
질문자:
“Mythos에 대해 조금 힌트를 주신 것 같은데요. Mythos는 첫 10조 파라미터 모델이라는 루머가 있습니다. Google도 10조 파라미터 모델 영역에서 움직이고 있나요? 가까이 와 있나요? 지금 그 라이프사이클에서 어디쯤 있나요?”
토마스 구리안:
“Gemini와 관련해서는 Google Cloud Next에서, 그리고 그 직후에도 새로운 발표들이 있을 겁니다. Gemini 모델의 능력에 대해서는 매우 자랑스럽게 생각합니다. 오랫동안 최첨단 수준에 있었고요. 새로운 Gemini 버전이 아주, 아주 곧 나올 예정입니다. 우리가 본 모든 벤치마크 기준으로도 그 버전에 대해 매우 자신감을 갖고 있습니다.”
질문자:
“그럼 가정적으로, 10조 파라미터 모델을 생각해본다면, TPU 쪽에서 보시는 관점상 현재 세계의 인프라 상태에서 그런 크기의 모델을 서빙하는 게 가능한가요?”
토마스 구리안:
“우리는 오래전부터 disaggregated serving 역량을 갖고 있었고, 이를 통해 매우 큰 dense model도 잘 스케일해서 서빙할 수 있습니다. 우리는 서빙할 수 없는 모델을 설계하지 않습니다. 그래서 TPU가 세계에서 가장 큰 모델들을 서빙할 수 있다고 매우 자신하고 있습니다. 특히 가장 큰 Gemini 모델들을 서빙하는 데 있어서 그렇습니다.”
Google Cloud CEO 인터뷰 정리
주제: Anthropic, TPU, Gemini, NVIDIA, 데이터센터, 에이전트, 사이버보안1. TPU 용량과 Google의 풀스택 전략
질문자:요즘 OpenAI나 Anthropic 같은 프런티어 AI 기업들은 늘 “컴퓨트가 부족하다”고 말합니다. 그런데 Google은 자체 TPU도 있고, Gemini 학습·추론도 하고, 다른 AI 기업에도 인프라를 제공합니다. 어떻게 이렇게 많은 용량을 확보할 수 있나요?
토마스 구리안:
Google은 오래전부터 장기 계획을 세워왔습니다. AI 시대가 올 것을 보고 물리적 제약을 줄이기 위해 여러 가지를 준비했습니다.
에너지 공급원을 다양화했고, 데이터센터를 지을 부동산도 미리 확보했습니다. 데이터센터를 짓는 방식도 바꿨습니다. 단순한 건설 방식보다 제조 방식에 가깝게 바꾸면 훨씬 빠르게 배치할 수 있기 때문입니다.
또한 머신 배치 주기를 줄였고, 실리콘 쪽에서는 NVIDIA와도 협력하지만 동시에 자체 칩인 TPU를 계속 만들어왔습니다. 이제 8세대 TPU를 발표할 예정이고, 이런 경험이 누적되면서 용량 면에서 큰 이점이 생겼습니다.
2. TPU를 직접 쓰지 않고 외부에도 파는 이유
질문자:AGI가 목표라면, 컴퓨트를 전부 Google 내부에만 쓰는 게 더 유리하지 않나요? 왜 Anthropic 같은 경쟁사에도 TPU를 제공하나요?
토마스 구리안:
이 모든 것을 계속하려면 돈을 벌어야 합니다. Google이 많은 돈을 벌긴 하지만, 막대한 인프라와 학습 비용을 감당하려면 지속적인 현금흐름이 필요합니다.
다른 기업에 TPU나 인프라를 제공하는 것은 그 현금흐름을 만드는 또 하나의 수단입니다. 물론 외부에 할당하는 양은 항상 Google 내부 수요와 자본 계획을 고려해서 균형을 맞춥니다.
벤처캐피털만으로는 AI 기업들이 영원히 버틸 수 없습니다. 학습 비용이 계속 커지고, 추론 수익이 이를 감당하지 못하면 자금 조달 가능한 곳은 점점 줄어듭니다.
3. 자체 칩을 가진 회사의 경제적 우위
질문자:Google은 검색, 광고, 클라우드, 칩, 모델을 모두 갖고 있습니다. Gemini 팀에서도 컴퓨트가 부족하다고 하나요?
토마스 구리안:
항상 수요는 공급보다 많습니다. 앞으로 10년은 계속 그럴 것입니다. 자체 칩이 있다면 이런 상황은 좋은 위치입니다.
자체 칩이 없다면 다른 회사의 칩을 재판매해야 합니다. 공급이 부족한 환경에서는 단위 경제성이 점점 나빠집니다. 반면 우리는 실리콘을 직접 통제하기 때문에 단위 경제성이 매력적으로 유지됩니다. 이것이 큰 장점입니다.
4. 데이터센터 건설 방식: 건설에서 제조로
질문자:데이터센터를 “건설”이 아니라 “제조” 방식으로 바꿨다고 했는데, 무슨 뜻인가요?
토마스 구리안:
핵심은 어느 단위로 용량을 배치하느냐입니다. 예를 들어 데이터센터 안에서 서버 랙 하나하나를 조립할 수도 있고, 아예 한 줄 전체를 미리 조립해서 가져올 수도 있습니다.
더 큰 단위로 미리 만들고 테스트하면 현장에서 훨씬 빠르게 배치할 수 있습니다. 그래서 배치 속도를 높일 수 있습니다.
5. 데이터센터에 대한 부정적 여론과 Google의 대응
질문자:미국에서는 데이터센터에 대한 여론이 좋지 않습니다. 전기요금 상승, 지역 부담, AI에 대한 불안이 있죠. 어떻게 대응하고 있나요?
토마스 구리안:
사람들이 걱정하는 것은 크게 두 가지입니다.
첫째, 내 주나 카운티의 전기요금이 오르지 않을까 하는 걱정입니다.
둘째, 데이터센터가 지역사회에 충분한 일자리를 제공할까 하는 걱정입니다.
Google은 전력망에서 단순히 전기를 가져오는 방식만 쓰지 않으려 합니다. behind-the-meter 기술에 투자하고 있고, 필요하면 전력망에 에너지를 공급할 수 있도록 연결합니다.
또한 새로운 형태의 에너지에도 투자하고 있습니다. AI 수요가 새로운 에너지 공급 방식을 만들고, 이것이 장기적으로 전체 시장의 에너지 비용을 낮출 수 있다고 봅니다.
그리고 PUE, 즉 에너지 효율도 매우 중요하게 봅니다. 같은 100MW 컴퓨트가 필요할 때 실제로 얼마나 적은 추가 에너지를 쓰느냐가 중요합니다. Google은 이 부분에서 업계 최고 수준이라고 생각합니다.
마지막으로 지역사회에도 투자합니다. 한 지역에 거대한 부담을 주기보다 여러 지역에 분산하고, 지역 학교와 고용, 경제 발전에 기여하려고 합니다.
6. AI가 일자리를 빼앗는가?
질문자:AI에 대한 대중의 가장 큰 걱정은 일자리 대체입니다. Google Cloud 내부에서는 AI 때문에 사람을 줄이고 있나요, 아니면 더 채용하고 있나요?
토마스 구리안:
우리는 제품과 영업 조직에서 사람을 더 뽑고 있습니다. go-to-market 조직, 배치 엔지니어, 새로운 제품을 만드는 영역에서 채용하고 있습니다.
AI가 생산성을 높이는 것은 맞지만, 수요도 많기 때문에 우리는 계속 투자하고 있습니다.
예를 들어 Gemini를 활용해 코드 취약점을 찾고, 고치는 모델을 만들고 있습니다. Wiz와 함께 지속적인 보안 탐지 기능도 보여줄 예정입니다. 공격하는 에이전트, 우선순위를 정하는 에이전트, 고치는 에이전트 같은 것들이 등장할 것입니다.
7. NVIDIA와 TPU의 총소유비용 논쟁
질문자:NVIDIA의 젠슨 황은 NVIDIA 아키텍처가 CUDA, NVLink, 네트워킹, 툴링 덕분에 토큰당 비용 기준으로 가장 저렴하다고 말합니다. 동의하나요?
토마스 구리안:
많은 고객들은 Google이 최고의 총소유비용을 제공한다고 말합니다.
AI 연구소들은 최고의 플랫폼을 선택합니다. Google 내부 팀만 TPU를 쓰는 게 아닙니다. 다른 AI 연구소들에서도 우리가 감당할 수 있는 것보다 더 많은 수요가 있습니다. TPU가 훨씬 비싸다면 그들이 TPU를 요청하지 않을 것입니다.
8. TPU가 빠른 이유: 칩 하나가 아니라 시스템 전체
질문자:Gemini 모델들은 매우 빠릅니다. TPU의 장점은 속도인가요?
토마스 구리안:
속도와 품질이 모두 중요합니다. 다만 중요한 것은 칩 하나가 아니라 전체 시스템입니다.
예를 들어 TPU 8 시스템은 9,600개의 칩으로 구성되고, 8i는 1,152개의 칩이 단일 optical torus 네트워크에 연결됩니다. 매우 높은 대역폭과 예측 가능한 지연시간을 제공합니다.
8T 학습 칩은 단일 시스템에서 2페타바이트의 메모리를 담을 수 있습니다. 이는 디지털화된 미국 의회도서관 전체보다 훨씬 큰 규모입니다.
또한 JAX, PyTorch 최적화, XLA, Pathways 같은 소프트웨어 스택도 중요합니다. Google은 칩부터 컴파일러, 네트워크, 메모리, 모델 서빙까지 전체 스택을 함께 최적화합니다.
그리고 몇 년 전부터 에너지가 병목이 될 것이라고 보고, 달러당 와트, 토큰당 와트 같은 지표도 최적화해왔습니다.
9. 8세대 TPU: 학습용 8T와 추론용 8i
질문자:8세대 TPU에서 학습용과 추론용 칩을 분리했습니다. 이것은 워크로드가 어떻게 변하고 있다는 신호인가요?
토마스 구리안:
Gemini의 발전을 보면 세 단계가 있었습니다.
첫 번째 단계는 사용자가 질문을 하고 모델이 답하는 검색형 챗봇 경험이었습니다. 이때는 입력 토큰이 많고 출력 토큰은 상대적으로 적었습니다.
두 번째 단계는 이미지, 오디오, 비디오 같은 콘텐츠 생성입니다. 간단한 프롬프트를 넣으면 긴 출력이 만들어지기 때문에 출력 토큰이 크게 늘었습니다.
세 번째 단계는 에이전트입니다. 에이전트는 여러 시스템에 연결되고, 도구를 사용하고, 컴퓨터를 조작하며, 몇 시간 동안 작업을 수행할 수 있습니다.
이런 변화는 칩 설계에도 영향을 줍니다. 예를 들어 장시간 작업을 위해 KV cache를 어떻게 유지할지, 메모리에 객체를 어떻게 고정할지, 추론 위치를 어떻게 분산할지 같은 문제가 중요해집니다.
8i는 물 냉각 없이도 실행할 수 있습니다. 그래서 더 많은 데이터센터 위치에 배치할 수 있습니다. 학습은 몇몇 거대한 위치에 몰아도 되지만, 추론은 지연시간 때문에 훨씬 여러 곳에 있어야 합니다.
10. 에이전트 시대의 새로운 병목
질문자:에이전트 사용이 늘어나면 다음 큰 병목은 어디인가요?
토마스 구리안:
소비자용 에이전트에서 가상머신 비용이 큰 병목이 될 것입니다.
예를 들어 사용자가 여행 계획을 세우는 에이전트를 만들었다고 합시다. 에이전트가 여러 여행 사이트를 조회하고, 예산을 계산하고, 일정을 조율하려면 다양한 도구와 VM을 사용해야 합니다.
하지만 일반 소비자가 VM을 계속 켜두는 것은 너무 비쌉니다. 그래서 작업이 끝나면 VM을 켜고 끄는 구조, 로컬 스토리지를 효율적으로 읽고 쓰는 구조가 필요합니다.
이 비용 구조를 해결해야 에이전트 기술을 소비자에게 널리 보급할 수 있습니다.
11. Anthropic은 고객이자 경쟁자
질문자:Anthropic은 Google Cloud의 고객이면서 동시에 Claude로 Gemini와 경쟁합니다. 어떻게 생각하나요?
토마스 구리안:
Google은 플랫폼 회사입니다. 플랫폼 회사는 어떤 영역에서는 고객에게 공급자가 되고, 다른 영역에서는 경쟁자가 됩니다.
Anthropic은 TPU를 원하는 고객입니다. 동시에 우리는 Gemini와 Gemini Enterprise 도구체인에 자부심을 갖고 있습니다.
Apple과도 비슷합니다. Apple이 Google의 모델 계약을 맺었다고 해서 Android와 경쟁하지 않는 것은 아닙니다. 플랫폼 회사로서 자연스러운 일입니다.
질문자:
그래도 TPU 용량이 한정되어 있다면 Anthropic에 줄지, Gemini에 줄지 어려운 결정이 필요하지 않나요?
토마스 구리안:
그런 결정은 순다르 피차이를 포함한 경영진이 논의합니다. 매일 어려운 결정을 합니다.
Anthropic뿐 아니라 수많은 연구소와 고객이 TPU를 원합니다. Gemini에 얼마나 줄지, 외부 고객에게 얼마나 줄지, 그 안에서 Anthropic에 얼마나 줄지 모두 복잡한 결정입니다.
하지만 한 가지는 분명합니다. 자체 칩과 수요가 있는 편이, 자체 칩도 없고 수요도 없는 것보다 훨씬 낫습니다.
12. Mythos와 10조 파라미터 모델
질문자:Mythos가 10조 파라미터 모델이라는 소문이 있습니다. Google도 10조 파라미터 모델 영역에서 움직이고 있나요?
토마스 구리안:
Gemini와 관련해 곧 새로운 발표가 있을 것입니다. Gemini의 능력에 대해 매우 자랑스럽게 생각합니다. 오랫동안 최첨단 수준이었고, 곧 새로운 버전이 나올 것입니다.
매우 큰 모델을 서빙하는 것에 대해서는, Google은 오래전부터 disaggregated serving 역량을 갖고 있습니다. 그래서 매우 큰 dense model도 잘 스케일할 수 있습니다.
우리는 서빙할 수 없는 모델을 설계하지 않습니다. TPU는 세계에서 가장 큰 모델들을 서빙할 수 있다고 확신합니다.
13. 사전학습 스케일링은 둔화됐는가?
질문자:업계에서는 한때 사전학습 스케일링이 둔화되고, 이제 RL이나 thinking time에 집중해야 한다는 이야기가 있었습니다. Google도 그렇게 느끼나요?
토마스 구리안:
칩 설계, 시스템 설계, 용량 관점에서는 그런 둔화를 느끼지 않습니다.
데이터 측면에서는 변화가 있습니다. 기존에는 텍스트, 오디오, 비디오 같은 비정형 데이터가 많았습니다. 하지만 기업 환경에서는 구조화된 데이터가 매우 중요합니다.
예를 들어 “이 제품의 수요를 맞추려면 재고가 얼마나 필요하냐”고 물으면, 모델은 SAP나 공급망 시스템의 테이블을 조회해야 합니다. 이때 어떤 테이블에서 답을 가져왔는지, 그 답의 근거가 무엇인지 설명하는 것은 문서 링크를 보여주는 것보다 훨씬 어렵습니다.
기업용 시스템에는 수많은 필드와 드롭다운, 복잡한 구조가 있습니다. Google은 이런 기업 환경을 통해 Gemini가 구조화된 데이터와 복잡한 시스템을 더 잘 다루도록 학습시키고 있습니다.
14. Google 내부의 에이전트 코딩
질문자:Google이 내부적으로 agentic coding의 최전선에 있지 않다는 트윗이 화제가 된 적 있습니다. 실제로는 어떤가요?
토마스 구리안:
Google 내부에는 Jet Ski라는 코딩 하네스가 있고, 많은 엔지니어들이 사용하고 있습니다. 이 피드백은 DeepMind로 직접 들어가고, Gemini의 코딩 품질을 매일 개선하는 강화 루프가 됩니다.
내 조직에서도 많은 사람들이 사용하고 있습니다.
질문자:
저는 개인 프로젝트에서 AI 코딩으로 매우 빠르게 개발합니다. 하지만 Google은 고위험 제품과 서비스를 운영하니 모든 코드를 검토해야 하지 않나요?
토마스 구리안:
Google은 생산성을 단순히 코드 줄 수로 보지 않습니다. 좋은 엔지니어는 더 적은 코드로 같은 기능을 구현합니다. 중요한 것은 얼마나 많은 기능을 추가하느냐입니다.
Google은 코드 체크인 때 peer review를 요구하는 전통이 있습니다. 보통 시니어 엔지니어가 리뷰하는데, 이들이 병목이 될 수 있습니다.
그래서 Gemini를 사용해 보안 취약점을 사전에 스캔하게 합니다. AI가 코드를 생성하는 데만 쓰이는 것이 아니라, 코드를 검사하는 데도 쓰입니다. 시니어 엔지니어가 리뷰할 때 이미 많은 사전 작업이 끝난 상태가 되는 것입니다.
또한 엔지니어들이 가장 비생산적으로 느끼는 시간은 디버깅입니다. Google은 Gemini가 클라우드 시스템을 이해하고, 사고를 진단하고, 문제 해결을 돕도록 만들고 있습니다.
15. AI가 코드를 만들고 AI가 리뷰하면 인간은 이해를 잃는가?
질문자:AI가 코드를 만들고, AI가 리뷰하고, AI가 디버깅하면 인간이 점점 코드의 실제 동작을 이해하지 못하게 되는 것 아닌가요?
토마스 구리안:
그것은 업계가 관리해야 할 위험입니다.
어떤 사람들은 “프롬프트를 이해하면 코드도 이해한 것”이라고 말하지만, 복잡한 시스템에서는 프롬프트가 모든 가능한 동작을 설명하지 못합니다. 예외 처리나 예상치 못한 동작까지 모두 설명하지는 못합니다.
그래서 우리는 여전히 peer review를 유지합니다. AI는 시니어 엔지니어가 더 잘 리뷰하도록 돕는 도구입니다.
또한 AI가 자신이 만든 코드의 문제를 스스로 발견할 수 있는지, self-awareness가 충분한지 같은 문제도 연구하고 있습니다.
16. 사이버보안: 모델이 취약점을 찾는 시대
질문자:Anthropic은 Mythos 모델이 사이버보안 능력이 너무 강해서 공개 출시를 미뤘다고 합니다. Google은 Gemini를 공개하지 말아야 할 선이 있다고 보나요?
토마스 구리안:
그 선이 어디인지 계속 검토하고 있습니다.
다만 중요한 질문은, Mythos가 찾는 취약점 중 얼마나 많은 부분을 오픈소스 모델도 찾을 수 있느냐입니다. 폐쇄형 모델은 통제할 수 있다고 해도, 오픈소스 모델은 결국 적대적 행위자 손에 들어갈 수밖에 없습니다. 그리고 오픈소스 모델도 계속 좋아지고 있습니다.
따라서 대응이 필요합니다.
첫째, 모델이 취약점을 찾는다면 모델이 취약점을 고치는 것도 도와야 합니다. 인간이 고치는 속도보다 모델이 찾는 속도가 훨씬 빠를 수 있기 때문입니다.
둘째, 월 1회 레드팀으로는 부족합니다. 지속적으로 공격하고 점검하는 에이전트가 필요합니다.
셋째, 수많은 코드 중 무엇부터 고쳐야 하는지 우선순위를 정하는 도구가 필요합니다.
17. 오픈소스 소프트웨어는 더 위험한가?
질문자:오픈소스 소프트웨어는 코드가 공개되어 있으니 AI 모델이 취약점을 찾고 공격하기 쉬운 것 아닌가요? 반대로 더 빨리 강화될 수도 있고요. 오픈소스에 유리한 주장인가요, 불리한 주장인가요?
토마스 구리안:
Google은 오픈소스를 많이 사용하고, 많이 기여합니다. 우리는 오픈소스 커뮤니티가 이런 문제를 해결하도록 도울 것입니다.
다만 현실은 분명합니다. 적대자들은 모델을 사용해 인기 있는 오픈소스 라이브러리부터 스캔하려 할 것입니다. 공격 표면이 가장 넓기 때문입니다.
그래서 이 문제를 업계 전체가 함께 해결해야 합니다.
18. 토마스 구리안을 잠 못 들게 하는 것
질문자:마지막 질문입니다. 무엇이 당신을 잠 못 들게 하나요?
토마스 구리안:
우리는 많은 균형을 맞춰야 합니다.
장기적으로 데이터센터, 네트워크, TPU 같은 자본 인프라 계획이 충분한지 봐야 합니다.
또 중요한 문제들을 제대로 풀고 있는지도 봐야 합니다. 몇 년 전 우리는 AI가 발전하면 사이버보안이 큰 영향을 받을 것이라고 봤습니다. 그래서 Wiz 인수 제안을 했을 때 사람들은 왜 그러냐고 물었습니다.
Gemini Enterprise를 보면, 1월부터 지금까지 토큰 처리량이 분당 100억 개에서 160억 개로 증가했습니다. Enterprise 사용자 수도 전 분기 대비 40% 증가했습니다.
우리는 고객과 사용자의 진짜 문제를 풀고 있는지 계속 봅니다. 기술이 빠르게 변하기 때문에, 문제가 발생하기 전에 해결책을 준비해야 합니다. 그게 우리의 초점입니다.
핵심 요약
이 인터뷰의 중심 메시지는 꽤 분명합니다.Google Cloud는 단순히 “클라우드 인프라 제공자”가 아니라, 칩, 데이터센터, 네트워크, 모델, 소프트웨어 스택, 보안, 엔터프라이즈 제품을 모두 함께 설계하는 풀스택 AI 플랫폼 회사라는 점을 강조합니다.
특히 인상적인 부분은 세 가지예요.
첫째, Google은 TPU를 단순한 내부 무기가 아니라 수익화 가능한 전략 자산으로 보고 있습니다. 자체 칩을 갖고 있기 때문에 공급 부족 시대에도 단위 경제성을 유지할 수 있고, Anthropic 같은 경쟁사에게도 인프라를 제공하면서 현금흐름을 만들 수 있습니다.
둘째, AI 워크로드가 챗봇에서 콘텐츠 생성, 그리고 에이전트로 이동하면서 칩 설계 자체가 바뀌고 있습니다. 입력 토큰 중심에서 출력 토큰 중심으로, 다시 장시간 메모리 유지와 컴퓨터 사용 중심으로 바뀌고 있고, Google은 이를 8T·8i 같은 TPU 분화로 대응하고 있습니다.
셋째, AI가 코딩과 사이버보안을 동시에 바꾸고 있습니다. 모델은 코드를 만들고, 리뷰하고, 취약점을 찾고, 고치는 방향으로 발전하고 있습니다. 하지만 인간의 코드 이해가 약해지는 위험도 있기 때문에 Google은 여전히 peer review와 인간 감독을 중요하게 보고 있습니다.
전체 0