인터뷰/예측
구글 제미니 책임자 "2030년까지 안경에 ai 조수 들어갈 것"
작성자
작성일
2025-02-13 08:34
조회
922

제프 딘 & 노암 샤지어 구글 25주년 인터뷰 상세 요약 (한국어)
이 인터뷰는 구글의 최고 과학자 제프 딘과 현 AI 혁명을 이끈 핵심 인물 중 한 명인 노암 샤지어가 구글에서의 25년 경력과 PageRank부터 AGI까지의 여정을 다룹니다. Gemini 프로젝트의 공동 리더이기도 한 두 사람의 통찰력을 통해 AI 기술 발전, 구글의 변화, 미래 전망 등을 심도 있게 살펴볼 수 있습니다.
주요 내용 요약:
1. 구글 초기와 변화:
제프 딘의 역할: 초기 구글은 소규모였고, 제프 딘은 거의 모든 것을 직접 작성하며 모든 것을 아는 멘토 역할을 했습니다.
회사의 성장: 회사가 성장하면서 모든 사람의 이름, 소프트웨어 엔지니어링 그룹의 모든 사람, 모든 프로젝트를 파악하는 것이 불가능해졌습니다.
프로젝트 플래티퍼스: 어느 순간, "프로젝트 플래티퍼스"와 같이 알지 못하는 프로젝트가 런칭되는 이메일을 받게 되면서 회사가 얼마나 커졌는지 실감하게 됩니다.
구글 입사 계기: 제프 딘은 구글에 먼저 연락했고, 노암 샤지어는 1999년 채용 박람회에서 구글을 봤지만 너무 큰 회사라고 생각해 지원하지 않다가, 2000년에 이력서를 보내 합류했습니다.
AI에 대한 초기 관심: 노암 샤지어는 2000년 당시 AI를 연구할 자금을 마련하기 위해 구글에 입사했지만, 구글이 AI 연구에 적합한 곳임을 깨달았습니다.
2. 무어의 법칙과 시스템 설계:
CPU 성능 향상의 둔화: 과거에는 CPU 성능이 18개월마다 크게 향상되었지만, 최근에는 공정 개선 속도가 느려지고 멀티코어 프로세서의 성능 향상도 둔화되었습니다.
머신러닝 가속기 등장: TPU, ML 중심 GPU와 같은 특수 계산 장치의 등장으로, 복잡한 C++ 코드 대신 현대적인 머신러닝 계산에 최적화된 성능과 효율성을 얻을 수 있게 되었습니다.
알고리즘과 하드웨어의 상호 발전: 알고리즘은 하드웨어를 따라 발전하며, 산술 연산은 매우 저렴해지고 데이터 이동이 상대적으로 비싸졌습니다. 딥 러닝은 N³ 연산과 N² 데이터 통신을 사용하는 행렬 곱셈으로 구성되어 하드웨어에 적합합니다.
TPU의 발전: 구글은 저정밀 선형 대수 머신인 TPU를 개발하여 딥 러닝에 특화된 하드웨어를 구축했습니다.
기회비용: 칩 면적을 산술 연산 장치로 채우고, 저정밀 산술 연산을 통해 더 많은 곱셈 장치를 집어넣어 처리량을 크게 늘릴 수 있었습니다.
알고리즘과 하드웨어의 공동 설계: 알고리즘 설계자와 칩 설계자가 함께 협력하여 양자화를 통해 처리량과 비용 비율을 크게 개선할 수 있었습니다.
메모리 비용 감소 가정: 메모리 비용이 산술 연산 비용보다 더 크게 감소했다면, AI는 더 많은 조회를 사용하는 방식으로 발전했을 것입니다.
3. TPU의 미래와 양자화:
양자화: TPUv1은 8비트 정수로 모델을 양자화하여 서빙할 수 있는지 불확실했지만, 이후 훈련과 추론 모두에서 더 낮은 정밀도를 사용할 수 있게 되었습니다.
INT4/FP4: 현재는 INT4 또는 FP4를 사용하며, 일부는 2비트 또는 1비트로 모델을 양자화하고 있습니다.
공동 설계의 중요성: 알고리즘 설계자와 칩 설계자가 협력하여 양자화의 이점을 극대화해야 합니다.
4. 과거의 AI 연구와 현재의 유사성:
제프 딘의 학부 논문 (1990): 신경망 병렬 처리에 대한 논문에서 모델 병렬 처리와 데이터 병렬 처리를 구현하고 비교했습니다.
2조 토큰 N-gram 모델 (2007): 구글은 기계 번역 연구팀과 함께 2조 개의 토큰으로 구성된 N-gram 모델을 훈련했습니다.
N-gram 모델의 한계: 당시에는 N-gram 모델이 인공지능이 될 것이라고 생각하지 않았습니다.
신경망 언어 모델의 가능성: 신경망 언어 모델은 웹 텍스트와 같은 방대한 양의 비지도 학습 데이터를 활용할 수 있다는 장점이 있습니다.
아이디어의 필연성: attention, key-value 저장소 등과 같은 아이디어는 이미 존재했지만, 특정 그룹이 이를 실제로 구현해야 했습니다.
부분적으로 존재하는 아이디어: 새로운 문제를 해결할 때 기존 연구 아이디어에서 영감을 얻고, 해결되지 않은 부분을 해결하여 새로운 돌파구를 마련합니다.
5. "고양이 뉴런"과 스케일링:
Google Brain 초기: 매우 큰 신경망을 훈련할 수 있는 인프라를 구축하는 데 집중했습니다.
YouTube 프레임 학습: 1,000만 개의 무작위 YouTube 프레임에서 비지도 학습을 수행하여 고양이 얼굴에 반응하는 뉴런을 발견했습니다.
ImageNet 챌린지: 신경망을 50배 더 크게 만들어 ImageNet 챌린지에서 좋은 결과를 얻었고, 이는 신경망 스케일링의 중요성을 보여주었습니다.
6. 정보 검색을 넘어선 AI:
구글의 미션: 구글은 정보를 정리하는 회사이며, 정보 검색뿐만 아니라 새로운 정보를 생성하는 역할도 수행합니다.
멀티모달 기능: 텍스트뿐만 아니라 비디오, 오디오, 유전 정보, 건강 정보 등 다양한 모달리티의 정보를 이해하고 활용합니다.
AI의 다양한 활용: 챗봇과의 대화, 복잡한 질문에 대한 답변, 다국어 콘텐츠 접근성 향상 등 다양한 분야에 AI를 활용할 수 있습니다.
가치 창출: AI 시스템은 코드를 작성하고 문제를 해결하는 등 더 많은 가치를 창출할 수 있습니다.
7. 긴 컨텍스트와 검색 통합:
Google 검색과 언어 모델: Google 검색은 인터넷 전체를 인덱싱하지만 얕은 검색을 수행하고, 언어 모델은 제한된 컨텍스트를 가지지만 깊이 생각할 수 있습니다.
사실성 문제: 언어 모델은 수십 조 개의 토큰을 학습하지만, 모든 정보를 정확하게 기억하지 못하고 환각을 일으킬 수 있습니다.
컨텍스트 내 정보: 컨텍스트 내 정보는 attention 메커니즘을 통해 정확하게 처리할 수 있습니다.
수백만 토큰 컨텍스트: 현재 모델은 수백만 토큰의 컨텍스트를 처리할 수 있지만, 수조 개의 토큰을 처리하는 것이 목표입니다.
개인 정보 활용: 개인 이메일, 문서, 사진 등에 접근하여 개인화된 도움을 제공할 수 있습니다.
계산 복잡도: naive attention 알고리즘은 제곱 시간이 걸리므로, 수조 개의 토큰을 처리하기 위해서는 새로운 알고리즘 근사가 필요합니다.
8. 코드베이스 전체 컨텍스트:
Google 코드베이스 활용: Gemini 모델을 Google 내부 코드베이스로 추가 학습하여 개발자의 생산성을 향상시켰습니다.
내부 모델의 유용성: 내부 모델은 코드 생성에 매우 유용하며, Sundar Pichai에 따르면 Google 코드베이스에 체크인되는 문자의 25%가 AI 모델에 의해 생성됩니다.
AI 연구자의 미래: AI 모델은 연구자가 새로운 아이디어를 탐색하고 실험 코드를 생성하는 데 도움을 줄 수 있습니다.
9. 자율 소프트웨어 엔지니어:
생산성 향상: AI 모델은 사람이 코드를 작성하는 대신, 높은 수준의 사양이나 문장 설명을 기반으로 코드를 생성하여 생산성을 크게 향상시킬 수 있습니다.
SQL 데이터베이스 시스템 구현: 새로운 실험 코딩 모델은 C로 SQL 처리 데이터베이스 시스템을 구현하는 데 성공했습니다.
워크플로 관리: 수많은 백그라운드 활동이 발생하는 경우, 워크플로를 관리하고 사용자에게 필요한 정보를 요청하는 인터페이스가 필요합니다.
병렬 처리: 수많은 머신러닝 연구자가 함께 AI를 개발하는 것과 유사하게, 기계 간의 병렬 처리도 중요합니다.
10. ML 연구와 자동화:
아이디어 탐색: 수많은 아이디어를 시도하고 실패하는 과정을 통해 돌파구를 마련할 수 있습니다.
소규모 실험: 1/1000 규모의 문제에서 수많은 아이디어를 검증하고, 유망한 아이디어를 확장하는 것이 효율적입니다.
알고리즘 발전: Gemini 3는 다양한 아키텍처 아이디어를 시도하고, 훈련을 더 쉽게 만드는 알고리즘 발전을 통해 다음 세대 모델의 성능을 향상시킬 수 있습니다.
자동화된 탐색: 자동화된 아이디어 탐색을 통해 더 많은 아이디어를 검증하고 프로덕션 훈련에 통합할 수 있습니다.
대규모 실험: 대규모 실험은 여전히 중요하며, 여러 사람이 함께 문제를 해결하고 개선해야 합니다.
11. 하드웨어 및 소프트웨어 피드백 루프:
소프트웨어 개선: AI는 소프트웨어 수준에서 더 나은 칩을 설계하고, 더 나은 AI를 개발하는 데 도움을 줄 수 있습니다.
급격한 발전 가능성: 소프트웨어 및 하드웨어 개선의 피드백 루프를 통해 Gemini 3에서 Gemini 4로의 발전 시간이 단축되고, 초인간적인 지능이 예상보다 빠르게 등장할 수 있습니다.
칩 설계 속도 향상: 칩 설계 과정을 자동화하여 18개월에서 몇 개월로 단축하고, TSMC의 제조 시간을 단축할 수 있습니다.
알고리즘 발전 속도: 알고리즘 발전은 기존 칩에서 빠르게 진행될 수 있습니다.
능력 폭발 가능성: 하드웨어 및 알고리즘 발전의 피드백 루프를 통해 능력 폭발이 발생할 수 있습니다.
12. 추론 시간 컴퓨팅:
추론 시간 컴퓨팅 증가: 추론 시간에 더 많은 컴퓨팅을 사용하여 모델을 더 똑똑하게 만들 수 있습니다.
저렴한 비용: 토큰 당 연산 비용은 매우 저렴하며, 언어 모델과 대화하는 것은 책을 읽거나 고객 지원 에이전트와 대화하는 것보다 훨씬 저렴합니다.
사전 훈련 및 사후 훈련: 사전 훈련과 사후 훈련도 계속 개선되지만, 추론 시간에 "더 열심히 생각"하는 것이 큰 발전을 가져올 것입니다.
검색: 추론 시간 컴퓨팅은 검색과 유사하게 다양한 솔루션을 탐색하고, 필요한 정보를 얻어 문제를 해결하는 데 사용될 수 있습니다.
알고리즘 개발: 더 많은 추론 시간 컴퓨팅을 사용하여 더 나은 결과를 얻기 위한 알고리즘을 개발해야 합니다.
Bitter Lesson: 학습과 검색은 매우 효과적인 기술이며, 다양한 문제에 적용할 수 있습니다.
13. 데이터 센터 계획 및 비동기 처리:
추론 시간 컴퓨팅 증가: 추론 시간 컴퓨팅은 점점 더 중요해지고 있으며, 특수 하드웨어가 필요할 수 있습니다.
지연 시간 민감도: 사용자가 기다리는 지연 시간 민감 추론과 백그라운드 추론을 구분해야 합니다.
비동기 작업: 비동기 작업은 사용자에게 필요한 정보를 요청하고, 백그라운드에서 계속 작업을 수행하는 방식으로 처리할 수 있습니다.
추론 효율성: 추론은 훈련보다 컴퓨팅 효율성이 높으며, 다른 하드웨어 및 추론 알고리즘을 사용할 수 있습니다.
drafter 모델: 작은 언어 모델이 여러 토큰을 예측하고, 큰 모델이 이를 검증하는 방식으로 추론 효율성을 높일 수 있습니다.
다중 데이터 센터 훈련: 여러 데이터 센터에서 모델을 훈련하고, 고대역폭 연결을 통해 파라미터를 동기화할 수 있습니다.
비동기 훈련: 비동기 훈련은 확장성에 유리하지만, 재현성이 떨어질 수 있습니다.
동기 훈련: TPU와 같은 고성능 하드웨어를 사용하면 동기 훈련이 가능하며, 더 쉬운 모델을 이해할 수 있습니다.
확장성의 문제: 확장할수록 알 수 없는 문제가 발생할 수 있으며, 디버깅이 어려울 수 있습니다.
14. 디버깅과 실험:
소규모 실험: 소규모 실험을 통해 아이디어를 빠르게 검증하고, 유망한 아이디어를 확장할 수 있습니다.
통합: 여러 개선 사항을 함께 테스트하고, 상호 작용을 확인해야 합니다.
복잡성 관리: 복잡성은 성능을 저하시키고 위험을 증가시키므로, 코드를 깨끗하게 유지해야 합니다.
15. AI 발전 속도와 안전:
급격한 발전 가능성: AI 모델은 세대를 거듭할수록 빠르게 발전하고 있으며, 몇 세대 안에 복잡한 작업을 수행할 수 있게 될 것입니다.
책임 있는 AI: AI의 잠재적 위험을 인지하고, 안전하고 유익하게 사용하기 위한 노력이 필요합니다.
Google의 책임 있는 AI 원칙: Google은 AI 개발 및 배포에 대한 책임 있는 AI 원칙을 가지고 있습니다.
피드백 루프의 위험: AI가 스스로 코드를 작성하고 개선하는 피드백 루프는 제어하기 어려운 위험을 초래할 수 있습니다.
안전한 시스템 엔지니어링: 안전한 AI 시스템을 구축하는 것은 엔지니어링 문제이며, 과거의 소프트웨어 개발 경험을 활용할 수 있습니다.
텍스트 분석의 중요성: 언어 모델은 텍스트를 생성하는 것보다 분석하는 데 더 능숙하며, 이를 활용하여 문제를 해결할 수 있습니다.
API 및 인터페이스 제어: API 또는 사용자 인터페이스를 통해 모델의 기능을 제한하고, 사용 방식을 제어할 수 있습니다.
16. 즐거웠던 시기와 노스탤지어:
초기 Google: 제프 딘은 초기 Google에서 검색 및 크롤링 시스템을 개발하며 트래픽이 빠르게 증가하는 것을 보는 것이 즐거웠습니다.
Gemini 팀: 현재 Gemini 팀에서 사람들과 함께 일하며 모델의 성능이 빠르게 향상되는 것을 보는 것도 즐겁습니다.
사람들과의 협업: 노암 샤지어는 사람들과 함께 일하고, 수백만 명의 사람들을 돕는 것을 즐깁니다.
마이크로 키친: 새로운 Gradient Canopy 건물의 마이크로 키친 공간에서 사람들이 함께 일하며 아이디어를 공유하고 피드백을 주고받는 것을 즐깁니다.
17. 컴퓨팅 수요 예측과 2030년 전망:
추론 컴퓨팅 증가: 추론 컴퓨팅은 모델의 품질을 향상시키는 데 중요하며, 사용량이 증가하면서 크게 증가할 것입니다.
효율적인 하드웨어: 추론 컴퓨팅을 위한 매우 효율적인 하드웨어가 필요합니다.
세계 GDP의 일부: 사람들은 세계 GDP의 일부를 AI에 사용할 것이며, AI 시스템은 개인 비서 또는 개인 캐비닛과 같은 역할을 수행할 수 있습니다.
무한한 에너지와 로봇: 무한한 에너지와 로봇을 통해 데이터 센터를 구축하고, 태양 에너지를 활용할 수 있습니다.
하드웨어 및 모델 공동 설계: 하드웨어 및 모델 공동 설계를 통해 AI 시스템을 훨씬 더 효율적으로 만들 수 있습니다.
데이터 센터 확장 계획: Google은 AI 분야에 투자하고 있으며, 새로운 하드웨어를 개발하고 있습니다.
18. 지속적인 학습:
희소 모델: 모델의 다른 부분이 다른 작업에 능숙하도록 희소 모델을 선호합니다.
Mixture-of-Experts 모델: Gemini 1.5 Pro와 같은 Mixture-of-Experts 모델은 모델의 일부만 활성화하여 효율성을 높입니다.
유기적인 구조: 현재 모델은 규칙적인 구조를 가지고 있지만, 더 유기적인 구조를 가져야 합니다.
모듈식 개발: 모델의 일부를 독립적으로 개발하고, 더 큰 모델에 연결하여 특정 언어나 문제에 대한 기능을 향상시킬 수 있습니다.
지속적인 학습: 여러 팀이 모델의 다른 부분을 개선하고, 전체 모델의 성능을 향상시키는 지속적인 학습이 가능합니다.
모듈 결합 및 분리: 모델을 결합하거나 분리하고, 다른 모델에 적용할 수 있습니다.
버전 시스템: 모듈의 다른 버전을 비교하고, 성능을 평가할 수 있습니다.
연구 속도 향상: 지속적인 학습은 시스템 전체를 다시 훈련하는 것보다 저렴하고 빠르게 연구를 진행할 수 있습니다.
19. Pathways:
Pathways 시스템: Pathways 시스템은 비동기 업데이트를 지원하는 비정형 모델을 지원합니다.
Gemini 훈련: Pathways는 Gemini 모델 훈련에 사용되지만, 아직 모든 기능을 활용하지는 않습니다.
TPU 포드: TPU 포드는 고성능 하드웨어, 토러스 모양의 상호 연결, 저수준 집합 연산을 제공하여 분산 딥 러닝에 적합합니다.
20. 증류:
증류: 증류는 모델을 다른 형태로 변환하는 데 유용하며, 크고 복잡한 모델을 작고 효율적인 모델로 만들 수 있습니다.
모듈 수준 증류: 모듈 수준에서 증류를 수행하고, 큰 버전과 작은 버전을 유지하며 지속적으로 학습할 수 있습니다.
추론 스케일링: 라우터는 추론 시간에 사용할 모델의 크기를 결정할 수 있습니다.
21. Mixture-of-Experts 모델 해석:
전문가 해석: 과거에는 Mixture-of-Experts 모델의 전문가를 쉽게 해석할 수 있었습니다.
자동 인코더: Chris Olah와 Anthropic의 연구는 매우 희소한 자동 인코더를 훈련하여 뉴런의 특성을 파악했습니다.
해석 가능성의 필요성: 모델의 성능이 좋으면 모든 뉴런을 이해할 필요는 없습니다.
22. Mixture-of-Experts 모델과 인프라:
전체 모델 메모리 로드: Mixture-of-Experts 모델은 전체 모델을 메모리에 로드해야 합니다.
TPU 포드의 장점: TPU 포드는 Mixture-of-Experts 모델에 적합한 인프라를 제공합니다.
비동기 추론: Pathways는 다양한 비용의 구성 요소를 지원하고, 비동기 추론을 수행할 수 있습니다.
데이터 센터 규모 모델: Mixture-of-Experts 모델은 데이터 센터 규모의 모델이 필요할 수 있습니다.
전문가 복제: 자주 사용되는 전문가를 복제하여 로드 밸런싱을 개선할 수 있습니다.
23. Google 제품과 Mixture-of-Experts:
Google 제품 통합: Google Search, Google Images, Gmail 등 다양한 제품에 Mixture-of-Experts 모델을 사용할 수 있습니다.
내부 데이터 활용: Google 직원을 위한 내부 모델을 만들고, 내부 데이터로 모듈을 훈련할 수 있습니다.
24. 병목 현상과 구현:
시스템 엔지니어링 및 ML: 시스템 엔지니어링과 ML 모두 중요하며, 현재 Gemini 개발 방식과 다른 새로운 방식이 필요합니다.
병렬 개발: 여러 팀이 모델의 다른 부분을 개발하여 더 빠른 발전을 이룰 수 있습니다.
데이터 제어 모듈: 개인 데이터 또는 특정 제품에만 사용되는 데이터를 위한 모듈을 만들 수 있습니다.
25. 유기적인 모델:
생물학적 뉴런에서 영감: 인공 뉴런은 생물학적 뉴런에서 영감을 얻었지만, 실제 뇌의 다른 특징도 고려해야 합니다.
전문 분야: 모델의 다른 부분이 다른 작업에 능숙하도록 유기적으로 성장해야 합니다.
하드웨어 연결: 하드웨어 연결에 따라 모델의 연결을 조정해야 합니다.
26. 추론 컴퓨팅과 에이전트:
추론 컴퓨팅 양: 추론 컴퓨팅 양은 작업의 난이도에 따라 달라져야 합니다.
반복적인 처리: 모델은 반복적으로 정보를 처리하고, 다른 부분을 호출할 수 있습니다.
증류: 복잡한 모델을 증류하여 효율적으로 사용할 수 있습니다.
27. 증류 기술:
빠른 증류: 더 빠른 증류 기술이 필요합니다.
학습 기술: 사전 훈련 중에 토큰에서 더 많은 가치를 추출하기 위한 새로운 학습 기술이 필요합니다.
데이터 효율성: 이미지 모델과 같이 데이터 효율성을 높이기 위한 기술을 텍스트 데이터에도 적용해야 합니다.
샘플 효율성: 모델이 사람만큼 샘플 효율적이 되기 위해서는 훈련 목표를 변경하고, 시각 데이터를 활용하고, 행동을 통해 학습해야 합니다.
28. 정보 공개와 경쟁:
Transformer 공개: Transformer 논문 공개는 다른 회사에 도움이 되었지만, Google도 기회를 인식하고 협력할 수 있었습니다.
출판 전략: Google은 기술 개발 및 배포에 따라 출판 여부와 공개 범위를 결정합니다.
경쟁 우위: Google은 경쟁 우위를 유지하기 위해 일부 기술을 공개하지 않을 수 있습니다.
29. Gemini 개발 과정:
과거의 언어 모델 연구: Google은 과거부터 언어 모델을 연구해 왔으며, 내부 챗봇 시스템 Meena를 개발했습니다.
사실성 문제: 검색 엔진 관점에서 언어 모델은 환각을 일으키고 사실성이 떨어지는 문제가 있었습니다.
챗봇의 유용성: 챗봇은 검색 엔진과는 다른 용도로 유용하며, Google은 Bard와 Gemini 모델을 통해 챗봇 기능을 개선했습니다.
30. 경력 장수와 다양한 분야:
새로운 분야 학습: 새로운 분야에 대해 배우고, 다른 분야의 전문가와 협력하는 것이 중요합니다.
겸손: 자신의 아이디어보다 더 나은 아이디어를 받아들이고, 실패한 아이디어를 포기하는 겸손함이 필요합니다.
상향식 및 하향식: 상향식 및 하향식 접근 방식을 결합하여 협업과 유연성을 모두 장려해야 합니다.
아이디어 제시: 흥미로운 아이디어를 제시하고, 다른 사람들이 함께 작업하도록 유도하는 것이 좋습니다.
이 요약은 인터뷰의 주요 내용을 다루지만, 더 자세한 내용은 전체 텍스트를 참고하는 것이 좋습니다.
밑에글적은거처럼
먹고 자고 대소변넣고
이런게 변화가되야지 하기시른거
일상생활이
저건다르지안나
그런거까지 바뀌는건 2030년대에는 되겠지? 빨리나왔으면 좋겠다.. 4ㅡ50년대 이후만 아니었으면..
나노봇이랑 마인드 업로딩은 2030년대에 가능해져서 일상생활 크게 달라질 것 같음