인터뷰/예측

Gemini 사전훈련 책임자 "최소한 수년간은 가속이 멈출 이유를 찾기 어렵다."

작성자
하이룽룽
작성일
2025-12-19 07:04
조회
12




Q1. Gemini 3의 핵심 비결은 정말 “더 나은 프리트레이닝과 포스트트레이닝”인가?

A. 그렇다. 특별한 단일 비밀이 있는 것은 아니고, 수많은 작은 개선들이 누적된 결과다. 한두 가지 큰 변화가 영향을 주는 경우도 있지만, 실제로는 매우 큰 팀이 데이터, 모델, 인프라, 학습 방식 전반에서 동시에 개선을 쌓아올린 결과가 Gemini 3의 도약을 만들었다.



Q2. 단순히 “노브를 조금 돌렸는데” 큰 성능 향상이 나온다는 건, AI 진보에 대해 무엇을 의미하나?

A. 두 가지를 의미한다.
첫째, 여전히 개선할 수 있는 지점이 엄청나게 많고, 거의 매일 모델을 더 좋게 만드는 발견이 나온다는 점에서 진보는 전혀 둔화되지 않았다.
둘째, 이제는 단순한 “모델”이 아니라 모델 + 데이터 + 학습 + 추론 + 인프라를 포함한 시스템 전체를 만들고 있다는 점이다.



Q3. 이런 모델 성능 향상이 진짜 ‘지능’의 향상이라고 믿을 근거는 무엇인가?

A. 하나는 점점 어려워지는 벤치마크를 실제로 더 잘 푼다는 점이다. 일부 문제는 컴퓨터공학 전공자인 본인도 상당한 시간이 필요할 정도다.
그러나 더 중요한 근거는 연구자와 엔지니어들이 실제 업무에서 모델을 쓰는 시간이 세대별로 확연히 늘고 있다는 점이다. 새로운 모델은 이전 모델로는 불가능했던 일을 실제로 가능하게 만든다.



Q4. 몇 년 전과 비교하면 지금은 예상보다 앞서 있는가?

A. 솔직히 말하면 예상보다 훨씬 앞서 있다. 2019~2020년에 스케일링 법칙이 이런 방향을 가리키긴 했지만, 실제로 이렇게까지 실현될 거라고 확신하지는 못했다. 지금 수준의 능력과 규모는 당시로서는 믿기 어려웠다.



Q5. 앞으로 2~3년 안에 어떤 변화가 올 것이라 보는가?

A. 과학 분야에서 의미 있는 발견이 나올 가능성이 높고, 연구·엔지니어링 업무 자체를 가속하는 도구로서의 AI 활용이 급격히 늘어날 것이다. AI는 연구를 자동화한다기보다는 사람이 더 높은 수준의 사고에 집중하도록 만들어주는 방향으로 진화할 가능성이 크다.



Q6. AI 연구 자동화, ‘AI 2027 시나리오’ 같은 담론을 어떻게 보는가?

A. 완전한 자동화보다는 속도 향상이 핵심이다. 실험 실행, 데이터 분석, 반복 작업을 AI가 맡아주면 연구자는 가설 설정과 실험 설계에 더 집중할 수 있다. 특히 에이전트 기반 워크플로우는 단기간에 큰 생산성 향상을 가져올 것이다.



Q7. 프론티어 AI 연구소들은 모두 같은 방향으로 가고 있는가?

A. 기본 기술은 유사하지만, 각 조직은 서로 다른 연구 가지(branch)를 집중적으로 탐색하고 있다. 예를 들어 DeepMind는 멀티모달과 비전 쪽에서 강점을 유지해 왔다. 완전히 동일한 길을 가고 있다고 보기는 어렵다.



Q8. 대형 연구소만이 미래를 독점하게 되는가?

A. 현재 구조에서는 대규모 팀과 자원이 필요하지만, 반드시 이것이 최적의 방식이라는 보장은 없다. 파괴적인 연구 아이디어가 등장하면 작은 팀이 판을 바꿀 가능성도 충분히 있다.



Q9. Gemini 3의 아키텍처는 이전과 크게 다른가?

A. 근본적으로는 Transformer 기반 MoE(Mixture of Experts) 구조다. 혁신적인 단일 아키텍처 변화보다는, 여러 요소가 동시에 개선된 결과다.



Q10. MoE 구조란 무엇인가?

A. Transformer의 FFN(피드포워드 네트워크) 부분에서 모든 파라미터를 항상 쓰는 대신, 토큰마다 필요한 ‘전문가(expert)’만 선택적으로 활성화하는 방식이다. 이를 통해 파라미터 수와 계산량을 분리할 수 있다.



Q11. Gemini 3가 ‘네이티브 멀티모달’이라는 것은 무슨 의미인가?

A. 텍스트, 이미지, 오디오, 비디오를 각각 다른 모델이 처리하는 것이 아니라, 하나의 동일한 모델이 모든 모달리티를 함께 처리한다는 뜻이다.



Q12. 멀티모달은 비용이 더 들지 않는가?

A. 두 가지 비용이 있다.
첫째는 연구 복잡성 비용이다. 모달리티 간 상호작용이 많아 연구가 어려워진다.
둘째는 계산 비용이다. 이미지 등은 입력 크기가 커서 연산량이 증가한다. 다만 그럼에도 장점이 훨씬 크기 때문에 채택된다.



Q13. “스케일링 법칙은 죽었다”는 주장에 대한 입장은?

A. 전혀 공감하지 않는다. 스케일은 여전히 중요하며 예측 가능하게 성능을 개선한다. 다만 사람들이 스케일만 과대평가했을 뿐이다. 현재는 데이터와 아키텍처 혁신이 스케일보다 더 큰 영향을 주는 경우도 많다.



Q14. 우리는 데이터가 고갈되고 있는가?

A. 고갈되고 있다고 보지 않는다. 다만 패러다임이 ‘무한 데이터’에서 ‘유한 데이터’로 이동하고 있다. 이 변화는 연구 방식 자체를 바꾸며, 과거 ImageNet 시대의 데이터 효율 기법들이 다시 중요해지고 있다.



Q15. 합성 데이터(synthetic data)는 어디까지 유효한가?

A. 매우 조심스럽게 사용해야 한다. 특히 “더 강한 모델을 만들기 위해, 더 약한 모델을 능가할 수 있는 데이터를 생성할 수 있는가?”라는 문제가 핵심이다. 이는 현재도 활발히 연구 중이다.



Q16. 사고 과정(trace of thought)을 학습에 사용하는 방식은?

A. 구체적인 구현은 언급할 수 없지만, 합성 데이터와 같은 범주에서 중요한 연구 방향 중 하나다.



Q17. 인간처럼 적은 데이터로 학습하는 모델이 가능할까?

A. 현재 모델은 인간보다 훨씬 많은 데이터를 사용한다. 아키텍처 개선은 “같은 성능을 더 적은 데이터로 달성”하게 만들 수 있지만, 인간 수준과는 아직 큰 격차가 있다.



Q18. 앞으로 프리트레이닝에서 가장 흥미로운 방향은?

A.
  • 초장문 컨텍스트 확장
  • 더 효율적인 어텐션 메커니즘
  • 데이터 유한 시대에 맞는 학습 방식
  • 추론 비용을 줄이면서 품질을 유지하는 방법



Q19. RAG나 검색은 결국 모델에 흡수될까?

A. 장기적으로는 미분 가능한 방식으로 검색과 추론을 모델 내부에 통합하는 방향이 맞다고 본다. 다만 단기적으로는 포스트트레이닝 기반 RAG가 훨씬 빠르고 실용적이다.



Q20. 프리트레이닝에서 평가(evals)는 왜 그렇게 중요한가?

A. 프리트레이닝 단계의 작은 모델 평가가, 훗날 거대 모델 성능을 예측해야 하고, 포스트트레이닝 이후 성능까지 예측해야 하기 때문이다. 이 두 격차를 동시에 메우는 것은 매우 어렵다.



Q21. 외부 벤치마크를 그대로 쓰지 않는 이유는?

A. 외부 벤치마크는 빠르게 오염된다. 결국 스스로 속이지 않으려면 내부에서 만든 완전히 홀드아웃된 평가셋이 필요하다.



Q22. 프리트레이닝 단계에서도 정렬(alignment)을 고려하는가?

A. 주로 포스트트레이닝의 영역이지만, 일부 요소는 프리트레이닝에서도 고려된다.



Q23. 모델이 “생각하는 시간” 동안 실제로 무슨 일이 일어나는가?

A. 모델은 더 긴 시퀀스 상에서 가설을 세우고, 검증하고, 도구 호출이나 검색을 수행하며 사고를 확장한다. 깊이(depth)가 아니라 길이(length) 방향의 계산 확장이다.



Q24. 연구자가 되려는 학생에게 가장 중요한 역량은?

A. 모델·데이터·학습·인프라·하드웨어(TPU)까지 전체 스택을 이해하는 시스템적 사고다. 이 능력은 앞으로 매우 강력한 차별점이 된다.



Q25. 이 흐름에 끝이 보이는가?

A. 전혀 보이지 않는다. 작은 개선들이 계속 누적되고 있으며, 앞으로도 최소한 수년간은 가속이 멈출 이유를 찾기 어렵다.

 

전체내용



[도입부 클립]

세바스찬 보르고: 솔직히 말씀드리면, 우리가 갈 수 있을 거라고 생각했던 것보다 더 앞서 있다고 생각합니다. 우리는 더 이상 단순한 모델을 만드는 게 아닙니다. 이 시점에서는 정말로 하나의 시스템을 구축하고 있는 것이죠. 대신 일어나고 있는 일은 일종의 패러다임의 전환입니다. 이전에는 데이터가 무한한 영역에서 규모를 키웠다면, 이제는 데이터가 제한된(limited) 영역으로 이동하고 있습니다. 이는 연구 방식과 문제에 대해 생각하는 방식을 많이 변화시킵니다. 저는 이러한 종류의 작업이 우리에게 계속해서 발전을 가져다주는 것에 대해 끝이 보이지 않는다고 생각합니다.

[맷 터크 인트로]

맷 터크: 안녕하세요, 맷 터크입니다. 매드(MAD) 팟캐스트에 오신 것을 환영합니다. 오늘의 게스트는 구글 딥마인드(Google DeepMind)의 제미나이 3(Gemini 3) 프리트레이닝(사전 학습) 리드인 세바스찬 보르고(Sebastian Borgeaud)입니다. 세바스찬은 세계 최고의 AI 연구자 중 한 명이며 메티스 리스트(Metis List)의 멤버이기도 합니다. 특히 이번 에피소드는 그의 첫 팟캐스트 출연이라 더욱 특별합니다. 우리는 제미나이 3가 내부적으로 어떻게 구축되었는지, 무한 데이터의 세계에서 데이터가 제한된 체제로의 전환, 딥마인드의 연구 팀이 어떻게 조직되어 있는지, 그리고 AI의 다음 단계는 무엇인지에 대해 이야기했습니다. 세바스찬과의 훌륭한 대화를 즐겨주시기 바랍니다.

[본 인터뷰]

맷 터크: 세바스찬, 환영합니다.

세바스찬 보르고: 감사합니다. 안녕하세요, 맷.

맷 터크: 저는 이 대화를 구글 딥마인드의 연구 및 딥러닝 부사장인 오리올 비얄스(Oriol Vinyals)의 트윗으로 시작하고 싶었습니다. 제미나이 공동 리드이기도 하죠. 제미나이 3가 나왔을 때 그가 말하길, 이 모델 뒤에 숨겨진 비밀은 놀랍게도 간단하다고 했습니다. '더 나은 프리트레이닝(Pre-training)'과 '더 나은 포스트트레이닝(Post-training)'이라고요. 제미나이 3가 이전의 최신 기술(SOTA)에 비해 보여준 도약을 생각해보면, 이는 놀라울 정도로 겸손하게 들립니다. 이에 대한 당신의 관점이 궁금합니다. 어떤 면에서는 정말 그렇게 간단한가요?

세바스찬 보르고: 네, 대단한 비밀인지 잘 모르겠습니다. 적어도 제 관점에서는 꽤 정상적인 일로 보입니다. 사람들은 종종 제미나이의 한 버전에서 다른 버전으로 넘어갈 때 뭔가 거대한 한 가지가 바뀌어서 큰 차이를 만들어낸다고 기대하는 것 같습니다. 제 경험상, 다른 것보다 더 큰 차이를 만드는 한두 가지 요인이 있을 수는 있지만, 실제로는 매우 큰 팀에서 이루어낸 아주 많은 변화들과 아주 많은 것들이 결합되어 제미나이 3를 이전 세대보다 훨씬 더 낫게 만드는 것입니다. 아마 나중에 다시 반복될 주제겠지만, 제미나이 3와 같은 결과물은 거대한 팀의 노력이 합쳐져서 나오는 것입니다.

맷 터크: 그것이 AI의 발전 단계에 대해 우리에게 시사하는 바는 무엇일까요? 밖에서 듣기에는 몇 가지 노브(조절 장치)를 돌리는 것만으로도 그런 도약을 얻을 수 있다는 것처럼 들립니다. 앞으로 우리가 기대할 수 있는 것에 대해 이것은 무엇을 의미합니까?

세바스찬 보르고: 두 가지가 있습니다. 첫 번째는, 우리가 이런 방식으로 얼마나 많은 발전을 이룰 수 있는지가 여전히 놀랍다는 점이고, 그 속도가 느려지지 않고 있다는 것입니다. 우리가 매일매일 발견하는 수많은 노브들과 개선 사항들이 모델을 더 좋게 만듭니다. 이것이 첫 번째 포인트입니다. 두 번째 포인트는, 우리는 더 이상 단순히 모델만 만드는 것이 아니라는 겁니다. 제 생각에 우리는 이 시점에서 정말로 시스템을 구축하고 있습니다. 사람들은 때때로 우리가 그저 신경망 아키텍처 하나를 훈련시키면 끝이라고 생각합니다. 하지만 실제로는 네트워크 주변의 전체 시스템을 우리가 집단적으로 구축하고 있는 것이며, 이것이 두 번째 부분입니다.

맷 터크: 모두의 마음속에 있는 큰 질문은, 이것이 지능을 향한 실질적인 진보라는 측면에서 무엇을 의미하는가입니다. 굳이 AGI(일반인공지능)라는 용어까지 갈 필요는 없겠죠, 그게 무슨 뜻인지 아무도 모르니까요. 하지만 모델의 발전을 특정 벤치마크나 다른 벤치마크에서 성공하려는 시도가 아니라, 실제 지능을 향한 경로로 생각하는 것이 맞습니까? 핵심 모델이 더 똑똑해지고 있다는 확신을 주는 것은 무엇입니까?

세바스찬 보르고: 벤치마크는 확실히 계속 개선되고 있습니다. 프롬프트와 벤치마크 구성을 보면 점점 더 어려워지고 있죠. 컴퓨터 과학 배경을 가진 저조차도 모델이 답하는 질문 중 일부는 답하는 데 상당한 시간이 걸릴 겁니다. 이것은 벤치마크라는 하나의 관점일 뿐입니다. 물론 우리가 자주 평가를 수행하고, 테스트 세트를 분리해두는 등 매우 신중을 기하고 있지만, 여전히 과적합(overfitting)이나 사람들이 말하는 '벤치맥싱(benchmaxing)'에 대한 두려움이 일부 존재합니다. 하지만 그런 두려움은 근거가 희박하다고 봅니다. 두 번째 측면이자 저에게 정말 확신을 주는 것은, 사람들이 내부적으로 자신의 생산성을 높이기 위해 모델을 사용하는 시간이 시간이 지날수록 늘어나고 있다는 점입니다. 새로운 세대의 모델이 나올 때마다 모델이 새로운 작업을 수행할 수 있고, 연구나 일상적인 엔지니어링 업무에서 우리를 도울 수 있다는 점이 이전 세대보다 훨씬 더 명확해집니다. 이 점이 모델이 더 유능해지고 있고 실제로 매우 유용한 일을 하고 있다는 확신을 주어야 한다고 봅니다.

맷 터크: AI 연구자로서, 이 모든 것의 가장 중심에 깊숙이 관여하고 계신데요. 한 발짝 물러서서 보면, 지금의 상황에 대해 여전히 놀라시나요? 당신의 관점에서 볼 때, 우리가 몇 년 전 생각했던 것보다 훨씬 앞서 있나요? 궤도에 올라와 있나요, 아니면 뒤처져 있나요?

세바스찬 보르고: 지나고 나서 "우리는 궤도에 있다"고 말하기는 쉽죠. 솔직히 제 자신에게 정직하게 말하자면, 우리가 갈 수 있을 거라고 생각했던 것보다 앞서 있다고 생각합니다. 2019년이나 2020년에 LLM(대규모 언어 모델) 작업을 시작했을 때, 우리가 지금 하고 있는 작업의 규모나 오늘날 모델이 수행할 수 있는 능력을 믿기는 꽤 어렵습니다. 당시 스케일링 법칙(Scaling laws)을 보면 확실히 그 방향을 가리키고 있었습니다. 어떤 사람들은 그것을 깊이 믿었죠. 하지만 제가 당시에 그것이 실제로 실현되어 오늘날의 위치에 오를 것이라는 데에 많은 돈을 걸었을지는 확신할 수 없습니다. 여기서 이어지는 흥미로운 질문은 '이것이 우리를 어디로 데려갈 것인가'입니다. 지난 5년 동안 보았던 것과 같은 진전이 있다고 가정한다면, 앞으로 몇 년 안에 일어날 일들도 매우 멋질 것입니다.

맷 터크: 그 부분에 대해 어떻게 생각하십니까? AI가 새로운 과학적 발견을 내놓거나 노벨상을 타게 될까요? 단기적으로, 즉 2~3년 내에 우리가 어디로 가고 있다고 보십니까?

세바스찬 보르고: 네, 그게 일부입니다. 과학 측면에서 딥마인드는 역사적으로 많은 일을 해왔고, 그 방향으로 많은 작업이 진행되고 있습니다. 저는 우리가 향후 몇 년 안에 몇 가지 큰 과학적 발견을 할 수 있을 것이라고 생각합니다. 다른 한편으로는, 제 일상적인 업무인 연구와 엔지니어링 모두에서, 우리가 모델을 사용하여 더 많은 진전을 이루고, 우리가 구축하는 시스템을 더 잘 이해하며, 연구에 대한 우리 자신의 이해를 발전시키는 데 어떻게 활용할 수 있을지에 대해 매우 기대하고 있습니다.

맷 터크: 업계에는 AI 연구 및 엔지니어링의 자동화에 대한 큰 테마가 있습니다. 이를 추론해보면 불연속적인 순간이 발생하는 'AI 2027' 시나리오로 이어지기도 하는데요. 매우 실용적인 수준에서, 오늘날 당신의 업무에 AI를 사용한다는 것은 무엇을 의미하며, 이것이 몇 년 후에는 무엇을 의미하게 될까요?

세바스찬 보르고: 자동화라기보다는 우리가 더 빨리 진행하도록 돕고, 약간 더 높은 수준의 연구 부분에 더 많은 시간을 할애하게 하는 것에 가깝다고 생각합니다. 언어 모델 연구의 일상적인 업무 중 많은 부분은, 우리가 인프라 수준에서 꽤 복잡하고 거대한 시스템을 다루고 있기 때문에, 실험을 실행하고, 실험을 '베이비시팅(지켜보기)'하고, 많은 데이터를 분석하고, 결과를 수집하는 데 상당한 시간이 소요됩니다. 그리고 흥미로운 부분은 가설을 세우고 새로운 실험을 설계하는 것입니다. 마지막 두 부분은 우리가 여전히 깊이 관여할 부분이라고 생각합니다. 첫 번째 부분은 특히 내년에 에이전트 기반 워크플로우(agentic workflows)가 더 많이 활성화되면서 우리의 업무를 정말 가속화할 수 있을 것입니다.

맷 터크: 프론티어 AI 연구소들이 사실상 모두 같은 방향으로, 같은 일을 하고 있다는 느낌이 드나요? 환상적이면서도 당혹스러운 현상 중 하나는 매주 혹은 매달 또 다른 환상적인 모델이 나온다는 겁니다. 우리는 완전히 버릇이 나빠졌죠. 제미나이 3가 방금 나왔는데, 말 그대로 우리가 녹음하기 2시간 전에 GPT-5.2가 나왔습니다. 당신의 관점에서 이것을 어떻게 보십니까? 누군가가 치고 나갈까요, 아니면 소수의 상위 연구소들과 새로 등장하는 연구소들이 계속 경쟁하게 될까요?

세바스찬 보르고: 첫 번째 질문에 대해서는, 서로 다른 연구소들이 작업하는 것들 사이에 확실히 유사성이 있습니다. 기반 기술들은 비슷하다고 봅니다. 아키텍처 측면에서 우리 모두가 트랜스포머(Transformer)와 유사한 모델을 훈련하고 있지 않다면 놀랄 일이죠. 하지만 그 위에 확실히 전문화가 일어나고 있다고 생각합니다. 연구의 나무에서 서로 다른 가지들을 탐구하고 활용하고 있죠. 역사적으로 딥마인드는 비전(Vision)과 멀티모달(Multimodal) 측면에서 매우 강력했고, 오늘도 여전히 그렇습니다. 이는 사람들이 모델을 사용하는 방식과 벤치마크 양쪽에서 드러납니다. 그리고 추론(Reasoning) 같은 것들도 있죠. OpenAI가 첫 번째 모델을 내놓았지만 우리도 그에 대한 연구 흐름을 가지고 있었습니다. 그래서 유사성은 있지만 정확히 똑같지는 않습니다. 두 번째 질문에 대해서는 좋은 답을 가지고 있는지 모르겠습니다. 한 가지 분명한 것은 오늘날 제미나이 같은 모델에서 진전을 이루려면 매우 큰 팀과 많은 자원이 필요하다는 것입니다. 그렇다고 해서 오늘날 우리가 하는 방식이 어떤 형태로든 최적이라는 의미는 아닙니다. 어떤 파괴적인 연구가 등장해서 더 작은 팀이 어떤 형태로든 주도권을 잡게 될 수도 있습니다. 이것이 제가 구글에 있는 것을 즐기는 이유 중 하나입니다. 구글은 탐구적인 연구를 수행하는 역사가 있고, 연구의 폭이 매우 넓습니다. 이는 제미나이와 병행하여 계속되고 있으며, 우리는 그 연구를 활용하여 제미나이에 발전 사항들을 가져올 수 있습니다.

맷 터크: 딥마인드나 업계 다른 곳에, '포스트 트랜스포머' 아키텍처를 연구하는 반(半)비밀 혹은 완전 비밀 그룹들이 있어서 언젠가 우리 모두를 놀라게 할까요? 그런 그룹들이 있나요?

세바스찬 보르고: 그렇다고 믿습니다. 구글 내에도, 딥마인드 내에도 모델 아키텍처를 연구하는 그룹들이 확실히 있습니다. 그 연구가 성공할지는 말하기 어렵습니다. 연구니까요. 아주 소수의 연구 아이디어만이 성공하죠.

맷 터크: 그동안 한 회사가 다른 회사보다 가질 수 있는 핵심적인 이점은 인력의 질이겠죠. 그리고 구글의 경우 수직적 통합(vertical integration)이 있을 겁니다. 아까 언급한 오리올의 트윗을 데미스 하사비스가 리트윗하면서 "진짜 비밀은 세계적 수준의 연구, 세계적 수준의 엔지니어링, 세계적 수준의 인프라가 끊임없는 집중력으로 함께 일하는 것"이라고 했습니다. 이것이 구글의 비결인가요? 전체 스택을 다룬다는 사실 말이죠.

세바스찬 보르고: 확실히 도움이 되고 중요한 부분입니다. 연구 대 엔지니어링이라는 구분도 흥미롭습니다. 시간이 지나면서 그 경계가 많이 흐려졌다고 생각합니다. 우리는 지금 매우 거대한 시스템을 다루고 있기 때문에, 연구가 엔지니어링처럼 보이고 그 반대도 마찬가지입니다. 이것이 지난 몇 년간, 특히 딥마인드에서 많이 진화한 사고방식입니다. 과거에는 좀 더 전통적인 연구 사고방식이 있었지만, 지금 제미나이에서는 정말로 '리서치 엔지니어링(research engineering)'에 가깝습니다. 인프라 부분도 매우 중요합니다. 우리는 매우 복잡한 시스템을 구축하고 있기 때문에, 신뢰할 수 있고 작동하며 확장 가능한 인프라를 갖추는 것이 연구 엔지니어링 속도를 늦추지 않는 데 핵심적입니다.

맷 터크: 제미나이 3는 엔비디아 칩이 아니라 TPU로 훈련되었죠? 그러니까 진정으로 통합된 것이네요.

세바스찬 보르고: 맞습니다.

맷 터크: 알겠습니다. 제미나이 3에 대해 자세히 알아보기 전에, 당신에 대해 조금 이야기해 봅시다. 당신은 제미나이 3의 프리트레이닝 리드입니다. 그게 무슨 뜻인지, 그리고 당신의 배경과 스토리에 대해 이야기해 주시죠.

세바스찬 보르고: 저는 제미나이 프리트레이닝 리드 중 한 명입니다. 이것이 수반하는 일은 여러 가지가 섞여 있습니다. 제 일의 일부는 모델을 더 좋게 만들기 위해 노력하는 실제 연구입니다. 요즘은 제가 직접 실험을 돌리기보다는 실험 설계를 돕고 팀원들과 결과를 검토하는 일이 많습니다. 두 번째 부분은 꽤 재미있는 부분인데, 조정과 통합에 관한 것입니다. 이 시점에서는 꽤 큰 팀입니다. 정확히 수치화하긴 어렵지만, 데이터, 모델, 인프라, 평가(Evals) 등 프리트레이닝 측면에서 매일 일하는 사람이 150명에서 200명 정도 될 겁니다. 이 모든 사람들의 작업을 우리가 함께 구축할 수 있는 무언가로 조정하는 것은 꽤 복잡하고, 잘 하려면 꽤 많은 시간이 걸립니다. 저에게 이것은 매우 중요합니다. 한두 명 혹은 10명 정도의 소규모 그룹이 다른 사람들보다 앞서 나가도록 하는 것보다, 모든 사람으로부터 진전을 이끌어내는 것이 실제로 가장 큰 발전을 만듭니다. 소수 정예 방식은 단기간에는 통할지 몰라도, 장기간에 걸쳐 우리에게 성공적이었던 것은 아주 많은 사람들의 작업을 통합할 수 있는 능력이었습니다.

맷 터크: 당신의 개인적인 배경에 대해 궁금합니다. 어디서 자랐고, 어떤 아이였나요? 최고의 AI 연구자들을 역설계해보고 싶은데요, 그들은 어디서 왔고 당신은 어떻게 지금의 당신이 되었나요?

세바스찬 보르고: 저는 유럽 이곳저곳에서 자랐습니다. 이사를 꽤 많이 다녔죠. 네덜란드에서 태어났고, 7살 때 스위스로 이사했습니다. 아버지는 스위스 분이고 어머니는 독일 분입니다. 학교 대부분과 고등학교 초반을 스위스에서 다녔는데, 주로 불어와 일부 독일어를 썼습니다. 그리고 15살 때 이탈리아로 이사해서 19살 즈음 고등학교를 마칠 때까지 살았습니다. 그 시점에 원래는 취리히 연방 공대(ETH Zurich)에 갈 예정이었는데, 어느 날 아침 무작위로 대학 순위를 찾아보다가 케임브리지(Cambridge)가 상위권에 있는 걸 봤습니다. 그래서 "그냥 지원해 보지 뭐, 안 될 게 뭐야?"라고 생각했죠. 몇 달 후 합격 통지서를 받았고, 케임브리지로 가서 학사와 석사를 컴퓨터 연구실에서 마쳤습니다.

맷 터크: 자라면서 수학이나 컴퓨터 과학에 강한 아이였나요?

세바스찬 보르고: 아버지가 기술적 배경을 가지고 계셨습니다. 10살, 11살 때 아버지와 함께 프로그래밍을 시작했던 기억이 납니다. 학교에서도 수학과 과학이 항상 쉬웠습니다. 수학 시험 공부를 따로 할 필요가 없었고 항상 잘했죠. 물론 대학에 가서는 그게 확실히 바뀌었습니다만, 고등학교 때까지는 그랬습니다.

맷 터크: 학교 졸업 후 지금의 위치까지 오게 된 경로는 어땠나요?

세바스찬 보르고: 그 또한 운이 좋았던 순간이었습니다. 석사 과정 강사 중 한 분이 딥마인드 연구원이었습니다. 마지막 강의가 끝나고 짐을 챙기면서 "그냥 추천(referral) 좀 해달라고 부탁해볼까? 거절하면 그만이지 뭐"라고 생각했습니다. 용기를 내서 가서 물어봤더니, 흔쾌히 "이력서 보내주면 뭘 할 수 있는지 보겠다"고 하더군요. 그렇게 2018년에 딥마인드 인터뷰를 보게 되었고, 대학 졸업 후 리서치 엔지니어로 합류했습니다.

맷 터크: 처음에는 무슨 일을 했고, 어떻게 제미나이 3의 프리트레이닝 리드가 되었나요?

세바스찬 보르고: 처음 딥마인드에 합류했을 때는 딥마인드가 강화학습(RL)으로 유명했기 때문에 저도 RL 쪽 프로젝트를 시작했습니다. 아타리(Atari) 환경에서 키포인트를 학습하는 비지도 네트워크를 훈련시켜 에이전트가 게임을 하게 만드는 것이었죠. 6개월 정도 했는데, 합성적인(synthetic) 측면이 마음에 들지 않았습니다. 저는 항상 실제 세계 데이터(real-world data)로 작업하고 싶었고 실제 세계에 영향을 미치고 싶었습니다. 저는 작동하는 무언가를 만드는 걸 좋아합니다. 순수 학문적인 연구는 별로 좋아하지 않아요. 그래서 표현 학습(representation learning) 쪽으로 옮겨갔습니다. 다양한 작업을 수행할 수 있는 좋은 표현을 가진 신경망을 훈련시키는 것이죠. 재미있는 일화가 있는데, 제가 참여한 첫 번째 노력의 이름이 '실제 세계 데이터로부터의 표현 학습'이었습니다. 당시에는 이름에 '실제 세계 데이터'라는 말을 꼭 넣어야 했어요. 안 그러면 사람들이 합성 환경이나 합성 데이터라고 생각했으니까요. 그 이후로 상황이 완전히 바뀌었죠. 그게 첫 프로젝트였고, 특히 LLM과 트랜스포머, BERT, XLNet 같은 모델을 보면서 표현 학습 연구를 했습니다.

맷 터크: 그리고 RETRO(레트로) 작업을 하셨죠?

세바스찬 보르고: 네, 그 후 우리는 LLM의 규모를 키우는 작업을 시작했습니다. 먼저 Gopher(고퍼) 작업을 했습니다. 딥마인드의 첫 번째 LLM 논문이었죠. 그때 이미 팀이 10~12명 정도여서 혼자서는 할 수 없다는 게 분명했습니다. 거기서 대규모 프리트레이닝을 시작했고 제 연구 취향을 개발했습니다. 당시 2800억 파라미터의 덴스(dense) 트랜스포머 모델을 3000억 토큰으로 훈련했습니다. 지금 보면 그렇게 하지 않았겠지만, 당시에는 아주 즐거운 학습 경험이었습니다. 그 후 두 가지 프로젝트가 나왔습니다. 하나는 Chinchilla(친칠라)였고, 다른 하나는 RETRO(레트로)였습니다. 친칠라에서는 모델 크기와 데이터를 어떻게 확장해야 하는지, 특히 훈련 컴퓨팅 최적화 관점에서 재검토했습니다. 고정된 훈련 컴퓨팅 양이 있을 때 모델 크기를 늘려야 할까, 아니면 데이터 크기를 늘려야 할까 하는 질문이었죠. OpenAI의 이전 연구를 재검토한 결과, 기존 생각보다 데이터 측면을 훨씬 더 빨리 확장해야 한다는 것을 발견했습니다. 재미있게도 이건 오늘날에도 여전히 매우 관련성이 높습니다. 서빙 비용(serving cost)과 모델 사용 비용에 많은 영향을 미치기 때문입니다. 다른 하나는 아키텍처 혁신 측면인 RETRO였습니다. 대규모 텍스트 코퍼스에서 정보를 검색(retrieve)할 수 있는 능력을 모델에 부여하여 모델을 개선하는 방법을 연구했습니다. 모델이 모든 지식을 파라미터에 저장하는 대신, 훈련 중이나 추론 중에 특정 내용을 찾아볼 수(lookup) 있게 하는 것이죠.

맷 터크: '연구 취향(research taste)'이라는 단어를 쓰셨는데 아주 흥미롭습니다. 그게 무슨 뜻이며 연구자에게 얼마나 중요합니까?

세바스찬 보르고: 요즘 매우 중요합니다. 정량화하긴 어렵지만 몇 가지 중요한 점이 있습니다. 첫째, 당신의 연구는 독립적이지 않습니다. 다른 사람들의 연구와 잘 통합되어야 합니다. 내 연구가 모델을 개선하더라도, 다른 사람들이 모델을 사용하기 5% 더 어렵게 만든다면 좋은 트레이드오프가 아닙니다. 다른 사람들의 연구 속도를 늦추고 결과적으로 전체 연구 속도를 늦추니까요. 둘째, 복잡성(complexity)에 대한 알레르기를 갖는 것입니다. 복잡성은 주관적이지만, 우리가 감당할 수 있는 복잡성 예산과 연구 위험에는 한계가 있다는 것을 알아야 합니다. 종종 우리는 연구 아이디어의 최고 성능 버전을 사용하기보다는, 성능을 조금 희생하더라도 복잡성이 낮은 버전을 선택합니다. 그것이 미래에 더 많은 발전을 가능하게 할 것이라고 생각하기 때문입니다. 또한 직관적으로 무엇이 작동할지 안 할지 아는 것도 중요합니다. 연구는 컴퓨팅 자원에 의해 병목 현상이 생기기 때문에, 연구 트리의 어느 부분을 탐색할지 추측해야 합니다. 그리고 연구 아이디어 대부분은 실패합니다. 언제 실패한 아이디어를 포기하고 넘어갈지, 아니면 계속 밀어붙일지 결정해야 합니다. 딥러닝에서 부정적인 결과는 그게 작동하지 않는다는 뜻이 아니라, '아직' 작동하게 만들지 못했다는 뜻인 경우가 많거든요. 이걸 파악하는 게 꽤 까다롭습니다.

맷 터크: 딥마인드 팀은 어떻게 조직되어 있나요? 프리트레이닝 팀이 수백 명이라고 하셨는데, 포스트 트랜스포머 팀이나 정렬(Alignment) 팀도 있나요? 다들 어떻게 협업하나요?

세바스찬 보르고: 아주 높은 수준에서 보면 프리트레이닝 팀과 포스트트레이닝 팀이 있습니다. 프리트레이닝 팀 내에는 데이터, 모델, 인프라, 그리고 평가(Evals)를 담당하는 사람들이 있습니다. 평가는 매우 중요하고 종종 과소평가되지만, 제대로 하기가 정말 어렵습니다. 그리고 물론 인프라와 서빙을 담당하는 큰 팀도 있습니다. 정렬(Alignment)은 주로 포스트트레이닝 단계에 속하지만, 프리트레이닝과 관련된 부분도 분명 있습니다. 자세히 말씀드릴 순 없지만 우리는 그 부분도 고려하고 있습니다.

맷 터크: 핵심 데이터셋이 인터넷이라면 끔찍한 내용들도 많을 텐데요. 정렬의 기초는 그런 것들을 모델에 포함하지 않는 것인가요?

세바스찬 보르고: 흥미로운 질문인데 확정적인 답은 없습니다. 모델이 끔찍한 일을 하기를 원하지 않지만, 근본적인 수준에서는 모델이 그런 것들에 대해 알아야 피할 수 있습니다. 사용자가 끔찍한 것을 언급했을 때 모델이 그게 뭔지도 모른다면, 그게 끔찍하다는 것조차 말할 수 없을 테니까요. 그래서 적어도 어느 정도는 훈련시켜야 합니다.

맷 터크: 제미나이 3 며칠 후에 공개된 '딥씽크(DeepThink, 사고하는 모델)'에 대해 이야기해 봅시다. 이건 다른 모델인가요, 아니면 같은 모델의 일부인가요?

세바스찬 보르고: 구체적인 내용에 대해서는 언급할 수 없습니다. 죄송합니다.

맷 터크: 모델이 생각할 때, 즉 10초나 20초 기다리는 동안 무대 뒤에서는 무슨 일이 일어나나요?

세바스찬 보르고: 생각을 생성하는 것입니다. 모델의 깊이(depth)에서만 연산을 수행하는 게 아니라, 시퀀스 길이 측면에서도 연산을 수행하여 모델이 더 생각하게 하는 것입니다. 모델은 가설을 세우고, 검증하고, 도구를 호출하여 확인하고, 검색을 수행합니다. 그리고 마지막에 사용자에게 확정적인 답을 제공하기 위해 사고 과정을 검토할 수 있습니다. 업계가 '생각의 사슬(Chain of Thought)'이라는 패러다임으로 표준화되고 있는 것 같습니다.

맷 터크: 제미나이 3의 네이티브 멀티모달(native multimodal) 기능에 대해 이야기해보죠. 실질적으로 모델이 텍스트, 이미지, 비디오를 생각한다는 건 무슨 뜻입니까?

세바스찬 보르고: 이미지를 처리하기 위해 훈련된 별도의 모델이 없고, 오디오나 텍스트를 위한 별도 모델도 없다는 뜻입니다. 동일한 신경망 모델이 이 모든 다른 양식(modalities)을 함께 처리합니다.

맷 터크: 비용 측면은 어떤가요? 네이티브 멀티모달이면 토큰 관점에서 더 비싼가요?

세바스찬 보르고: 두 가지 비용이 있습니다. 혜택이 비용보다 크기 때문에 훈련하는 것이지만요. 첫째는 덜 명확할 수 있는 복잡성 비용입니다. 여러 가지를, 특히 서로 다른 양식들이 상호작용하는 것을 다루다 보면 연구의 다른 부분들과 상호작용하며 복잡성 비용이 발생합니다. 두 번째 비용은, 네, 이미지는 텍스트보다 입력 크기가 훨씬 큽니다. 그래서 순진하게 접근하면 실제 계산 비용이 더 높습니다. 물론 여기서 효율적으로 만드는 방법에 대한 흥미로운 연구가 진행되고 있습니다.

맷 터크: 또 다른 고전적인 질문입니다. 우리가 데이터를 다 써버리고 있나요(run out of data)? 합성 데이터 사용이 늘고 있는데, 당신의 업무나 일반적인 관점에서 합성 데이터는 어디에 도움이 되고 어디에 안 되나요?

세바스찬 보르고: 먼저, 제가 아까 '데이터가 제한된(limited) 체제'라고 했을 때, 데이터가 줄어든다는 게 아니라 '유한한(finite)' 데이터 양을 의미한 것입니다. 무한한 데이터에서 유한한 데이터로 패러다임이 바뀌는 것이죠. 모델 아키텍처 연구는 정확히 당신이 언급한 것입니다. 모델 아키텍처를 개선한다는 것은 동일한 양의 데이터로 더 나은 결과를 얻거나, 더 적은 데이터로 동일한 결과를 얻는다는 뜻입니다. 합성 데이터는 흥미롭지만 매우 주의해서 사용해야 합니다. 잘못 사용하기 쉽거든요. 보통 강력한 모델을 사용해 합성 데이터를 만들고 작은 규모로 효과를 검증합니다. 하지만 정말 흥미로운 질문은, 합성 데이터를 생성한 모델보다 더 나은 모델을 훈련시키기 위해 합성 데이터를 생성할 수 있느냐는 것입니다(부트스트래핑). 우리는 이에 대해 많은 시간을 들여 생각하고 연구하고 있습니다. 데이터를 다 써버리고 있냐는 질문에 대해서는, 그렇지 않다고 생각합니다. 더 있습니다. 하지만 그보다 더 중요한 것은, 우리는 지금 유한한 데이터 체제로 넘어가고 있다는 것입니다.

맷 터크: 마지막으로, 앞으로 1~2년 동안 개인적으로 어떤 점이 기대되시나요? 그리고 학생들에게 어떤 문제를 연구하라고 조언하시겠습니까?

세바스찬 보르고: 점점 더 중요해지는 것은 시스템 측면을 인식하면서 연구를 수행할 수 있는 능력입니다. 우리는 매우 복잡한 시스템을 구축하고 있습니다. TPU부터 연구까지 전체 스택이 어떻게 작동하는지 이해하는 것은 일종의 초능력(superpower)입니다. 다른 사람들이 보지 못하는 계층 간의 간극을 찾을 수 있고, 연구 아이디어의 함의를 끝까지 추론할 수 있기 때문입니다. 개인적으로는 여전히 검색(Retrieval) 연구에 관심이 많습니다. RETRO 때는 시기상조였지만 상황이 변하고 있고, 제미나이 같은 선도 모델에 적용 가능해질 수 있다고 생각합니다. 그리고 제미나이 1.5에서 보았듯이 롱 컨텍스트(Long-context) 기능도 중요합니다. 모델의 컨텍스트를 계속 확장할 수 있다면, 모델은 그 컨텍스트 안에서 더 많은 정보를 얻게 되고 일종의 지속적인 학습(continual learning) 효과를 갖게 됩니다. 내년에는 롱 컨텍스트를 더 효율적으로 만들고 길이를 늘리는 혁신이 많이 있을 것입니다. 어텐션 메커니즘 측면에서도 최근 흥미로운 발견들이 있었고, 이는 향후 몇 달간 우리의 연구를 형성할 것입니다. 다시 강조하자면, 이 모든 것은 수많은 작은 것들의 축적입니다. 우리가 고칠 버그, 유망한 연구 등 이 모든 것들이 결합되어 발전을 이끌 것입니다. 저는 내년에도 발전 속도가 느려질 것이라고 보지 않습니다. 개인적으로는 매일 출근해서 정말 똑똑한 사람들과 이야기하고, 제가 몰랐던 것을 배우는 것이 제 일에서 가장 좋아하는 부분입니다.

맷 터크: 마무리하기에 아주 좋은 지점이네요. 세바스찬, 팟캐스트에 나와주셔서 감사합니다. 정말 환상적이었습니다.

세바스찬 보르고: 감사합니다, 맷.

[아웃트로]

맷 터크: 다시 맷 터크입니다. 매드 팟캐스트의 이번 에피소드를 들어주셔서 감사합니다. 즐겁게 들으셨다면 구독해 주시고, 긍정적인 리뷰나 댓글을 남겨주시면 감사하겠습니다. 이는 팟캐스트를 구축하고 훌륭한 게스트를 모시는 데 큰 도움이 됩니다. 감사합니다. 다음 에피소드에서 뵙겠습니다.

전체 0