인터뷰/예측

딥마인드 야오순위 2026년 모델 전망: “finite context로 훈련하고, infinite context처럼 쓰는 방향이 중요하다”

작성자
하이룽룽
작성일
2026-05-11 22:10
조회
5

야오순위:
“pre-training은 아직 벽에 부딪히지 않았다. 내 느낌으로는 앞으로 4개월 동안은 계속 진전이 있을 것이다. 다만 AI 분야에서는 4개월 뒤의 일은 누구도 예측하기 어렵다.”

“AI가 스스로 실험을 하는 것은 이미 어느 정도 일어나고 있다. 하지만 아직은 연구 프로젝트 전체를 처음부터 끝까지 완성하지는 못한다. 코드 작성, 실험 실행, 결과 확인, 분석, 새로운 가설 제시, 다시 실험 설계까지 이어지는 chain은 아직 완성되지 않았다. 하지만 이 chain은 다음 6~12개월 안에 점점 완성될 수 있다.”





1. 자기소개: “나는 원래 AI 사람이 아니라 물리학에서 넘어왔다”

야오순위:
나는 구글 DeepMind, 정확히는 Gemini 쪽에서 연구하고 있다. 실리콘밸리에는 이름이 거의 같은 야오순위가 두 명 있는데, 다른 야오순위는 원래 CS 출신이고 OpenAI를 거쳐 텐센트 AI 수석과학자가 된 사람이다. 나는 그와 다르게 원래 물리학을 했다.

나는 칭화대에서 학부 때 물리학을 했고, 당시에는 응집물질 이론, 특히 위상 절연체와 비에르미트계 같은 주제를 연구했다. 이후 스탠퍼드에서 박사 과정을 하며 고에너지 이론, 양자정보, 블랙홀 관련 분야를 했다. 그 다음 버클리에서 포닥을 아주 잠깐 하다가 Anthropic으로 갔고, 거기서 약 1년 정도 있다가 작년 9월 말에서 10월 초쯤 Gemini에 합류했다.

나와 다른 야오순위의 가장 큰 차이는, 그는 처음부터 컴퓨터과학을 했고 나는 중간에 AI로 넘어온 사람이라는 점이다. 그래서 겉으로 보면 커리어가 비슷해 보여도 실제 배경은 꽤 다르다.



2. 지금 AI는 어떤 단계인가: “이제 문제는 AI가 할 수 있느냐가 아니라, 무엇을 시킬 것인가다”

야오순위:
나는 AI가 “전반전에서 후반전으로 넘어갔다” 같은 표현을 아주 명확하게 이해하지는 않는다. 다만 지금 AI가 확실히 다른 단계에 들어온 것은 맞다.

예전에는 사람들이 “AI가 이걸 할 수 있을까?”를 걱정했다. Anthropic에 있을 때만 해도 OpenAI의 reasoning 능력이 너무 강해 보여서, 우리가 따라잡을 수 있을지, 넘을 수 있을지 걱정했다. 그런데 지금은 Gemini, OpenAI, Anthropic 같은 최상위 연구소들은 적어도 “못 따라잡으면 어떡하지?”를 크게 걱정하지 않는다.

이제 더 어려운 질문은 “무엇을 해야 하는가?”다. 모델 능력은 benchmark 상으로는 점점 비슷해지고 있다. SWE-bench 같은 지표에서 1~2% 차이가 나도 그게 실제로 큰 신호인지 노이즈인지 애매하다. 하지만 실제 사용자 경험에서는 여전히 차이가 난다.

내가 보기에는 Claude는 여전히 tool-use agent, 특히 일반적인 agentic coding 쪽에서 가장 좋은 편이다. Codex는 순수 코딩에서 최근 많이 따라왔다. Gemini는 순수 reasoning이나 일상적 사용에서는 강점이 있지만, coding agent 쪽은 아직 따라잡는 중이다.



3. 모델 차이는 어디서 생기는가: “우선순위와 데이터, 그리고 정의되지 않은 문제에서 차이가 나온다”

야오순위:
과거에는 모델 차이가 상당 부분 우선순위에서 나왔다. Claude는 오래전부터 tool-use와 coding을 중요하게 봤고, OpenAI는 한동안 reasoning을 강하게 밀었다. 우선순위를 어디에 두느냐에 따라 인프라, 데이터, 평가 방식이 달라진다.

그런데 지금은 단순히 우선순위만으로 설명하기 어렵다. benchmark상으로는 다들 비슷해졌기 때문에, 이제는 “어떤 행동을 모델에게 원하느냐”를 정확히 정의하는 것이 훨씬 중요해졌다.

예전에는 “모델이 코드를 잘 쓴다”는 현상도 처음에는 명확히 이해되지 않았다. 나중에 보면 이유가 의외로 단순할 수 있다. 예를 들어 웹에서 무작위로 데이터를 모으면 GitHub 데이터의 품질이 일반 웹페이지보다 훨씬 높다. 그래서 코드 데이터가 자연스럽게 더 좋은 훈련 신호가 됐을 수 있다.

AI에서는 이런 식으로 나중에 돌아보면 “아, 그 이유였구나” 싶은 것들이 많다.



4. OpenClaw, Manus 같은 agent 제품에 대해: “기술적으로 놀랍다기보다 가능성을 보여준 사건이다”

야오순위:
OpenClaw 같은 제품이 밖에서는 굉장히 크게 화제가 되었지만, 업계 내부에서는 그렇게까지 놀라운 일은 아니었다. 이미 내부적으로 비슷한 실험이나 데모를 해본 사람들은 많았을 것이다. 다만 제품으로 잘 포장하고 출시하지 않았을 뿐이다.

OpenClaw의 초기 코드는 아주 깔끔한 수준은 아니었지만, 중요한 것은 “이런 방식이 가능하다”는 점을 보여줬다는 것이다. 모델이 여러 도구를 쓰고, 여러 작업을 통합하고, 긴 시간축의 작업을 처리할 수 있다는 가능성을 사람들이 체감하게 만들었다.

Manus와 OpenClaw 사이의 질적 차이가 무엇인지는 솔직히 나도 완전히 이해하지 못했다. 왜 Manus가 그 정도까지 못 갔고 OpenClaw가 더 크게 터졌는지 명확히 설명하기 어렵다. 어쩌면 제품화와 타이밍의 차이일 수도 있다.



5. wrapper 스타트업의 운명: “모델 회사의 중력권에서 벗어나기 어렵다”

야오순위:
지금 많은 AI wrapper 회사들은 결국 모델 회사의 영향권 안에 있다. Manus나 OpenClaw가 결국 대형 모델 회사에 팔렸다는 것은, product wrapper만으로 장기적인 moat를 만들기 어렵다는 것을 보여준다.

wrapper 회사가 살아남으려면 두 가지 길이 있을 수 있다. 하나는 Cursor처럼 엄청나게 빠르게 성장해서, 모델 회사가 따라오기 전에 사용자 마음속에 자리를 잡고, 이후 자기 모델까지 갖추는 길이다. 하지만 Cursor조차 지금 위기감을 느끼고 있다. Anthropic이 Claude Code를 직접 만들면서 Cursor와 Anthropic의 관계는 협력에서 경쟁으로 바뀌고 있다.

다른 길은 시장이 충분히 작아서 대형 모델 회사가 굳이 들어오고 싶어 하지 않는 영역을 잡는 것이다. Midjourney가 그런 예에 가깝다. Gemini가 마음먹으면 비슷한 것을 만들 수도 있겠지만, 시장이 너무 작으면 굳이 많은 자원을 쓰지 않을 수 있다.



6. 2026년 모델 전망: “finite context로 훈련하고, infinite context처럼 쓰는 방향이 중요하다”

야오순위:
내가 중요하게 보는 방향 중 하나는 “훈련은 유한한 context로 하지만, 사용은 거의 무한한 context처럼 하는 것”이다. 모델이 장기간 사용자와 상호작용하면서 중요한 정보는 기억하고, 중요하지 않은 것은 버리고, 필요할 때 다시 검색하는 방식이다.

이게 실현되면 사람들이 꿈꾸는 개인 비서에 가까워질 수 있다. 기술적으로는 올해 안에 어떤 형태로든 실현될 가능성이 높다고 본다. 다만 어떤 접근법이 가장 좋은지는 아직 합의가 없다. pre-training 쪽 접근도 있고, post-training 쪽 접근도 있으며, context management나 retrieval을 활용하는 접근도 있다.

나는 개인적으로 post-training 쪽 접근에 더 관심이 있다. 인간도 사실 context가 매우 짧다. 어젯밤에 뭘 먹었는지도 기억하지 못할 수 있다. 중요한 것은 모든 것을 기억하는 게 아니라, 현재 상황에 필요한 정보를 선택적으로 잊고, 선택적으로 다시 불러오는 능력이다.



7. 모델 발전 속도: “전혀 느려지지 않았다”

야오순위:
모델 발전이 느려졌느냐고 묻는다면, 내 대답은 전혀 아니다. benchmark만 보면 느려진 것처럼 보일 수 있다. 예를 들어 SWE-bench가 100%에 가까워지면 당연히 숫자상 개선 폭은 줄어든다. 하지만 사용자가 체감하는 능력 개선은 꼭 그렇게 선형적으로 줄어들지 않는다.

내가 연구자로서 느끼는 것은, 모델의 “학습 능력”이 점점 좋아지고 있다는 것이다. 예전에는 모델에게 어떤 행동을 배우게 하려면 많은 노력이 필요했는데, 지금은 문제를 명확히 정의하고 좋은 데이터를 만들면 모델이 훨씬 쉽게 배운다.

또 하나 중요한 점은 pre-training이 아직 끝나지 않았다는 것이다. 몇 달 전만 해도 scaling law가 한계에 도달했다는 이야기가 많았지만, 내 경험상 아직 아니다. 적어도 앞으로 몇 달 동안은 pre-training에서도 계속 진전이 있을 것으로 본다.

많은 사람들이 벽에 부딪혔다고 느끼는 이유는, 실제로는 scaling law가 끝나서가 아니라 실험 어딘가에 bug가 있기 때문인 경우가 많다. 어떤 token horizon을 잡았는지, 데이터 분포를 어떻게 구성했는지, 실험 조건이 제대로 통제됐는지 같은 부분에서 문제가 생길 수 있다.



8. bug와 연구 시스템: “벽이 아니라 bug일 수 있다”

야오순위:
무언가 예측과 다르게 나왔을 때 “아, 벽에 부딪혔다”고 말하는 사람도 있고, “어딘가 bug가 있겠구나”라고 생각하는 사람도 있다. 나는 후자의 태도가 중요하다고 본다.

Gemini와 Anthropic이 잘하는 부분은, 특히 pre-training에서 어떤 scale에서 예상과 다른 행동이 나왔을 때 합리적인 ablation experiment를 설계해 원인을 체계적으로 찾는 것이다. 어떤 요인이 실제 원인인지, 어떤 요인은 아닌지 하나씩 제거해보는 태도가 중요하다.

AI 연구는 거대한 시스템이다. 단순히 “이 알고리즘이 좋다” 같은 식으로 말하면 안 된다. 어떤 인프라에서, 어떤 데이터에서, 어떤 sampling 구조에서, 어떤 training 구조에서 효과가 나는지를 전체적으로 봐야 한다.



9. compute, data, algorithm: “명확한 패러다임 안에서는 compute와 data가 주된 동력이다”

야오순위:
지금 우리가 비교적 명확히 알고 있는 framework, 예를 들어 pre-training과 post-training, RL 기반 post-training, supervised learning 기반 post-training 안에서는 compute와 data가 주요 동력이다. compute가 늘어나면 더 많은 데이터를 끌어들이고, 데이터가 늘어나면 더 많은 compute가 필요해진다.

algorithm은 phase transition처럼 작동할 때가 있다. 아직 무엇을 해야 할지 모를 때는 알고리즘 breakthrough가 결정적이다. Transformer가 그런 예다. Transformer가 등장하기 전에는 scale-up 자체가 어렵거나 불확실했다. 하지만 Transformer 이후에는 알고리즘 개선이 더 점진적인 효율 개선의 형태가 됐다.

반면 multimodal generation 같은 영역은 아직 과학적으로 완전히 정리되지 않은 문제에 가깝다. 언어 모델 pre-training은 지금은 과학적으로 상당히 명확한 framework가 있지만, multimodal generation은 아직 패러다임이 고정되지 않았다.



10. 코딩이 왜 가장 빨리 발전했나: “피드백 신호가 명확하고 GitHub라는 데이터 기반이 있다”

야오순위:
코딩이 빠르게 발전한 이유는 두 가지가 크다.

첫째, feedback signal이 매우 명확하다. 코드는 입력과 출력이 있고, 테스트를 통과하면 성공이고 실패하면 실패다. 소프트웨어 엔지니어링 작업에는 이런 명확한 피드백 신호가 많다.

둘째, GitHub라는 엄청난 데이터 기반이 있다. 수십 년 동안 뛰어난 프로그래머들이 작성한 고품질 코드가 축적되어 있고, 그 코드로부터 수많은 환경과 훈련 데이터를 만들 수 있다.

제품 관점에서도 코딩은 유리하다. 좋은 코드에 대한 기준은 비교적 합의되어 있다. 간결하고, 구조가 명확하고, 유지보수가 가능하고, 합리적인 abstraction이 있는 코드가 좋은 코드다. SNS나 게임처럼 취향이 매우 다양한 시장과 다르다.



11. AI가 코드를 얼마나 쓰는가: “내 코드의 90% 이상은 모델이 쓴다”

야오순위:
내가 실제로 손으로 쓰는 코드는 보수적으로 말해도 10% 이하일 것이다. 모델이 90% 이상을 쓴다. 더 과감하게 말하면 99%나 100%에 가까울 수도 있다.

중요한 것은 이제 코드를 직접 타이핑하는 능력이 아니라, 어떤 구조로 설계할지, 어떤 파일과 상호작용해야 하는지, 어떤 context를 모델에게 줄지 결정하는 능력이다. 모델이 출력하는 코드를 검토하고, 그것이 내가 원한 것인지, 합리적인지, 향후 개발에 맞는지 판단하는 것이 중요해졌다.

생산성은 엄청나게 올랐다. 아이디어를 실험으로 구현하는 속도만 보면 1년~1년 반 전보다 20배, 50배 빨라졌을 수도 있다. 여러 모델 인스턴스를 동시에 열고 여러 아이디어를 병렬로 테스트할 수 있다.

하지만 역설적으로 근무 시간은 더 길어졌다. 개발 속도가 빨라지니까 더 많은 아이디어를 시험하고 싶어진다. 예전에는 모르는 파일이 있으면 사람을 찾아 물어봐야 했는데, 지금은 Claude나 Gemini에게 물으면 몇 초 만에 설명해준다. 그러니 계속 앞으로 나아가게 된다.



12. 프로그래머의 미래: “완전히 한순간에 사라지진 않지만, 점진적으로 대체될 것이다”

야오순위:
프로그래머가 완전히 대체되는 날은 올 것이라고 생각한다. 하지만 어느 날 밤 자고 일어났더니 모든 프로그래머가 해고되는 식은 아닐 것이다. 점진적인 과정이다.

미래에는 과거에 많은 프로그래머가 하던 “관리자가 시킨 구현 계획을 다음 주 금요일까지 만들어오는 일”은 사라질 가능성이 크다. 남는 사람은 AI와 효과적으로 협업할 줄 아는 사람일 것이다.

미래의 좋은 프로그래머는 기술적으로 강해야 한다. 기술적으로 약하면 AI가 대체하지 못할 이유가 없다. 하지만 기술력만으로 충분하지는 않다. 큰 조직 안에서 자신의 작업이 어떤 의미를 갖는지 이해하고, 복잡한 일을 작은 단위로 나누어 여러 AI에게 맡길 수 있는 planning 능력도 중요하다.

다만 이 전망도 6개월 뒤에는 달라질 수 있다. 지금 인간이 해야 한다고 생각하는 것 중 일부를 6개월 뒤에는 AI가 할 수 있을지도 모른다.



13. 로봇과 멀티모달: “로봇은 아직 GPT-1 순간에도 도달하지 못했다”

야오순위:
중국의 휴머노이드 로봇을 보면서 하드웨어 가격이 생각보다 훨씬 싸서 놀랐다. 중국의 하드웨어 공급망은 매우 강하다. 하지만 소프트웨어와 generalization 측면에서는 아직 갈 길이 멀다.

로봇 모델은 아직 feature engineering 시대에 더 가깝다. 특정 환경, 특정 시나리오에서는 최적화할 수 있지만, 하나의 수준에서 개선하면 모든 능력이 함께 올라가는 단계에는 도달하지 못했다.

언어 모델은 Transformer와 GPT 이후 그런 threshold를 넘었다. 한 수준에서 개선하면 다양한 능력이 함께 올라간다. 하지만 로봇은 아직 그 단계가 아니다. 내 느낌으로는 로봇은 아직 GPT-1 moment에도 도달하지 못했다.

다만 robotics lab은 매우 흥미롭다. 언어 모델 lab은 그냥 사무실 같은데, robotics lab은 사람들이 실제 로봇을 조종하고 데이터를 수집하고, 로봇이 물건을 집거나 옷을 접는 장면을 볼 수 있다. 훨씬 재미있다.



14. 물리학에서 AI로 넘어온 이유: “AI는 18세기 물리학 같다”

야오순위:
나는 AI를 18세기 물리학과 비슷하다고 느낀다. 당시에는 이론과 실험이 분리되어 있지 않았다. 그냥 물리학을 했다. 직접 실험하고, 이론적으로 추측하고, 다시 실험했다.

AI도 비슷하다. 아이디어가 있고, 숫자로 실험해보고, 모델을 훈련시켜 확인한다. 이 점에서 이론물리학에서 AI로 넘어오는 것은 생각보다 자연스러웠다.

오히려 이론물리학에서 실험물리학으로 넘어가는 것보다 AI로 넘어가는 게 더 가까웠다. 양자컴퓨팅도 고려했지만, 지금 양자컴퓨팅의 병목은 주로 실험 쪽이다. 나는 광학 테이블을 만들거나 실제 물리 실험 장비를 다루는 데 큰 관심이 없었다. AI는 numerical experiment에 가깝기 때문에 내가 이해하기 훨씬 쉬웠다.



15. AI는 black box인가: “모든 세계는 어느 정도 black box다”

야오순위:
사람들은 AI를 black box라고 부르지만, 사실 이 세계의 많은 것도 black box다. 물리학도 미시적 행동부터 거시적 현상까지 완전히 이해하는 것은 아니다. 양자역학이나 양자장론도 특정 에너지 scale에서의 행동을 설명하는 effective theory다.

AI도 마찬가지다. 우리는 대형 language model을 신경외과 수준으로 이해하지 못한다. 어떤 뉴런의 어떤 activation이 어떤 행동을 만든다는 수준까지 알지는 못한다. 하지만 그렇다고 아무 이해도 없는 것은 아니다.

Scaling law는 모델 크기와 데이터, 성능의 관계를 설명한다. 이것도 일종의 경험 법칙이다. 과거 열역학 법칙들도 처음에는 경험 법칙이었다가, 나중에 미시적 메커니즘이 이해되면서 과학 법칙으로 자리 잡았다. Scaling law도 언젠가 그런 식으로 더 깊이 이해될 수 있다.



16. intelligence emergence에 대해: “그 말 자체가 별로 과학적이지 않다”

야오순위:
“지능의 emergence”라는 표현은 나에게는 별로 과학적으로 느껴지지 않는다. 사람마다 뜻하는 바가 다르다.

내가 보기에는 진짜 중요한 것은 “기술적 emergence”다. 즉, 대규모 훈련을 통해 여러 능력을 동시에 끌어올릴 수 있는 방법을 발견했느냐가 핵심이다. 예전 모델은 번역, 분석 같은 특정 작업만 잘했지만, 지금은 하나의 큰 훈련 패러다임으로 여러 능력을 함께 올릴 수 있게 됐다. 이것이 더 본질적인 변화다.



17. Anthropic에 들어간 과정: “불확실하지만 좋은 기회라고 생각했다”

야오순위:
AI로 가기로 마음먹었을 때 Anthropic, OpenAI, Google DeepMind에 연락했다. Google DeepMind는 당시 프로세스가 너무 느렸다. OpenAI도 이야기했지만 프로젝트와 사람 면에서 잘 맞는 느낌은 아니었다.

Anthropic에서는 당시 large-scale reinforcement learning을 하려 하고 있었다. o1이 아직 공개되기 전이었고, 업계 전체가 대규모 RL을 어떻게 해야 하는지 완전히 알지 못하던 시기였다. 그래서 불확실하지만 좋은 기회라고 느꼈다.

면접 준비는 거의 독학이었다. 가능한 강의를 찾아 듣고, 과제를 풀고, Andrej Karpathy의 nanoGPT 같은 것을 직접 구현해봤다. 그리고 Anthropic에 들어가게 됐다.



18. Anthropic 문화: “강한 실행력과 top-down bet이 있었다”

야오순위:
Anthropic에 처음 들어갔을 때 인상은 실행력이 매우 강한 회사라는 것이었다. 비교적 top-down 방식으로 중요한 것이 정해지면 모두가 거기에 집중했다. 회사가 작았기 때문에 서로를 알고, 숨기는 것이 별로 없었고, 분위기도 좋았다.

Anthropic이 coding에 강하게 베팅할 수 있었던 것은 조직 구조와 문화 덕분이라고 본다. top-down 방식이 작동하려면 기술적 결정을 하는 사람이 실제 회사의 의사결정권도 가져야 한다. Anthropic에는 Jared Kaplan, Sam McCandlish 같은 기술 리더들이 공동창업자였고, 그들이 기술적으로도 신뢰받고 회사 결정권도 가지고 있었다.

OpenAI는 이런 구조가 어렵다. Ilya가 있을 때는 가능했을 수도 있지만, 이후에는 상황이 달라졌다. Gemini도 어렵다. 다만 Gemini는 대기업으로서 완전히 다른 playbook을 가지고 있다.

스타트업은 bet을 해야 한다. 빠르게 위험을 감수하고 한 방향으로 밀어붙여야 한다. 대기업은 여러 방향에 자원을 깔아두고, 어떤 것이 성공하면 따라잡는 방식이 가능하다.



19. Claude 3.7과 대규모 RL: “post-training의 watershed였다”

야오순위:
내가 Anthropic에서 참여한 중요한 흐름은 Claude 3.7 관련 대규모 reinforcement learning이었다. Claude 3.7은 Anthropic의 post-training 관점에서 watershed였다.

그 전의 post-training은 상대적으로 작은 규모였고, 모델을 patching하는 느낌이 강했다. 하지만 Claude 3.7 시점에는 대규모 RL을 어떻게 scale할 것인지가 핵심이었다.

중요한 것은 피드백 신호가 명확하고, 데이터 자체가 강한 환경을 찾는 것이다. coding은 그런 조건을 만족했다. coding은 도구 사용과 환경 상호작용을 연구하기 위한 좋은 abstraction이었다. feedback signal이 명확하고 데이터가 풍부하기 때문이다.

구체적인 know-how는 회사 내부 내용이라 말할 수 없지만, 내가 중요하다고 생각하는 것은 “단순한 것을 누구보다 깨끗하게 하는 것”이다. 화려한 알고리즘보다 안정적인 시스템, 적절한 trade-off, 깨끗한 구현이 훨씬 중요하다.



20. “AI 시대는 개인 영웅주의의 시대가 아니다”

야오순위:
나는 내가 참여한 모델이 나 없었으면 안 됐을 것이라고 생각하지 않는다. Anthropic이든 Google이든, 내가 없어도 그 프로젝트는 진행됐을 것이다. 나는 운 좋게 중요한 시기에 중요한 프로젝트에 참여했을 뿐이다.

언어 모델에서 개인 영웅주의의 시대는 Transformer 순간에 가까웠다고 본다. 기술이 아직 scale-up 단계에 들어가기 전에는 어떤 breakthrough를 발견한 개인이나 작은 그룹이 영웅이 될 수 있다. 하지만 그 이후에는 collective work가 훨씬 중요하다.

AI는 지금 거대한 파도다. 우리는 surfer일 뿐이다. 파도 자체는 AI이고, 우리가 타든 말든 그 파도는 해안에 도달한다. 누군가는 crest를 잘 타고, 누군가는 조금 늦게 탈 뿐이다.



21. Anthropic을 떠난 이유: “중국에 대한 Dario의 태도와 더 넓게 배우고 싶다는 욕구가 있었다”

야오순위:
Anthropic을 떠난 이유는 여러 가지였다. 하나는 Dario의 반중국적 태도에 동의하지 않았다는 점이다. 개인이 어떤 견해를 갖는 것은 괜찮지만, 회사 CEO로서 그 입장을 너무 극단적으로 밀어붙이는 것은 감정적인 반응처럼 느껴졌다. 이 이유가 전부는 아니지만 꽤 큰 비중을 차지했다.

더 큰 이유는 더 넓은 것을 배우고 싶었기 때문이다. Anthropic은 언어 모델과 coding, agentic tool-use에 매우 집중되어 있다. 그 점은 좋지만, multimodal generation이나 더 낮은 수준의 engineering infrastructure 같은 것은 배우기 어렵다.

나는 그 시점에 다른 것을 배우고 싶었다. 그래서 Gemini로 갔다.



22. Google DeepMind로 간 이유: “Gemini는 수평적으로 배울 것이 많다”

야오순위:
Gemini에 간 이유는 연구 자유도와 학습 폭 때문이다. 만약 내가 “내 아이디어를 바로 제품 모델에 넣고 싶다”는 마음이 강했다면 Google은 좋지 않은 선택이었을 수 있다. 연구자가 많고 조직이 복잡하기 때문이다.

하지만 내가 원한 것이 더 넓은 연구 자유와 다양한 분야의 사람들에게 배우는 것이라면, Gemini만큼 좋은 곳은 거의 없다. Anthropic은 한 줄을 깊게 파는 곳이다. 언어 모델의 한 vertical을 아주 깊이 이해할 수 있다. Google은 더 horizontal하다. 서로 다른 연구 방향과 관점을 볼 수 있다.



23. Gemini의 반전: “Nano Banana와 Gemini 3가 함께 전환점을 만들었다”

야오순위:
Gemini가 시장에서 진짜 heavyweight player가 된 것은 두 가지가 연달아 일어났기 때문이라고 본다. 하나는 Nano Banana이고, 다른 하나는 Gemini 3다.

Gemini 3만 있었다면 효과가 그렇게 크지 않았을 수 있다. 시장점유율이 낮으면 모델이 조금 좋아져도 확산 속도가 느리다. 그런데 Nano Banana가 먼저 바이럴을 일으키면서 많은 사람이 Gemini 앱을 다운로드했다. 그 직후 Gemini 3가 나오면서 사용자를 붙잡았다.

Google의 기술적 reserve는 원래 충분했다. talent도 많았다. 문제는 조직이 너무 혼란스러웠다는 점이다. 그런데 점점 조직이 명확해졌고, 특히 pre-training 쪽은 누가 무엇을 책임지는지 훨씬 분명해졌다.

Google은 deterministic한 engineering project에 매우 강하다. pre-training은 이제 어느 정도 그런 영역에 들어왔다. 명확한 framework, 평가 방식, 책임 구조를 세우면 Google이 잘하는 방식으로 밀어붙일 수 있다.



24. OpenAI, Anthropic, Google의 차이

야오순위:
OpenAI는 제품과 브랜드가 강하다. 하지만 내가 떠날 당시에는 문화에 대한 우려가 있었다. 실제로 일을 끝까지 해내는 사람이 Gemini나 Anthropic보다 많지 않다고 느꼈다.

Anthropic은 강한 bet과 실행력이 있다. technical leader와 회사 decision-maker가 연결되어 있고, 창업팀 사이의 신뢰가 강하다. 그래서 한 방향으로 강하게 밀 수 있다.

Google은 전통적으로 제품은 느리지만, 기술이 제품으로 직접 spill over되는 영역에서 강하다. 검색이 그랬다. 모두가 같은 검색창을 갖고 있어도 Google은 더 빠르고 정확하게 검색했다. AI에서도 product form이 단순해지고 기술 경쟁이 중요해지면 Google이 강해질 수 있다.

나는 현재 누구의 지위도 안전하다고 보지 않는다. AI의 최종 형태가 아직 정해지지 않았기 때문이다. 지금의 chatbot이 ultimate form인지도 모르겠다. 모델이 이렇게 많은 능력을 갖고 있는데, 우리가 여전히 chat box로만 쓰는 것은 어딘가 이상하다.



25. AI safety에 대한 생각: “한 회사가 멈춘다고 AI가 멈추지 않는다”

야오순위:
Anthropic은 AI safety를 중요한 동기로 세워진 회사다. Anthropic의 논리는 “최첨단 모델을 가져야 safety agenda를 밀 수 있다”는 것이다. 즉, 세계 최고의 모델을 만들면 다른 사람들이 내 말을 들을 것이라는 생각이다.

나는 이 생각이 다소 순진하다고 본다. 지금은 여러 회사가 frontier model을 만들고 있고, 한 회사가 무언가를 막을 수 있는 구조가 아니다. Anthropic이 멈춰도 다른 회사가 계속한다. 그러면 목소리만 작아질 뿐이다.

AI 위험을 줄이려면 특정 회사의 선의에 의존하는 것보다 self-enforcing mechanism이 필요하다. 핵무기처럼 여러 세력이 서로를 견제하는 balance of power에 가까운 방식이 필요할 수 있다.



26. AI 연구자가 갖춰야 할 자질: “똑똑함보다 reliability가 중요하다”

야오순위:
AI는 생각보다 머리가 많이 필요한 분야가 아니다. 정말로 아주 깊은 천재성이 필요한 부분은 많지 않다. 많은 아이디어는 undergraduate도 생각할 수 있다.

이 산업에서 가장 중요한 자질은 reliability, detail-oriented함, 그리고 자신이 하는 일에 책임지는 태도다. 단순한 일을 반복해서 깨끗하게 하는 것이 가장 어렵다. 사람의 본성은 반복적인 일을 싫어하고, 자기 성과를 더 좋아 보이게 만들고 싶어 한다. 하지만 회사 전체 시스템을 위해서는 자신의 metric이 아니라 전체 시스템이 제대로 작동하는지를 봐야 한다.

좋은 연구자는 자신이 한 일이 large scale에서도 효과적인지, 어떤 factor를 놓쳤는지, training만 좋고 sampling까지 포함하면 나쁜 것은 아닌지 스스로 생각해야 한다. 이제 회사에서의 AI 연구는 학계 연구와 다르다. 학계에서는 자기 프로젝트와 재현성에 책임지면 되지만, 회사에서는 전체 시스템에 책임져야 한다.



27. 좋은 AI 연구자 면접법: “24시간 안에 RL 프로젝트를 완성하게 한다”

야오순위:
나는 예전에 면접 질문으로 24시간 안에 처음부터 reinforcement learning 프로젝트를 하나 완성하게 했다. 사용할 수 있는 resource를 알려주고, 어떤 모델, 데이터, 알고리즘을 쓸지는 지원자가 정하게 한다. 24시간 뒤에는 나와 한 시간 동안 토론한다.

AI 시대에는 이것이 불가능한 과제가 아니다. AI가 많은 코드를 작성해줄 수 있기 때문이다. 하지만 함정이 있다. AI에게 전부 맡기고 자신이 이해하지 못하면, 한 시간 토론에서 바로 드러난다.

이 과제는 두 가지를 본다. 하나는 AI를 효과적으로 활용할 수 있는가. 다른 하나는 AI와 진짜 협업했는가, 아니면 그냥 떠넘겼는가. 나는 이 차이를 매우 중요하게 본다.

또 솔직히 24시간이라는 시간 제한에는 약간 어두운 의도도 있다. 이 사람이 이 기회를 얼마나 중요하게 생각하는지, 밤을 새워서라도 해낼 의지가 있는지도 보려는 것이다.



28. 젊은 사람들에게: “언어 모델 막차는 거의 떠났지만 AI 전체는 아직 넓다”

야오순위:
순수 language model만 놓고 보면 이제 blue ocean은 아니다. 마지막 열차는 이미 떠났다고 본다. 나는 운 좋게 그 마지막 열차에 탔다. 지금 새로 들어오는 사람들은 작은 팀에서 큰 기회를 잡는 경험을 하기가 점점 어려워질 것이다.

하지만 AI 전체는 매우 넓다. language model은 그중 아주 작은 부분이다. multimodal generation에는 아직 기회가 많다. robotics에는 더 많은 기회가 있을 수 있다. AI로 실제 과학 문제를 푸는 것, 예를 들어 quantum control 같은 분야도 blue ocean일 수 있다.

젊은 사람이라면 지금 가장 뜨거운 것을 따라가는 것이 꼭 좋은 선택은 아닐 수 있다. 지금 아무도 하지 않는 것을 하는 것이 더 좋은 선택일 수 있다.



29. 앞으로의 관심사: “ML coding과 long horizon”

야오순위:
지금 내가 가장 중요하게 보는 것은 두 가지다. 하나는 ML coding, 다른 하나는 long horizon이다.

ML coding은 AI가 AI 연구 과정을 더 많이 자동화하는 방향이다. 단순히 코드를 쓰는 것이 아니라, 실험을 설계하고, 실행하고, 결과를 보고, 분석하고, 새로운 가설을 세우고, 다시 실험하는 전체 loop를 완성하는 것이다. 지금은 이 chain이 아직 완전히 닫히지 않았다. 하지만 6~12개월 안에 점점 완성되어 갈 수 있다고 본다.

Long horizon은 모델이 긴 시간축의 작업을 수행하는 능력이다. 단일 context window를 무작정 늘리는 것이 답은 아닐 수 있다. 더 현실적인 방향은 제한된 context 안에서 중요한 정보를 저장하고, 중요하지 않은 것은 버리고, 필요할 때 다시 가져오는 방식이다.

이 두 방향은 서로 연결되어 있다. 둘 다 모델이 도구를 쓰고, 환경과 상호작용하고, 장기적인 작업을 수행하는 문제다.



30. 마지막 인상적인 메시지

야오순위:
AI 시대는 개인 영웅주의의 시대가 아니다. 지금은 파도가 너무 크다. 중요한 것은 내가 얼마나 천재냐가 아니라, 이 거대한 시스템 안에서 얼마나 책임감 있게, 세밀하게, 안정적으로 일을 해내느냐다.

나는 AI가 본질적으로 아주 어려운 분야라고 생각하지 않는다. 어렵다기보다는, 해볼 아이디어가 너무 많고, 실험할 것이 너무 많다. 벽에 막혔다기보다 아직 해보지 않은 것이 많다.

그래서 지금 필요한 사람은 거창한 말을 많이 하는 사람이 아니다. 단순한 것을 깨끗하게 하고, 시스템 전체를 생각하고, 자신이 한 일에 책임지는 사람이다. AI 연구에서 가장 중요한 것은 결국 reliability다.
전체 1

  • 2026-05-11 22:25

    컨텍스트 부분에서 진전이 있다고 해석 하겠음