인터뷰/예측
OpenAI의 얀 뒤부아(Yann Dubois): AI의 발전이 갑자기 현실처럼 느껴지는 이유
작성자
하이룽룽
작성일
2026-05-23 21:53
조회
2
OpenAI 얀 뒤부아 인터뷰 상세 정리
“AI 발전이 왜 갑자기 현실처럼 느껴지는가”
진행자:최근 몇 주 동안 프런티어 AI 세계가 또 한 번 크게 흔들렸습니다. GPT-5.5가 출시됐고, Claude Mythos preview도 나왔죠. 특히 사이버 보안, 에이전트 코딩 쪽에서 또 하나의 단계적 도약이 일어난 것처럼 느껴집니다. 지금 무슨 일이 벌어지고 있는 건가요? AI 발전이 가속하고 있는 건가요?
얀 뒤부아:
네, 지난 몇 달은 정말 거칠고 빠르게 흘러갔습니다. OpenAI 내부에서도 확실히 그렇게 느끼고 있습니다. 특히 코딩을 하는 사람이라면 지금 변화를 매우 강하게 체감하고 있을 겁니다.
제가 보기에는 세 가지 이유가 있습니다.
첫째, 모델의 능력 자체는 사실 연속적으로 발전해왔습니다. 그런데 AI 도구가 정말 유용해지려면 일정 수준 이상의 신뢰성에 도달해야 합니다. 그 문턱을 아마 작년 12월쯤, 적어도 OpenAI 내부에서는 넘었다고 생각합니다. 이제는 모델들이 우리가 하는 많은 작업을 실제로 맡길 수 있을 정도로 믿을 만해졌습니다. 그래서 능력 발전은 연속적이었지만, 사용자 입장에서는 갑자기 단계적으로 도약한 것처럼 느껴지는 겁니다.
둘째, 모델이 좋아지면 그 모델을 이용해서 우리 자신도 더 빨라집니다. 특히 코딩에서는 내부 연구자들도 모두 코딩을 하기 때문에, 모델이 더 좋아지면 다른 모델을 훈련시키는 데도 도움이 되고, 연구자들이 일하는 데 필요한 도구를 만드는 데도 도움이 됩니다. 그러면 전체 개발 속도가 다시 빨라집니다.
셋째, 작년 내내 우리는 reasoning model, 즉 추론 모델을 기반으로 많은 작업을 했고, 특히 강화학습을 크게 밀었습니다. 처음 o1, o1-preview, o3 같은 모델은 주로 정답을 검증할 수 있는 문제에 최적화돼 있었습니다. 예를 들어 수학 문제나 코딩 대회 문제처럼, 맞았는지 틀렸는지 확실히 확인할 수 있는 문제들이죠. 그런데 지금은 그때 만든 도구들을 현실 세계의 실제 사용 사례에도 적용할 수 있게 됐습니다. 그래서 단순한 대회 문제에서 벗어나 실제 사용자에게 유용한 방향으로 이동했고, 지금 우리가 체감하는 변화가 바로 그것입니다.
모델의 “신뢰성”이 왜 중요한가
진행자:방금 신뢰성 이야기를 했습니다. 여기서 말하는 신뢰성은 엔지니어링 문제인가요, 모델 자체의 문제인가요? 모델을 신뢰할 수 있게 만든다는 건 구체적으로 무슨 뜻인가요?
얀 뒤부아:
조금씩 전부 관련이 있습니다. 하지만 제가 말하는 건 특히 모델 자체의 신뢰성입니다.
에이전트형 모델을 생각해보면, 모델이 2분마다 어떤 행동을 한다고 합시다. 매 2분마다 틀릴 확률이 조금이라도 있으면, 모델이 오래 실행될수록 최종 결과가 틀릴 확률은 점점 커집니다. 이것은 에이전트형 모델의 본질적인 문제입니다.
그래서 우리가 많이 밀고 있는 것은, 모델이 매 단계에서 틀릴 확률을 낮추는 것입니다. 물론 제품 측면에서도 신뢰성을 높이기 위한 많은 엔지니어링이 필요합니다. OpenAI의 응용팀도 그 부분에서 훌륭한 일을 하고 있습니다. 하지만 제가 말한 신뢰성은, 순수하게 모델 관점에서 “잘못될 확률을 줄이는 것”에 가깝습니다.
GPT-5.5에서 OpenAI가 가장 자랑스러워하는 점
진행자:GPT-5.5는 내부적으로 spud라고 불렸던 모델이고, 꽤 큰 사건이었습니다. 내부에서 가장 자랑스러웠던 점은 무엇인가요? 무엇이 가장 어려웠나요?
얀 뒤부아:
우리는 GPT-5.5에 정말 많이 흥분했습니다. 이 모델은 회사 전체가 매우 깊게 관여해서 만든 모델입니다. 지금도 그걸 느낍니다. GPT-5.5가 많은 관심을 받았고, 이번에는 모든 별들이 잘 정렬된 것 같은 느낌이었습니다. 항상 그렇게 되는 건 아닙니다.
흥미로운 점은, 내부에서 좋은 모델이 일찍 보이면 처음에는 모두가 흥분합니다. 그런데 곧 의심이 생깁니다. “이 모델이 정말 좋은가? 다른 부분에서는 나쁘지 않은가?”라는 이야기가 나오죠. 그러다가 다시 기대감이 낮아지고, 또 다시 평가가 바뀌는 식으로 파도가 생깁니다. 대부분의 모델에서 이런 일이 일어납니다. GPT-5.5도 크게 다르지는 않았지만, 감정의 진폭이 좀 더 컸던 것 같습니다. 사람들이 굉장히 흥분했다가, 또 덜 흥분했다가, 결국 출시했고 외부 반응은 좋았습니다.
GPT-5.5의 강점: 에이전트 코딩, 컴퓨터 사용, 지식 작업, 과학 연구
진행자:GPT-5.5는 특히 에이전트 코딩, 컴퓨터 사용, 지식 작업, 초기 과학 연구에서 좋았다고 합니다. 내부적으로는 이런 결과를 어떻게 만드나요? 각 영역마다 다른 팀이 있나요?
얀 뒤부아:
네, 특정 사용 사례를 담당하는 여러 팀이 있습니다. 어떤 팀은 특정 vertical, 즉 특정 영역의 개선에 집중합니다.
제 팀은 그런 여러 vertical 개선들을 모아서 최종 모델 안에 잘 통합하는 역할을 합니다. 일종의 smoothing function이라고 볼 수 있습니다. 각 영역에서 따로 개선이 일어나더라도, 최종 모델이 너무 들쭉날쭉하거나 특정 영역에서만 다르게 느껴지면 안 됩니다. 그래서 모델 전체가 일관되게 느껴지도록 만드는 작업이 필요합니다.
또한 제 팀은 horizontal improvement, 즉 여러 영역에 공통적으로 영향을 주는 개선도 담당합니다. 예를 들어 instruction following, function calling, 모델이 문제마다 얼마나 오래 생각해야 하는지 같은 것들이 여기에 해당합니다. 이런 것들은 특정 분야 하나에만 적용되는 게 아니라 전체 사용 사례에 영향을 줍니다.
GPT-5.5에서 자랑스러운 점을 두 가지 꼽자면, 첫째는 효율성입니다. 모델의 효율성이 크게 좋아졌고, 많은 작업에서 대략 2배 더 빠르게 수행한다고 말할 수 있습니다. 둘째는 회사 전체가 하나의 목표를 향해 정렬됐다는 점입니다. 좋은 모델 하나를 특정 일정 안에 만들려면 회사 전체가 하나의 북극성 같은 목표를 향해 움직여야 합니다. 이번에는 그게 정말 잘 됐습니다.
효율성: 더 적은 thinking token으로 같은 성능 내기
진행자:효율성을 어떻게 최적화하나요? 토큰당 효율성인가요? 아니면 지연시간, 즉 latency도 포함하나요? AI 연구와 엔지니어링 중 어느 쪽인가요?
얀 뒤부아:
둘 다입니다. 그래서 회사 전체가 필요합니다.
효율성은 inference 최적화에서도 오고, 모델이 thinking time을 더 효율적으로 쓰는 데서도 옵니다. 우리가 보는 전형적인 그래프가 있습니다. x축은 모델이 생각하는 토큰 수이고, y축은 성능입니다. 이것을 test-time scaling curve라고 볼 수 있습니다.
연구의 목표는 이 곡선을 왼쪽으로 옮기는 것입니다. 즉, 더 적게 생각하면서도 같은 수준의 정답률을 내거나, 더 높은 성능을 내는 것이죠.
반면 inference 쪽은 x축을 단순 토큰 수가 아니라 실제 latency로 바꾸는 역할을 합니다. 결국 사용자가 관심 있는 것은 “얼마나 오래 걸렸는가”와 “얼마나 좋은 답을 냈는가”입니다. GPT-5.5에서는 이 모든 것이 함께 맞물렸습니다.
얀 뒤부아의 역할: post-training frontiers 팀
진행자:당신은 post-training frontiers 팀을 이끌고 있습니다. 이 팀은 정확히 무엇을 하나요?
얀 뒤부아:
크게 세 가지를 합니다.
첫째, 최종 학습 run에 무엇을 넣을지 결정합니다. 여러 vertical 팀이 만든 개선이 있는데, 그중 어떤 것을 넣고 어떤 것을 넣지 않을지 결정해야 합니다. 또한 사람들이 최종 run을 대표할 수 있는 과학 실험을 할 수 있도록 도와야 합니다.
둘째, 모든 것을 실제로 하나로 합쳐서 큰 run을 수행합니다. 많은 GPU를 사용하기 때문에 인프라 작업도 크고, 머신러닝 작업도 큽니다. 여러 개선이 함께 잘 작동하는지 확인해야 합니다.
셋째, 모델의 horizontal improvement를 담당합니다. 예를 들어 모델이 얼마나 오래 생각해야 하는지, instruction following, function calling, memory 같은 것들입니다. 이런 것은 특정 vertical 팀이 깊게 보지 않는 경우가 많기 때문에 저희 팀이 맡습니다.
얀 뒤부아의 배경: Word2Vec에서 OpenAI까지
진행자:OpenAI에 오기까지 어떤 여정을 거쳤나요?
얀 뒤부아:
저는 스위스 출신이고, 스위스에서 biomedical engineering을 전공했습니다. 이후 캐나다 교환학생 시절에 Word2Vec을 알게 됐습니다.
Word2Vec은 단어라는 이산적인 대상을 벡터 공간에 배치하는 알고리즘입니다. 의미가 비슷한 단어는 서로 가까운 위치에 놓이게 되죠. 저는 그 알고리즘에 완전히 매료됐고, 그때 자연어 처리와 언어 이해를 연구하고 싶다고 결심했습니다.
당시 저는 영어 NLP가 거의 해결됐다고 생각했습니다. 2017년쯤이었고, 트랜스포머가 막 나오기 직전이었습니다. 물론 저는 매우 틀렸습니다. 하지만 그래서 저는 데이터가 적은 언어, 즉 under-researched language 쪽에 관심을 갖게 됐습니다.
싱가포르의 Grab에서 근무하며 크메르어, 바하사, 태국어, 베트남어 같은 언어의 NLP 파이프라인을 만들었습니다. 이후 여러 나라에서 학술적인 일을 했고, 스탠퍼드에서 박사과정을 했습니다. 그 뒤 잠깐 스타트업을 하다가 OpenAI에 합류했습니다.
reasoning model의 변화: 수학·코딩 대회에서 현실 세계로
진행자:2026년에 말하는 reasoning은 o1이나 o3 시절의 reasoning과 무엇이 다른가요? GPT-5.5는 messy data, 즉 지저분하고 모호한 데이터에 강하다는 느낌이 있습니다. 무엇이 바뀐 건가요?
얀 뒤부아:
o1과 o1-preview는 모델이 생각할 수 있고, 더 오래 생각할수록 정답 가능성이 높아진다는 점에서 연구 커뮤니티에 큰 돌파구였습니다.
하지만 초기에는 주로 수학 평가나 코딩 대회처럼 정답 여부를 쉽게 검증할 수 있는 문제에 초점이 맞춰져 있었습니다. 이것은 모델을 어떻게 훈련했는지에 대해서도 어느 정도 힌트를 줍니다. 즉, correct인지 incorrect인지 명확히 말할 수 있는 verified reward에 많이 의존했습니다.
작년 말과 올해 초의 변화는, 그런 verified reward 기반 알고리즘을 messy real world로 가져왔다는 것입니다. 이제 우리는 사용자에게 실제로 유용한 방향, 생산성을 높이는 방향으로 모델을 최적화할 수 있게 됐습니다. 그것이 가장 큰 변화입니다.
GPT-5.5 Thinking과 GPT-5.5 Pro의 차이
진행자:GPT-5.5 Thinking과 GPT-5.5 Pro의 차이는 무엇인가요? 단순히 test-time compute를 더 많이 쓰는 건가요?
얀 뒤부아:
기본적으로 그렇습니다. 얼마나 많은 test-time compute를 모델 또는 전체 시스템에 투입하느냐의 차이입니다.
우리는 모델이 더 오래 생각할수록 더 좋은 답을 낼 가능성이 높아진다는 것을 반복적으로 봤습니다. 다만 그 곡선은 선형이 아닙니다. 두 배 더 많은 compute를 쓴다고 성능이 두 배 좋아지는 게 아닙니다. 어느 정도 plateau가 있고, 로그 곡선처럼 보이는 경우도 있습니다.
저 개인적으로는 Pro를 많이 쓰지 않습니다. 저는 기다리는 걸 별로 좋아하지 않습니다. 물론 정답 확률이 좋아지는 건 알지만, 제 입장에서는 기다릴 만큼 충분히 좋아지는 경우가 많지는 않습니다.
하지만 어떤 사람들은 Pro를 정말 좋아합니다. 특히 학술 연구나 수학 쪽에서 그렇습니다. 수학자들은 모델을 백그라운드에서 한두 시간 돌려놓고 기다릴 수 있습니다. 빠르게 반복할 필요가 없는 작업에서는 Pro가 매우 좋습니다.
reasoning이 더 강력해진다는 것의 의미
진행자:모델이 더 효율적으로 reasoning한다는 것은 구체적으로 무슨 뜻인가요? 잘못된 방향으로 가면 스스로 일찍 멈추는 것도 포함되나요?
얀 뒤부아:
인간 전문가를 비유로 들 수 있습니다.
어떤 분야의 초보 대학생은 문제를 풀기 위해 하루나 이틀 동안 여러 방향을 다 탐색해야 할 수 있습니다. 반면 그 분야의 전문가는 어떤 방향이 가능성이 높은지 이미 알고 있습니다. 그래서 10가지 방향을 모두 시도하지 않고도 바로 맞는 방향으로 갑니다.
모델의 효율성도 이와 비슷합니다. 현실 세계의 문제들로 더 많이 최적화된 모델은 어떤 reasoning path가 더 맞을 가능성이 높은지 더 잘 판단합니다.
또한 말씀하신 것처럼, 모델이 잘못된 길로 가고 있다는 것을 알아차리고 되돌아오는 능력도 포함됩니다. 강화학습을 통해 모델은 “이 길은 별로 좋아 보이지 않는다. 다른 길을 시도하자”는 행동을 배울 수 있습니다. 덜 훈련된 모델은 자신이 잘못된 길에 들어섰다는 것을 훨씬 늦게 깨닫습니다.
pre-training은 정말 벽에 부딪혔는가?
진행자:작년에는 pre-training이 벽에 부딪혔다는 이야기가 많았습니다. 그런데 2026년 현재를 보면 꼭 그렇지 않은 것 같습니다. pre-training에서는 무슨 일이 벌어지고 있나요?
얀 뒤부아:
OpenAI 내부에서 무슨 일이 벌어지는지는 자세히 말할 수 없습니다. 다만 pre-training 팀이 정말 많은 좋은 일을 하고 있고, 모델은 계속 좋아지고 있습니다.
한 가지 말하고 싶은 점은, 큰 모델은 thinking token을 줄이는 데 도움이 될 수 있다는 것입니다. 비유적으로 말하면, 큰 모델은 토큰을 생성하기 전에 이미 자신의 weights 안에서 더 많은 생각을 합니다. 그래서 모델 크기를 키우면 명시적으로 생성해야 하는 thinking token 수가 줄어들 수 있습니다.
큰 모델은 inference 시 병렬화도 더 잘 됩니다. 단순히 큰 모델이니 느릴 것이라고 생각할 수 있지만, GPU에서 최적화할 수 있는 여지도 커집니다. 따라서 전체 시스템 관점에서는 더 효율적일 수 있습니다.
저도 2년 전쯤에는 pre-training이 벽에 가까워지고 있다고 생각했습니다. 하지만 지금 보면 반드시 그렇지는 않았습니다. Anthropic의 Mythos 같은 모델도 비용을 보면 훨씬 큰 모델로 보이고, 성능도 좋습니다. 데이터 벽 이야기가 많았지만, 아직 완전히 그 벽에 부딪힌 것 같지는 않습니다. 여러 회사가 인터넷 데이터 부족 문제를 극복하는 방법을 찾은 것 같습니다.
멀티모달 데이터와 embodied AI
진행자:다음 frontier는 멀티모달 데이터인가요? synthetic data인가요?
얀 뒤부아:
synthetic data는 데이터가 제한된 상황에서 잘 작동할 수 있다고 봅니다. 멀티모달도 흥미롭습니다.
저는 예전에 멀티모달 representation learning을 했고, 오랫동안 멀티모달 데이터가 reasoning 능력에 도움이 될 것이라고 생각했습니다. 지금도 그렇게 생각합니다. 다만 Anthropic 모델을 보면 멀티모달에 그렇게 강하지 않은데도 매우 똑똑합니다. 그래서 제가 과거에 생각했던 것만큼 필수적인 것은 아닐 수도 있습니다.
하지만 embodied agents, embodied AI로 가면 이야기가 달라진다고 봅니다. 모델이 현실 세계에서 사물이 어떻게 상호작용하는지 배우면, 일반지능과 사용자에게 주는 유용성이 더 좋아질 수 있습니다.
예를 들어 텍스트만으로 물리 세계를 이해하는 데에는 한계가 있습니다. 중력을 이해하려면 물체가 떨어지는 것을 보는 것이 도움이 됩니다. 물론 지금 모델도 직접 보지 않고도 중력을 어느 정도 이해합니다. 하지만 여전히 common sense 측면에서 빠지는 부분이 있고, 현실 세계와 상호작용하면 그 부분이 개선될 수 있다고 봅니다.
다만 아직 우리는, 여기서 “우리”는 OpenAI만이 아니라 AI 커뮤니티 전체를 말하는데, 그런 단계에서는 꽤 멀리 있다고 생각합니다.
world model에 대한 견해
진행자:world model에 대해서는 어떻게 생각하나요? 낙관적인가요?
얀 뒤부아:
시뮬레이션 환경에서 세계를 복제하거나 모사하려는 의미의 world model이라면, 저는 어느 정도 긍정적입니다. 하지만 문제는 시뮬레이션이 언제나 어렵고, 현실과 완전히 일치하지 않는다는 것입니다.
그래서 어느 정도는 반드시 현실 세계에서의 훈련이 필요할 겁니다. 모델이 시뮬레이션과 현실 사이의 mismatch를 인식해야 하기 때문입니다.
AI 분야에는 simulated하거나 덜 현실적인 것들을 지나치게 오래 최적화하는 경향이 있습니다. 처음에는 유용하지만, 어느 순간부터는 현실을 대표하지 않게 됩니다. 그런데 사람들은 오래 해왔다는 이유로 계속 그 방향을 밀기도 합니다. 그래서 언제 멈춰야 하는지를 아는 것이 중요합니다.
mid-training이란 무엇인가
진행자:pre-training, mid-training, post-training 중에서 mid-training은 상대적으로 덜 알려져 있습니다. mid-training은 무엇이고 왜 중요한가요?
얀 뒤부아:
이름 그대로 pre-training과 post-training 사이에 있는 단계입니다.
아이디어는 간단합니다. 최종 모델에서 원하는 것과 더 잘 맞는 고품질 데이터가 있다면, 그 데이터에 더 높은 비중을 두고 학습시키는 것입니다.
pre-training은 인터넷 전체에서 세상에 대해 배우는 과정입니다. 하지만 인터넷의 대부분은 그렇게 유용하지 않습니다. 예를 들어 Wikipedia나 GitHub는 많은 정보가 담긴 고품질 데이터일 수 있지만, 임의의 포럼이나 광고 같은 데이터는 정보 밀도가 낮을 수 있습니다.
pre-training에서는 광범위하게 모든 것을 학습합니다. 반면 mid-training에서는 최종 모델에 더 유용하다고 생각하는 고품질 데이터에 가중치를 더 줍니다. 이것은 OpenAI뿐 아니라 오픈소스 모델과 학계에서도 일반적으로 나타나는 단계입니다.
post-training의 의미: “세상을 아는 모델”을 “유용한 모델”로 바꾸기
진행자:post-training을 높은 수준에서 정의한다면 무엇인가요? 강화학습만 있는 건 아니죠?
얀 뒤부아:
넓게 말하면 post-training은 세상에 대해 많은 것을 아는 모델을 사용자에게 유용한 모델로 바꾸는 과정입니다.
제가 좋아하는 비유가 있습니다. pre-training된 모델은 거대한 도서관과 같습니다. 도서관에는 거의 모든 정보가 있을 수 있지만, 사용자가 직접 찾아야 합니다. 반면 post-training은 그 도서관의 책을 다 읽은 전문가와 대화할 수 있게 만드는 것과 비슷합니다. 사용자가 무엇을 원하는지 이해하고, 적절하게 답해주는 모델로 만드는 것입니다.
일반적으로는 supervised fine-tuning, 즉 SFT가 있습니다. 이것은 인간이 원하는 정답을 제공하고, 모델이 그 행동을 모방하도록 하는 것입니다. behavior cloning이라고도 할 수 있습니다.
하지만 SFT의 한계는, 인간이 제공한 ground truth보다 더 나아질 수 없다는 것입니다. 인간 라벨러가 제한적이면 모델도 그 수준을 넘기 어렵습니다.
강화학습은 여기서 한 단계 나아갑니다. 우리는 완벽한 정답을 모를 수도 있습니다. 하지만 어떤 답이 더 좋은지, 무엇이 보상받아야 하는지는 정의할 수 있습니다. 모델은 그 reward function을 최적화하면서 인간이 직접 제공한 답변을 넘어설 수 있습니다.
verifiable reward와 non-verifiable reward
진행자:강화학습에도 여러 종류가 있죠?
얀 뒤부아:
네. 하나는 verifiable reward가 있는 강화학습입니다. 즉, 답이 맞았는지 틀렸는지 쉽게 검증할 수 있는 경우입니다. 수학, 코딩 대회 문제 같은 것이 여기에 해당합니다.
다른 하나는 verifiable reward가 없는 경우입니다. 완벽한 정답은 모르지만, 두 답변을 비교해서 “이 답이 저 답보다 낫다”고 말할 수 있는 경우입니다. 물론 현실에서는 이 둘 사이의 연속적인 스펙트럼이 존재합니다.
오픈소스 세계에서는 보통 먼저 SFT로 인간 행동을 모방하게 만든 뒤, 그다음 강화학습으로 더 나아가게 합니다. 처음부터 강화학습만 하면 비효율적입니다. 강화학습은 모델이 여러 답을 샘플링하고, 그중 어떤 것이 좋았는지 보고 더 좋은 행동을 하도록 만드는 방식이기 때문에, 어느 정도 좋은 수준까지는 behavior cloning으로 먼저 올려놓는 편이 낫습니다.
강화학습은 새로운 능력을 만드는가?
진행자:강화학습은 새로운 능력을 만들어내나요, 아니면 이미 있는 능력을 더 잘 쓰게 하나요?
얀 뒤부아:
답하기 어렵습니다. pre-training은 인터넷 전체를 학습하기 때문에, 어떤 의미에서는 모든 능력이 이미 거기 들어있다고 말할 수도 있습니다.
하지만 실제로 보면, 2년 전 오픈소스 세계에서 우리가 Alpaca 같은 모델을 만들 때는 SFT 예제가 5만 개 정도였습니다. 지금 Kimi나 DeepSeek 같은 모델의 강화학습 데이터를 보면 백만 개 가까운 데이터 포인트를 쓰는 것처럼 보입니다. 강화학습 단계가 엄청나게 커졌습니다.
그 결과 모델이 답을 확인하고, 더 오래 생각하고, 자신의 답을 개선하는 reasoning 능력이 생긴 것처럼 보입니다. 철학적으로는 pre-training에 이미 있었다고 말할 수 있지만, 실제로는 강화학습 이후에 분명히 더 많은 능력이 드러났습니다.
왜 강화학습은 예전에는 잘 안 됐고 지금은 잘 되는가
진행자:강화학습은 finicky하고 scale하기 어렵다고 많이 들었습니다. 왜 어려웠나요?
얀 뒤부아:
2년 전까지만 해도 많은 연구자들은 강화학습이 너무 까다롭고 잘 작동하지 않는다고 생각했습니다. 저도 그런 사람이었습니다.
ChatGPT가 나왔을 때 OpenAI 블로그에서 강화학습을 사용했다고 봤습니다. 당시 저는 “이건 너무 복잡한 방법이다. SFT만으로도 비슷하게 만들 수 있을 것 같다”고 생각했습니다. Alpaca 작업도 그런 문제의식에서 출발했습니다. reinforcement learning 없이 SFT만으로 재현해보자는 것이었죠.
당시 Yann LeCun도 강화학습은 케이크 위의 체리 같은 것이라고 말하곤 했습니다. 많은 사람이 그렇게 생각했습니다.
그런데 모델이 충분히 커지고, 세상에 대한 좋은 prior를 가지게 되자 강화학습이 작동하기 시작했습니다. 이것은 LLM만의 일이 아닙니다. 로보틱스도 비슷한 단계로 들어가는 것 같습니다. 모델이 이미 세상을 많이 알고 있으면, 강화학습이 훨씬 잘 됩니다.
여전히 어려운 점은 있습니다. 첫째는 인프라입니다. 많은 답변을 샘플링하고 평가해야 하므로 비용이 큽니다.
둘째는 agentic system에서 보상이 늦게 온다는 점입니다. 긴 rollout 끝에야 정답인지 알 수 있습니다. 그러면 전체 답변 중 어떤 부분이 좋았고 어떤 부분이 나빴는지 attribution하기 어렵습니다. 머신러닝에서 이상적인 상황은 “이 부분이 좋았으니 더 해라”라고 정확히 말할 수 있는 경우입니다. 하지만 긴 에이전트 작업에서는 끝에 가서야 성공 여부를 알기 때문에 어렵습니다.
GRPO와 단순한 방법의 힘
진행자:현재 강화학습의 frontier는 무엇인가요? GRPO 같은 여러 약어가 많습니다.
얀 뒤부아:
OpenAI가 무엇을 쓰는지는 말할 수 없습니다. 다만 오픈소스 세계에서는 GRPO가 매우 잘 작동하는 것처럼 보입니다. 예전에는 PPO, DPO 등 여러 방법이 있었는데, 사람들이 GRPO 쪽으로 많이 수렴하는 것 같습니다.
GRPO는 어떻게 보면 매우 단순한 방법입니다. 여러 답을 샘플링하고, 어떤 것이 맞았는지 본 다음, 맞은 쪽을 더 하도록 하는 방식입니다. 머신러닝에서는 반복적으로 보이는 패턴이 있습니다. compute scale을 키울 수 있는 가장 단순한 방법이 결국 가장 잘 작동하는 경우가 많습니다. 지금도 그런 일이 벌어지고 있는 것 같습니다.
AI 시스템은 과학인가, 공예인가
진행자:AI 시스템은 만들어지는 것이 아니라 길러진다는 말을 듣곤 합니다. 실제 연구에서는 과학과 공예의 비중이 어떻게 되나요?
얀 뒤부아:
보통 처음에는 공예로 시작합니다. 사람들은 이것저것 많이 시도하고, 무엇이 작동하는지에 대한 mental model을 쌓습니다.
시간이 지나면 그것이 science로 이동합니다. 매우 과학적인 접근이 처음부터 성공하는 경우는 드뭅니다. 처음에는 약간의 연금술 같은 감각이 있습니다. 누군가 좋은 직감을 가지고 무언가를 작동하게 만들고, 이후에 그 사람이나 다른 사람들이 그것을 과학적으로 개선합니다.
머신러닝에서는 이런 일이 반복됩니다. 처음에는 craft, 그다음 science입니다. 둘 다 중요하지만, 파이프라인의 서로 다른 단계에서 중요합니다.
특정 영역을 개선하면 모델이 들쭉날쭉해지는가
진행자:모델이 특정 문제에서는 훌륭하지만 다른 문제에서는 별로인 jagged한 성격은, 특정 문제만 골라 강화학습하기 때문인가요?
얀 뒤부아:
그런 면이 분명히 있습니다. 특정 문제 유형을 더 많이 최적화하면 그 설정에서는 좋아집니다.
하지만 제 직관으로는 정확한 도메인보다는 문제의 class가 더 중요합니다. 예를 들어 수학 대회 문제에 강한 모델은 코딩 대회 문제에도 꽤 강할 가능성이 있습니다. 도메인 자체보다 필요한 skill과 사고방식이 비슷하기 때문입니다.
모델이 어떤 것에 정말 나쁘다면, 보통 특정 도메인 하나에서만 나쁜 게 아니라 여러 도메인과 언어에서 비슷하게 나쁩니다. 즉, domain-specific capability보다 horizontal capability 관점에서 보는 것이 더 맞습니다.
모델은 도메인 간 일반화를 얼마나 잘하는가
진행자:모델이 도메인 A나 B에서 좋아지면 도메인 C에서도 좋아지나요?
얀 뒤부아:
일반화에는 여러 축이 있습니다.
첫째는 알고리즘의 일반화입니다. 도메인 A에서 개발한 알고리즘을 도메인 B에도 적용할 수 있는가? 오픈소스 세계를 보면, GRPO 같은 방법을 여러 곳에 적용해도 작동하는 것 같습니다. 이 점에서는 일반화가 꽤 좋습니다.
둘째는 특정 데이터셋에서 훈련된 모델의 일반화입니다. 제 mental model로는 capability 단위로 일반화가 일어납니다. 같은 capability가 필요한 문제라면 도메인을 넘어 일반화될 수 있습니다.
하지만 더 어려운 일반화도 있습니다. 예를 들어 수학 대회나 코딩 대회에 매우 강한 모델이 있다고 합시다. 인간 관점에서는 그런 사람을 “똑똑하다”고 보고 다른 것도 잘할 거라고 생각할 수 있습니다. 하지만 모델에서는 꼭 그렇지 않습니다.
수학·코딩 대회는 매우 잘 정의된 문제입니다. 필요한 정보가 prompt 안에 거의 다 들어 있습니다. 반면 현실 세계는 지저분합니다. 컨설팅, 금융, 법률 같은 일에서는 먼저 인터넷을 뒤지고, 자료를 찾고, 무엇이 필요한지 파악해야 합니다. 이런 underspecified task를 처리하는 horizontal capability가 필요합니다. 이 능력이 없으면 도메인 일반화가 잘 안 됩니다.
hallucination은 강화학습 문제인가
진행자:hallucination도 강화학습으로 해결할 수 있는 문제인가요? 모르면 모른다고 말하도록 보상하면 되나요?
얀 뒤부아:
John Schulman이 이 주제로 훌륭한 발표를 한 적이 있습니다.
SFT, 즉 behavior cloning은 경우에 따라 hallucination을 강화할 수 있습니다. 예를 들어 모델이 어떤 논문을 모른다고 합시다. 그런데 인간이 작성한 정답에는 그 논문을 인용하는 내용이 들어 있습니다. 모델 입장에서는 그 논문을 실제로 아는 게 아닌데도, 답변에 그 논문을 언급하도록 학습됩니다. 그러면 존재하지 않는 것을 인용하는 행동을 배울 수 있습니다.
반면 강화학습에서는 모델이 먼저 답을 샘플링합니다. 모델이 모르는 것에 대해 우연히 정확한 답을 샘플링할 가능성은 매우 낮습니다. 따라서 모르는 것을 지어내는 답은 보상받기 어렵고, 그런 행동은 줄어들 수 있습니다.
그래서 hallucination은 post-training pipeline, 특히 SFT에서 생길 수 있지만, 좋은 강화학습 파이프라인이 있다면 자주 발생하지 않도록 줄일 수 있습니다.
한 도메인을 개선하면 다른 도메인이 나빠지는가
진행자:어떤 도메인을 잘하게 만들면 다른 도메인이 나빠지는 경우도 있나요?
얀 뒤부아:
도메인 단위에서는 보통 그렇지 않습니다. 다만 한 도메인에 compute, 데이터, 사람의 시간을 쓰면 다른 도메인에 덜 쓸 수밖에 없습니다. 그래서 직접적인 악화라기보다는 자원 배분의 문제입니다.
하지만 horizontal capability에서는 negative transfer가 생길 수 있습니다.
예를 들어 explicit instruction following과 implicit instruction following이 충돌할 수 있습니다. 어떤 모델은 사용자가 정확히 지시하면 매우 잘 따릅니다. 그런데 사용자가 오타를 냈을 때도 문자 그대로 잘못된 파일을 수정할 수 있습니다. 인간이라면 “아, 이건 오타구나”라고 알아차릴 텐데, explicit instruction following에 너무 최적화된 모델은 그걸 못 할 수 있습니다.
이런 경우에는 horizontal capability끼리 충돌이 생깁니다.
코딩과 수학을 넘어 경제 전체로 확장될 수 있는가
진행자:모델이 코딩과 수학에서 뛰어난 수준에 도달했고, 이제 경제의 다른 영역으로 이동하고 있습니다. 나머지 경제 영역도 같은 수준의 성능에 도달할 수 있다고 보나요?
얀 뒤부아:
네, 가능합니다. 저는 법률, 의료, 금융 같은 영역이 모델 능력상 근본적으로 불가능하다고 보지는 않습니다.
하지만 단서가 있습니다.
첫째, 지금 모델을 만드는 사람들은 대체로 코딩을 잘하고, 코딩에 매우 관심이 많습니다. 자신들이 매일 쓰는 것이기 때문입니다. 모델을 훈련시키는 사람이 곧 사용자일 때보다 좋은 것은 없습니다. 문제를 직접 이해하기 때문입니다. 반대로 제가 법률 도메인을 잘 모르면, 모델의 법률 성능을 어떻게 개선해야 할지 정확히 알기 어렵습니다.
둘째, 어떤 도메인은 reward를 검증하기 쉽습니다. 사이버 보안은 좋은 예입니다. 발견한 취약점이 진짜인지 아닌지 테스트하기 쉽습니다. 그래서 강화학습을 적용하기 좋습니다.
법률, 의료 등 다른 도메인도 모델의 capacity 관점에서는 가능하지만, 우리가 그 도메인을 덜 알고 있고 reward를 설계하기 더 어렵기 때문에 시간이 걸립니다.
모델 평가가 왜 점점 어려워지는가
진행자:eval, 즉 모델 평가는 왜 이렇게 어려운가요?
얀 뒤부아:
모델이 좋아질수록 평가가 점점 더 어려워집니다. 모델에게 요구하는 작업이 점점 일반적이고 개방형이 되기 때문입니다.
예전에는 “이 코드에 버그가 있는가?”처럼 비교적 명확한 질문을 했습니다. 인간이 버그 목록을 만들 수 있고, 자동으로 평가할 수도 있었습니다.
하지만 지금은 “이런 기능을 하는 웹사이트를 만들어줘”라고 합니다. 이 경우 좋은 답은 여러 개 있을 수 있습니다. 최적의 답이 무엇인지 정하기 어렵습니다.
또 하나의 문제는 모델이 특정 축에서는 대부분의 인간보다 더 좋아지고 있다는 점입니다. 그러면 모델을 평가할 수 있는 인간이 점점 줄어듭니다.
문화적인 문제도 있습니다. 대부분의 사람은 모델을 개선하고 싶어 합니다. 그래서 훈련 쪽에 관심이 많습니다. 하지만 문제를 찾고, 개선을 정량화하는 eval도 그만큼 중요하거나 더 중요할 수 있습니다. 학계에서는 예전까지 고정 벤치마크에 의존하는 문화가 강했습니다. 데이터의 중요성은 이제 많이 인정받고 있지만, eval의 중요성은 아직 충분히 인식되지 않았다고 봅니다.
model-as-a-judge와 AI가 AI를 평가하는 흐름
진행자:AI가 AI를 평가하는 model-as-a-judge 분야는 빠르게 발전하고 있나요?
얀 뒤부아:
네, 매우 중요합니다. 사실 eval에서 하는 많은 일은 강화학습 훈련에도 거의 그대로 적용될 수 있습니다.
eval을 만들면, 그와 유사한 훈련 데이터셋을 만드는 방법도 함께 만든 셈입니다. 그러면 모델은 그 유형에 최적화되고, eval은 빠르게 obsolete해질 수 있습니다. 이것도 eval이 어려운 이유입니다.
model-as-a-judge는 매우 중요합니다. 더 좋은 모델은 다른 모델의 더 좋은 teacher가 됩니다. 이것은 훈련에도 중요하고 평가에도 중요합니다. 제 팀의 많은 사람들이 이 부분을 연구하고 있고, 저는 이것이 매우 핵심적이라고 봅니다.
앞으로 12~24개월: 불연속인가, 연속적 발전인가
진행자:앞으로 12개월, 18개월, 24개월을 보면 AI는 계속 발전할까요? 아니면 더 큰 discontinuity가 올까요?
얀 뒤부아:
능력 발전 자체는 대체로 연속적이라고 생각합니다. 하지만 사람들의 체감은 불연속처럼 느껴질 수 있습니다.
코딩에서는 3~4개월 전 그런 일이 일어났습니다. 갑자기 “이제 쓸 수 있다”는 느낌이 온 것이죠. 저는 이런 일이 다른 vertical에서도 일어날 것이라고 봅니다. 아직 많은 사람은 코딩이나 소프트웨어 엔지니어링 종사자들이 느끼는 만큼 모델의 유용성을 체감하지 못하고 있습니다. 하지만 그것이 다른 영역으로 퍼질 겁니다.
이미 우리가 깊게 보고 있는 vertical에서는 변화가 더 연속적으로 보일 것입니다. 큰 discontinuity는 보통 local discontinuity입니다. 가까이서 보면 갑자기 튀어 보이지만, 멀리서 보면 꽤 부드러운 곡선처럼 보입니다.
continual learning: 아직 풀지 못한 큰 문제
진행자:AI가 AI를 만들고, continual learning을 통해 더 빨리 배우는 가속 루프에 대해 어떻게 생각하나요?
얀 뒤부아:
저는 continual learning에 매우 흥분하고 있습니다. 하지만 아직 제대로 풀지 못했다고 봅니다.
Codex memories 같은 기능은 도움이 되지만, 최종 상태는 아닙니다.
제가 좋아하는 그래프가 있습니다. x축은 시간, y축은 사용자에게 제공하는 utility입니다. 지금 모델은 회사에 처음 투입되는 day zero 시점에서는 대부분의 신입 직원보다 유용할 수 있습니다. 하지만 시간이 지나도 거의 일정합니다. 회사 지식을 깊게 배우거나, 같은 환경에서 일하면서 점점 더 효율적이 되지는 않습니다.
반면 인간은 시간이 지나며 빠르게 배웁니다. 중요한 것은 곡선 아래 면적, 즉 장기적으로 제공하는 총 utility입니다. 그래서 많은 경우 아직 인간이 더 유용합니다.
우리가 해야 할 일은 모델의 utility curve가 시간이 지날수록 계속 올라가게 만드는 것입니다. 특정 환경에서 오래 일할수록 모델이 더 유용해져야 합니다. 저는 이 문제에 매우 흥분하지만, 아직 왜 이렇게 오래 걸리는지는 솔직히 잘 모르겠습니다.
3년 전 ChatGPT가 나왔을 때 저는 친구들과 스타트업을 하고 있었습니다. 그때 continual learning, personalization, memory 같은 것을 해볼까 생각했습니다. 하지만 “OpenAI가 6개월 안에 해결하겠지. 데이터도 있고 사용자도 있으니까”라고 생각했습니다. 그런데 3년이 지난 지금도 아직 거기에 도달하지 못했습니다.
기업 내 memory와 privacy 문제
진행자:왜 이렇게 어려운가요?
얀 뒤부아:
솔직히 말하면 저도 완전히 알지는 못합니다. 충분한 자원을 투입하면 풀 수 있을 것 같은 문제로 보입니다.
물론 회사 내부 memory의 경우 permission, privacy 문제가 큽니다. 어떤 정보를 어떤 사용자와 공유할 수 있는지, 모델 간에 무엇을 공유할 수 있는지 같은 문제가 있습니다.
하지만 단일 사용자에 대해서도 아직 완전히 해결하지 못했습니다. 적어도 제가 공개적으로 말할 수 있는 수준에서는, 왜 이렇게 오래 걸리는지 명확히 모르겠습니다.
에이전트 harness는 오래 갈까?
진행자:요즘 많은 사람들이 agent harness를 만들고 있습니다. 모델이 점점 똑똑해지면 이런 harness를 모델이 먹어버리지 않을까요?
얀 뒤부아:
현재로서는 harness가 모델의 능력을 크게 향상시킬 수 있습니다. 다만 모델 능력이 너무 빠르게 발전하고 있기 때문에, 일반적이고 영구적인 harness를 만드는 데 너무 많이 투자하는 것은 조심해야 한다고 봅니다.
특정 vertical에서 명확한 목표가 있다면 harness는 매우 유용합니다. 예를 들어 신뢰성을 80%에서 85%로 올려야 하는 특정 문제라면, harness가 큰 도움이 될 수 있습니다. 하지만 미래에는 모델이 바뀌기 때문에 harness도 다시 조정해야 한다는 점을 알고 있어야 합니다.
저는 특정 도메인을 위한 단기적인 harness에는 매우 긍정적입니다. 지금도 좋은 harness가 없어서 놓치고 있는 것이 많습니다.
극단적으로 말하면, 지금 모델을 그대로 얼려놓고 harness에 정말 많이 투자한다면, 사람들은 이미 거의 모든 도메인에서 AGI에 가까운 느낌을 받을 수도 있다고 생각합니다. 하지만 우리는 모델을 얼리지 않을 것이고, 계속 더 좋은 모델을 훈련할 것입니다. 그래서 최종 harness가 무엇인지 아직 알 수 없습니다. harness는 계속 바뀔 겁니다.
스타트업과 애플리케이션의 기회는 남아 있는가
진행자:모델이 점점 더 많은 애플리케이션 기능을 흡수한다면, 사람들이 애플리케이션을 계속 만들어야 할까요? 아니면 결국 모든 것이 모델 능력의 일부가 될까요?
얀 뒤부아:
저는 외부 회사나 스타트업이 특정 vertical에서 할 일이 정말 많다고 봅니다.
많은 사람은 raw intelligence, 즉 순수 지능이 병목이라고 생각합니다. 하지만 저는 대부분의 경우 병목은 last mile이라고 봅니다. 모델이 올바른 권한을 갖고 있는지, 적절한 connector에 접근할 수 있는지, 특정 업무 흐름 안에 잘 들어가 있는지가 중요합니다.
OpenAI는 일반적인 horizontal progress에 집중할 것입니다. 반면 다른 회사들은 특정 vertical에서 현재 모델이 제공할 수 있는 가치를 최대한 끌어내는 데 집중할 수 있습니다.
그래서 저는 다양한 vertical에서 last mile을 해결할 공간이 많이 남아 있다고 봅니다. 언젠가 horizontal progress가 멈춘다면 우리도 그쪽에 더 집중할 수 있겠지만, 저는 그것이 가까운 미래라고 생각하지 않습니다.
핵심 요약
AI 발전은 실제 능력 면에서는 대체로 연속적이지만, 어느 순간 신뢰성 문턱을 넘으면 사용자에게는 갑작스러운 도약처럼 느껴진다. GPT-5.5는 그 문턱을 코딩, 에이전트 작업, 지식 노동, 초기 과학 연구에서 강하게 넘은 모델이다.특히 중요한 변화는 강화학습이 수학·코딩 대회 같은 “정답 검증이 쉬운 문제”에서 벗어나, 현실 세계의 messy task로 이동하고 있다는 점이다. 이제 모델은 단순히 문제를 푸는 것이 아니라, 사용자에게 실제로 유용한 방식으로 훈련되고 있다.
하지만 아직 큰 미해결 문제도 남아 있다. 대표적으로 continual learning, 기업 지식 학습, 개인화 memory, 장기적으로 점점 더 유용해지는 모델이 그것이다. 얀은 이 부분이 아직 제대로 풀리지 않았다고 인정하면서도, 매우 중요한 다음 frontier라고 본다.
그리고 스타트업 입장에서는 여전히 기회가 크다고 말한다. 모델의 순수 지능이 좋아져도, 실제 업무에 연결하고 권한·데이터·워크플로우를 맞추는 last mile은 계속 중요하기 때문이다.
전체 0