마크 첸 "여러분도 AGI가 곧 온다고 느끼고 있길 바란다"

작성자

작성일

2026-06-26 12:11

조회

“hopefully you feel like AGI is coming soon, right?”

“여러분도 AGI가 곧 온다고 느끼고 있길 바란다”

마크 첸 인터뷰 상세 정리

Leighton Space Cooking Series — OpenAI 연구, AGI, 스케일링, 평가, 연구 자동화

1. 오프닝 — 연구자들에게 수프를 가져간 이야기

진행자:
오늘은 창업자와 연구자들을 초대해서 요리를 하며 이야기를 나누는 Leighton Space Cooking Series다. 오늘 특별 게스트는 OpenAI의 최고연구책임자 마크 첸이다. 와줘서 고맙다.

마크 첸:
초대해줘서 고맙다.

진행자:
이 이야기는 마크 저커버그가 연구자들을 영입하려고 수프를 만들었다는 이야기에서 시작됐다. 그 이야기를 듣고 당신도 연구자들에게 수프를 가져갔다고 들었다. 사실인가? 실제로 효과가 있었나?

마크 첸:
완전히 사실이다. 실제로 우리 연구자들에게 수프를 가져간 적이 있다. 그게 사람들을 조금 진정시킨 것 같다. 결국 우리가 이긴 것 같기도 하다. AI가 얼마나 미친 듯이 발전하고 있는지를 보여주는 꽤 웃긴 이야기다.

진행자:
요리를 자주 하나? 원래 요리에 익숙한 편인가?

마크 첸:
요리하는 걸 좋아하긴 한다. 하지만 자주 할 여유는 없다. 거의 매일 저녁 업무 관련 식사가 있다. AGI 이후에는 요리가 취미가 될 수도 있겠다. 예전부터 농담처럼 “모든 게 끝나면 국수 가게를 열겠다”고 말하곤 했다.

진행자:
오늘 앞에 놓인 재료를 보면 뭘 만들지 감이 오나?

마크 첸:
한국식 두부찌개 같은데?

진행자:
맞다. 당신이 연구자들에게 수프를 가져갔다는 이야기에서 착안해서 한국식 두부찌개를 만들고, 새우도 함께 요리할 예정이다. 준비됐나?

마크 첸:
좋다. 시작하자.

2. 트레이더 출신과 AI 연구자의 공통점

진행자:
먼저 채소를 손질하자. 흙 묻은 부분을 잘라내고 나눠두면 된다. 그동안 당신의 배경에 대해 묻고 싶다. 당신은 예전에는 트레이더였다. 샘 알트먼도 예전에 “고빈도 트레이더라면 OpenAI에 와서 AGI를 만들라”는 식의 이야기를 한 적이 있다. 트레이더와 연구자 사이에 어떤 관련성이 있다고 보나? 아니면 단순히 둘 다 기술적이고 경쟁적인 분야이기 때문에 좋은 인재가 나오는 것인가?

마크 첸:
가장 중요한 것은 많은 연구자들이 반드시 머신러닝이나 AI 연구를 정식으로 전공하고 시작한 사람들이 아니라는 점이다. 우리는 사람들을 훈련시켜 이 분야에서 연구할 수 있게 만드는 것을 강하게 믿는다.

진짜 어려운 것은 창의적으로 문제를 해결하는 능력, 기존 틀 바깥에서 생각하는 능력이다. 박사 학위가 반드시 필요하다는 뜻은 아니다. 물론 박사 과정이 가치 있는 기술을 주는 것은 맞지만, 그것이 전부는 아니다.

트레이딩이라는 직업이 특별하다고까지 생각하지는 않는다. 우리는 훌륭한 수학자도 데려왔고, 훌륭한 물리학자도 데려왔다. 다만 트레이딩에는 독특한 점이 있다. 트레이딩은 현실을 속일 수 없는 분야다. 실제 세계를 상대로 매우 어려운 지표를 최적화해야 한다. 시장은 일종의 냉혹한 평가 기준이다.

또 트레이딩에서는 세부사항에 대한 집중이 정말 중요하다. 시스템에서 마지막 효율까지 짜내야 한다. 굉장히 어렵고 잔인한 최적화 문제를 다루는 일이 많다. 그런 특성 중 일부는 AI 연구에도 전이될 수 있다고 본다.

3. 박사 학위 없이 AI 연구 감각을 기르는 방법

진행자:
박사 학위가 없는 사람이 AI 연구에 들어가고 싶다면 어떤 능력을 길러야 하나? 특히 research taste, 즉 연구 감각은 어떻게 기를 수 있나?

마크 첸:
연구 감각은 조금 과대평가되어 있다고 생각한다. 물론 개발해야 하는 능력이긴 하지만, 내가 찾은 가장 좋은 방법은 복제다.

좋아하는 논문을 골라서 완전히 재현해보는 것이다. 단순히 대충 구현하는 게 아니라, 논문에 나온 훈련 곡선까지 최대한 똑같이 맞춰보려고 해야 한다. 논문에서 암시하는 training loss나 perplexity 수준까지 도달하려고 해보면 정말 많은 것을 배운다.

2018년쯤을 떠올려보면 ResNet이나 PixelCNN 같은 것들이 있었다. 나는 그런 논문들을 복제하려고 하면서 정말 많이 배웠다. 사람들이 논문에 명시적으로 쓰지 않는 기술들이 있다. 몇 겹 더 깊게 파고들어야만 알 수 있는 실전적인 기법들이다.

나를 이 분야로 끌어들인 첫 계기 중 하나는 알파고와 이세돌의 대국이었다. 많은 사람들에게 전환점이었고, 나에게도 굉장히 영감을 줬다. 내가 처음 진지하게 시도한 큰 프로젝트 중 하나도 DQN을 제대로 작동시켜보는 것이었다.

진행자:
알파고의 37수 같은 장면은 정말 인상적이었다. 지금은 거의 모든 분야에서 그런 Move 37 같은 장면들이 나오는 것 같다. 수학에도 있고, 컴퓨터과학에도 있고, 코딩에도 있다.

마크 첸:
그렇다. 올해 초에 많은 사람들이 갑자기 깨달은 것 같다. “이제 에이전트가 내 직업 영역에서도 작동하고 있다”는 식으로 말이다. 모델들이 단순한 짧은 답변을 넘어, 긴 시간 동안 의미 있는 작업을 수행할 수 있다는 사실을 사람들이 체감하고 있다.

4. RL이 잘 통하는 영역과 어려운 영역

진행자:
양파를 다져보자. 그리고 이와 관련해서 묻고 싶은 게 있다. RL이 뚫기 훨씬 어려운 직업이나 영역이 있을까? 예를 들어 코딩은 코드베이스나 작업 맥락이 비교적 접근 가능해서 더 쉬울 수 있다. 반면 주니어 컨설턴트가 하는 일처럼 맥락이 여기저기 흩어져 있는 업무는 더 어려울 수 있다. 이런 차이를 어떻게 보나?

마크 첸:
전통적으로 RL은 주관적인 영역에서 어려움을 겪어왔다. 어떤 것이 객관적으로 맞고 틀린지 평가하기 어려운 분야들이다.

예를 들어 창작 글쓰기를 생각해볼 수 있다. 두 개의 창작물을 놓고 두 명의 전문가에게 평가를 맡기면, 완전히 다른 의견이 나올 수 있다. 이렇게 평가가 어려운 분야에서는 RL을 직접적으로 적용하는 데 한계가 있다.

물론 많은 사람들이 이런 환경에서도 RL을 적용하기 위한 기술을 개발하고 있다. 하지만 현재로서는 차갑고 명확한 진실이 있는 영역, 예를 들어 수학이나 컴퓨터과학처럼 맞고 틀림이 분명한 곳에서 특히 잘 작동한다. 코드가 제대로 구현됐는지 아닌지, 수학 문제가 맞았는지 틀렸는지 판단할 수 있는 영역이다. 그런 곳에서 RL이 크게 발전하고 있다.

5. 초인간 지능을 어떻게 평가할 것인가

진행자:
모델들이 훨씬 강해져서 IMO 문제 같은 것도 거의 포화할 정도로 풀게 되면, 초인간 지능은 어떻게 평가해야 하나? 인간 상위 0.1%가 할 수 있는 것까지 모델이 넘어서는 시점이 오면, 그다음 지능의 프런티어는 어떻게 밀어붙이나?

마크 첸:
정말 흥미로운 문제다. 많은 부분이 현실 세계와 어떻게 인터페이스하느냐에 달려 있다고 생각한다.

예전에는 프로그래밍 같은 맥락을 넘어서려면 실제 연구 세계로 옮겨야 한다고 봤다. 모델들이 실제 연구를 수행하게 하는 것이다. 우리는 모델들이 새로운 정리를 발견하거나, 어려운 과학의 최전선을 밀어붙이는 능력이 훨씬 좋아지는 것을 봐왔다.

이제는 모델들이 매우 어려운 문제를 풀 수 있다는 사실이 더 이상 놀랍지 않은 수준이 됐다. 모델들이 기여를 할 수 있고, 서로 다른 분야 사이에서 새롭고 통찰력 있는 관계를 찾아낼 수도 있다.

그래서 우리는 코딩 협업을 중요한 도메인으로 본다. 코딩은 모델이 높은 맥락을 이해하고, 실제 세계의 긴 시간축 작업을 수행할 수 있는지 시험하는 영역이다.

진행자:
그렇다면 코딩은 단순히 코드를 쓰는 문제가 아니라, 장기 작업과 높은 맥락 이해를 시험하는 도메인이라는 말인가?

마크 첸:
그렇다. 코딩 협업은 모델이 고맥락 환경에서 학습하고, 실제 세계에서 긴 시간 동안 의미 있는 작업을 수행할 수 있는지 보기 좋은 영역이다.

6. “프리트레이닝은 죽었다”는 주장에 대한 반박

진행자:
연구에 대한 견해 중에서, 사람들이 일반적으로 받아들이지만 당신은 동의하지 않는 것이 있나? 예를 들어 “pre-training is dead”라든가, “언어모델만으로는 AGI에 도달할 수 없다” 같은 주장들이 있다.

마크 첸:
나는 지수 위에 올라타 있다는 생각, 그리고 스케일링 법칙을 강하게 믿는다. 그래서 그런 비관적인 주장에는 꽤 강하게 동의하지 않는다.

“프리트레이닝은 죽었다”는 이야기는 최근 1~2년 사이에 더 널리 퍼졌지만, 사실 LLM 개발 역사에서 사람들은 계속 그런 말을 해왔다. 항상 어떤 병목이 등장했고, 사람들은 “이 병목 때문에 더 이상 스케일할 수 없다”고 말했다.

하지만 우리는 늘 어떤 기술을 찾아냈다. 더 나은 엔지니어링일 때도 있었고, 새로운 연구 통찰일 때도 있었고, 더 나은 데이터 엔지니어링일 때도 있었다. 더 신중한 스케일링, 더 세심한 연구 엔지니어링을 통해 다음 경계를 넘어왔다.

거의 10자릿수 규모의 스케일 확장을 거치는 동안 이 패턴이 유지됐다. 앞으로도 계속 유지되지 않을 이유는 없다고 본다.

7. reasoning과 o1 — 내부에서도 쉽지 않았던 큰 베팅

진행자:
초기에는 사람들이 안 될 거라고 생각했지만, 결국 스케일을 넘어서는 데 도움이 된 연구 아이디어가 있었나?

마크 첸:
reasoning이 가장 큰 예 중 하나다. 우리가 세상에 공개한 첫 큰 돌파구는 o1이었다. 하지만 그것을 시작하는 일은 쉽지 않았다.

당시에는 프리트레이닝과 포스트트레이닝의 조합이 너무나 유망해 보였다. OpenAI 안에서도 자연스럽게 이런 질문이 나왔다. “이미 잘 작동하는 기계가 있는데 왜 다른 것을 해야 하지?”

그럼에도 야쿱, 일리야, 그리고 이 분야에 확신과 비전을 가진 여러 사람들이 있었다. 그들이 진지하게 이 방향을 밀어붙였다. 그리고 그 후에도 회사 전체를 이 근본적인 베팅 뒤에 세우기 위해서는 꽤 많은 방향 조정이 필요했다.

진행자:
그런 큰 베팅을 연구자들에게 어떻게 설득하나? 어떤 베팅은 성공하고 어떤 베팅은 실패할 텐데, 팀이 계속 신뢰를 갖게 만드는 능력도 중요할 것 같다.

마크 첸:
OpenAI에서 멋진 점은 연구가 실력주의처럼 느껴진다는 것이다. 연구 매니저들은 대개 과거에 실제로 훌륭한 연구를 해낸 사람들이다.

그래서 위에서 방향을 제시하는 힘이 있다. 예를 들어 당신의 매니저가 “나는 이 방향이 앞으로의 길이라고 확신한다”고 말하면, 사람들은 그것을 무겁게 받아들인다. 오랫동안 그 사람의 연구 감각과 실행력을 존경해왔기 때문이다.

동시에 OpenAI에는 상향식 요소도 있다. 우리는 누군가가 와서 차가운 증거로 “당신들이 틀렸다”고 설득하는 것을 좋아한다. 실제로 그렇게 시작된 것들이 핵심 연구 로드맵의 일부가 된 경우도 많다. 위에서 누가 밀어붙인 게 아니라, 현장의 연구자가 강한 확신을 갖고 발견한 것이 핵심이 되기도 한다.

8. 연구 로드맵은 얼마나 자주 바뀌는가

진행자:
최근 인터뷰에서 내부 연구 로드맵은 크게 바뀌지 않았다고 말한 적이 있다. 모델 발전도 빠르고 다른 회사들도 계속 좋아지고 있는데, OpenAI는 연구 로드맵을 얼마나 자주 재평가하나? 경쟁 모델이 나올 때마다 반응적으로 바꾸는 것은 아닐 것 같은데, 그 과정을 어떻게 생각하나?

마크 첸:
고수준 연구 로드맵은 안정적이어야 한다. 사람들은 자신들이 무엇을 만들고 있는지, 어떤 길을 가고 있는지 볼 수 있어야 한다. 나는 우리가 꽤 오랫동안 방향을 유지해온 것에 만족한다.

하지만 구현 세부사항은 시간이 지나면서 바뀔 수 있다. 순서도 중요하고, 상대적인 자원 배분도 중요하며, 현장에서 보이는 구체적인 위협들도 중요하다.

우리는 특정 시점마다 이런 것들을 다시 생각하게 된다. 예를 들어 컴퓨트 배분이 그렇다. 내 일의 한 부분은 프로젝트에 컴퓨트를 어떻게 배정할지 결정하는 것이다. 이때 우리는 정말 이 컴퓨트와 사람들을 가장 중요한 일에 쓰고 있는지 질문한다.

진행자:
고수준과 구현 세부사항의 차이를 조금 더 설명해줄 수 있나? 고수준이라는 것이 AGI라는 북극성 정도를 말하는 건가, 아니면 그보다 더 구체적인가?

마크 첸:
가장 높은 수준에서는 몇 가지 큰 축이 있다. 하나는 프리트레이닝이다. 모델에 많은 세계지식을 주는 것이다.

다음은 RL이다. 모델이 그 지식을 가지고 추론하도록, 작은 통찰들을 연결하도록 가르치는 것이다.

마지막으로 alignment와 post-training이 있다.

우리는 각 영역에서 메인라인을 어떻게 스케일할지 본다. 동시에 완전히 다른 스케일링 특성을 열어주거나, 더 공격적인 스케일링 특성을 가능하게 하는 새로운 베팅들도 찾는다.

9. 300개 연구 프로젝트와 컴퓨트 배분

진행자:
1~2개월마다 300개 정도의 연구 프로젝트를 검토한다고 들었다. 어떤 아이디어를 계속 밀고, 어떤 것을 포기할지 결정하는 감각은 어떻게 다듬나? 재능 있는 연구자들이 가능한 아이디어를 많이 제안할 텐데 말이다.

마크 첸:
집중이 중요하다. OpenAI에서는 베팅을 더 집중하려고 하고 있고, 컴퓨트 배분도 조금 더 지시적으로 하려 한다.

하지만 나는 매니저들을 미세관리하고 싶지는 않다. 중요한 것은 그들에게 권한을 주는 것이다. 우리가 만들고 싶은 큰 베팅에는 큰 컴퓨트 덩어리를 배정한다. 동시에 매니저들이 자유롭게 쓸 수 있는 유연한 컴퓨트 풀도 준다. 그들이 믿는 것에 자유롭게 배정하거나, 우리가 제안한 배분을 조정할 수 있게 한다.

각 조직에서 3~5개 정도의 소수 베팅을 메인 연구 로드맵에 묶고, 그다음은 매니저와 조직 리드들이 이어서 실행하게 하는 방식이다.

10. 좋은 연구자를 알아보는 법

진행자:
신진 연구자를 면접할 때, 이 사람이 앞으로 조직에 큰 영향을 줄 수 있는 연구자인지 알아보는 신호가 있나? 이전 연구 실적을 주로 보는가?

마크 첸:
OpenAI에 오기 전에는 정말 어려운 문제다. 좋은 연구 매니저들은 많은 연구자들과 일하면서 직감을 개발한다. 그 사람이 말하는 것, 떠올리는 아이디어가 내가 생각했을 법한 것과 같은 결인지 보는 것이다. 일종의 gut check다.

하지만 처음부터 알아보기는 어렵다. 보통 6개월에서 1년 정도 함께 일해보면, 누가 가장 강한 성장 궤도에 있고 큰 임팩트를 낼지 꽤 명확해진다.

또 하나 말하고 싶은 것은 모든 연구자가 같은 방식으로 기여하지 않는다는 점이다. 어떤 연구자는 명확한 아이디어를 누구보다 빨리 구현한다. 또 어떤 연구자는 처음에는 거의 너무 미친 것처럼 보이는 moonshot 아이디어를 낸다. 그런데 그 아이디어가 사실 그렇게 미친 것이 아니고, 세상을 전혀 다른 방식으로 보게 만든다.

연구에서 임팩트를 내는 방식은 여러 가지다.

진행자:
그렇다면 탑 엔지니어와 탑 연구자 사이에는 공통점이 있다고 보나? 예를 들어 스타트업의 뛰어난 엔지니어는 제품을 끝까지 가져가는 능력이 있다. 연구자는 고객이 어떻게 사용할지까지 생각하는가, 아니면 순수하게 연구 자체에 집중하는가?

마크 첸:
연구에서는 앞으로 나아갈 길이 명확하지 않은 경우가 많다. 연구자를 구분하는 것은 얼마나 자주 올바른 방향을 향해 있느냐다.

엔지니어링에는 어느 정도 통하는 패턴들이 있다. 어떤 제품을 만들고 싶다면, 적용되는 엔지니어링 원칙들이 꽤 비슷할 수 있다. 하지만 연구에서는 조금 다르다. 좋은 연구 감각이 필요하고, 자신이 하는 일이 유망하다는 것을 다른 사람들에게 설득할 수 있어야 한다. 그리고 그것을 핵심 연구 로드맵 안으로 통합할 수 있어야 한다.

11. 평가와 벤치마크 — benchmark maxing 문제

진행자:
채소는 거의 다 됐고, 이제 물을 넣고 찌개 베이스를 만들자. 한편으로 evals가 매우 흥미로운 영역인 것 같다. 내부적으로 vibe check를 해보면 정말 좋은데 실제 벤치마크에서는 낮게 나오거나, 반대로 벤치마크는 좋은데 실제 코딩 작업을 시켜보면 별로인 경우가 있나?

마크 첸:
그런 현상이 있다. 내부에서 쓰는 표현인지는 모르겠지만, benchmark maxing 같은 현상이 있다. 특정 분포에 과적합하는 것이다.

예를 들어 어떤 벤치마크가 있으면, 그 벤치마크와 매우 비슷한 유형의 인스턴스를 찾아 과도하게 훈련할 수 있다. 그러면 그 점수는 좋아질 수 있지만, 실제 일반화 성능을 제대로 반영하지 못한다.

더 무서운 것은 업계 전체에서 표준으로 삼을 수 있는 고품질 벤치마크 수가 적다는 점이다. 우리는 일종의 evals crisis, 평가 위기 속에 있다. 예전에 우리가 자라면서 보던 SAT 같은 평가들은 이미 모두 포화됐다. 모델을 평가할 새로운 좋은 방법이 필요하다.

Codex 같은 도구의 좋은 점은 eval을 빠르게 반복해서 만들 수 있게 해준다는 것이다. 한 사람이 빠르게 꽤 좋은 품질의 eval을 만들 수 있다.

또 모델을 실제로 배포하면 사람들이 어떻게 쓰는지를 보면서 평가할 수도 있다. 수학, 코딩, 소프트웨어 작업에서 모델이 어디에서 넘어지는지, 어느 정도 길이의 작업까지 해낼 수 있는지 넓은 배포 데이터를 통해 감을 잡을 수 있다.

진행자:
그렇다면 벤치마크를 잘하는 것과 benchmark maxing을 피하는 것 사이의 균형은 어떻게 맞추나? 소비자는 경쟁사 모델보다 점수가 낮으면 “이 모델은 별로인가?”라고 생각할 수도 있다.

마크 첸:
대표성 있는 eval들의 혼합을 운영해야 한다. 그리고 항상 새로운 eval을 만드는 데 투자해야 한다.

어떤 eval이 세상에 공개되면, 그 순간부터 이미 좋은 eval로서의 가치는 낮아진다는 철학도 있다.

또 외부 조직과 협력해 eval을 만드는 것도 중요하다. 어려운 수학이나 과학 eval에서는 외부 조직과 협력해서 일종의 gold standard를 만들기도 했다.

흥미로운 원칙 중 하나는 eval을 만드는 팀과 모델을 최적화하는 팀을 분리하는 것이다. 그래야 인센티브가 꼬이지 않는다. eval 팀은 모델에게 어려운 평가를 만들려고 한다. 일종의 적대적 과정이 된다. 그러면 스스로를 속이지 않게 되고, 두 팀 사이의 인센티브가 더 건강하게 맞춰진다.

진행자:
당신도 어떤 eval을 만들어야 하는지, 어떤 외부 조직과 협력해야 하는지 결정하는 데 관여하나?

마크 첸:
그렇다. 야쿱과 내가 하는 일 중 많은 부분은 eval 방향을 잡는 것이기도 하다. 우리는 어떤 능력의 빈틈을 발견한다. 그리고 모든 능력의 반대편에는 eval이 있다. 어떤 능력을 잘 끌어냈는지 측정하려면 평가가 필요하다.

eval 방향을 잡고 모두를 같은 페이지에 올려놓는 것도 많은 준비가 필요한 일이다.

12. 야쿱과의 농담 — “멍청한 금메달리스트 군단”

진행자:
예전 인터뷰에서 야쿱이 아주 웃긴 사람이라고 말한 적이 있다. 같이 일하면서 재미있는 이야기가 있나? 당신과 야쿱은 연구 논의에서도 매우 잘 맞는다고 했는데, 그런 면에서 기억나는 게 있나?

마크 첸:
어제 그가 한 농담이 재미있었다. 우리는 여러 면에서 연구 조직을 함께 관리한다. 어떤 연구자가 야쿱에게 와서 “이제 저는 정말 멍청한 IMO 금메달리스트 군단을 가진 느낌입니다”라고 말한 것 같다.

그러자 야쿱이 “그건 이미 내가 현실에서 처한 상황 같은데”라고 했다.

그는 정말 잔인할 정도로 냉소적이고 웃기다.

진행자:
중요한 프런티어를 밀어붙이는 일을 하다 보면, 그런 유머가 직장 안에 있는 것도 중요할 것 같다.

13. 모델의 들쭉날쭉한 능력과 jagged frontier

진행자:
모델이 IMO나 ILI 같은 어려운 문제는 아주 잘 풀면서, 인간이 쉽게 하는 평범한 일에는 어려움을 겪는 이상한 상황이 있다. 이런 문제는 어떻게 보나?

마크 첸:
궁극적으로 모델에게 직관적인 것과 인간에게 직관적인 것이 다르다고 생각한다. jagged frontier라는 비유가 많이 쓰인다. 모델은 어떤 것들에는 굉장히 뛰어나다. 데이터에서 많이 봤거나, 우리가 더 쉽게 가르칠 수 있는 것들이다.

하지만 인간에게 쉬운 것들이 모델에게는 어려울 수 있다. 많은 부분은 맥락의 문제라고 생각한다. 모델은 인간이 가진 많은 맥락을 갖고 있지 않다.

시각 같은 것은 인간에게 생물학적으로 매우 자연스럽게 연결된 능력이다. 그래서 모델과 인간은 각자 잘하는 능력이 다르다.

또 중요한 것은 하나의 작업에서 교훈을 얻고, 그것을 미래의 작업에 적용하는 능력이다. 이 능력은 인간에게 매우 자연스럽지만, 모델에서는 아직 많은 사람들이 연구하고 있는 영역이다.

14. 긴 컨텍스트와 context rot

진행자:
맥락 문제와 관련해, 많은 사람들이 가장 낮은 과일처럼 말하는 해결책이 context window를 늘리는 것이다. 더 많은 예시와 더 많은 맥락을 주면 모델이 잘할 수 있다는 생각이다. 하지만 context window가 커져도 bloat가 생기거나 context rot 문제가 생길 수 있다. 어떻게 보나?

마크 첸:
긴 시간축의 학습을 해결하는 표준적인 방식은 단순히 context window를 늘리는 것이다. 그 자체는 타당하다.

하지만 long context를 구현하는 것과 long context를 잘 구현하는 것은 다르다. needle in the haystack 스타일의 테스트들이 그런 차이를 측정하는 데 쓰인다.

그 외에도 엔지니어링과 연구 측면의 shortcut들이 있다. 예를 들어 많은 코딩 제품에는 compaction 같은 기능이 있다. 작업 상태나 통찰을 압축하는 것이다. 이런 방식은 순수한 native long context만으로 해결하려면 매우 어렵고 비싼 기본 기능들을 우회할 수 있게 해준다.

15. AGI 직전의 연구 베팅과 self-sustained research

진행자:
연구 아이디어와 관련해서, 아직 low-hanging fruit가 많이 남아 있다고 보나? 아니면 이제는 완전히 새로운 베팅이 필요하다고 보나?

마크 첸:
새로운 베팅은 있지만, 아마 그렇게 많지는 않을 것이다. 어떤 의미에서는 AGI가 곧 온다고 느끼길 바란다. 모두가 모델들이 점점 매우 유능해지고 있다는 것을 보고 있다.

그 의미를 진지하게 생각하면, 우리는 모델들이 스스로 더 많은 혁신을 만들어낼 수 있는 세계에 가까워지고 있다. 모델들이 self-sustained research, 즉 자기 지속적인 연구를 할 수 있게 되는 것이 우리 연구 조직의 큰 목표 중 하나다.

그래서 정말 중요한 질문은 그 시점이 오기 전에 의미 있는 큰 베팅이 남아 있느냐는 것이다. 나는 그 창문이 작다고 생각한다. 하지만 아직 꽤 중요한 아이디어들을 실험하고 있다.

진행자:
어떤 연구자들은 AGI에 도달하려면 continual learning 같은 두세 개의 추가 돌파구가 필요하다고 말한다. 당신도 그런 관점인가? 아니면 완전히 다른 패러다임 몇 개가 반드시 필요한 것은 아니라고 보나?

마크 첸:
그런 프레이밍이 맞는지는 잘 모르겠다. continual learning이 반드시 unlock해야 할 기본 primitive라고 볼 수 있는지도 모르겠다. 여러 가지 기법들이 있다. 무엇을 breakthrough라고 부를지도 애매하다.

우리는 다양한 시도를 하고 있다. 그리고 많은 shots on goal이 있다고 본다. 나는 꽤 잘 될 것이라고 생각한다.

16. 멀티모달 모델은 하나의 모델이어야 하는가

진행자:
요리와 대화를 동시에 하는 걸 보면, 모델도 이런 멀티태스킹을 더 잘해야 할 것 같다. 이미지, 오디오, 비디오, 텍스트가 모두 하나의 모델 아래 있어야 한다고 보나? 아니면 특정 모달리티에 특화된 모델들이 따로 발전할 것이라고 보나?

마크 첸:
연구소 입장에서는 하나로 묶는 데 많은 장점이 있다. 예를 들어 하나의 인프라 스택만 유지하면 된다. 여러 인프라 스택을 동시에 유지하고 스케일하는 비용은 과소평가하면 안 된다.

핵심 스택에서 어떤 근본적인 연구를 하면, 그것이 어떤 모달리티든, 어떤 기능이든 이어질 수 있다. 그래서 우리는 가능한 한 적은 수의 아키텍처 안에 유지하려는 강한 편향을 갖고 있다.

진행자:
아키텍처 자체가 얼마나 중요한지 사람들이 자주 간과하는 것 같다.

마크 첸:
그렇다.

17. vibe researcher와 연구의 미래

진행자:
요즘 vibe coder라는 말이 있고, 당신도 vibe researcher라는 표현을 언급한 적이 있다. vibe researcher의 최종 형태는 무엇이라고 보나? 핵심 가치는 좋은 연구 아이디어를 떠올리는 taste인가, 아니면 실제 연구를 끝까지 실행하는 능력인가?

마크 첸:
우리는 이미 그 세계로 매우 빠르게 이동하고 있다. OpenAI뿐 아니라 다른 연구소에서도 많은 작업이 점점 orchestration 중심이 되고 있다.

연구자는 아이디어를 떠올린다. 그리고 모델이 충분히 좋아지면 구현과 실행을 스스로 할 수 있다.

아이디어를 내는 것과 실행하는 것, 둘 다 여전히 중요하다. 하지만 무게중심은 많은 아이디어를 떠올리고, 모델이 실행과 오케스트레이션을 맡는 방향으로 이동하고 있다. 이것이 연구의 미래가 될 것이라고 본다.

다만 앞서 말했듯이 모델은 아직 연구 감각을 완전히 갖고 있지는 않다. 그래서 여전히 연구자가 아이디어를 내야 한다. 모델에게 좋은 taste를 가르치는 것은 어려운 일이다. 하지만 연구를 가속하는 데는 이미 분명한 이점이 있다.

진행자:
모델이 언젠가는 research taste에서도 인간과 동등해질까?

마크 첸:
그렇다고 본다. 우리의 3년 로드맵을 보면, 최종 목표는 모델들이 end-to-end 연구를 수행하는 것이다. 그 문제의 일부는 모델이 좋은 taste를 갖는 것이다.

어떤 일반적인 benchmark나 문제를 던져도, 모델이 올바른 해결책을 찾아낼 수 있는 상태를 원한다.

18. 실패한 연구 베팅을 어떻게 다루는가

진행자:
OpenAI에서 인간 연구자들이 진행한 연구 베팅이 잘 안 됐을 때, postmortem 과정은 어떻게 하나? 많은 베팅 중 일부는 실패할 수밖에 없지 않나?

마크 첸:
그 부분이 OpenAI의 alpha 중 큰 부분이라고 생각한다. OpenAI가 다른 연구소와 다른 점 중 하나는 고위험 베팅을 많이 한다는 것이다. 그것이 우리가 오랫동안 프런티어에 머물 수 있었던 이유다.

하지만 고위험 베팅을 많이 한다는 것은 일부 베팅이 실패한다는 뜻이기도 하다. 실패했을 때 어려운 점은 스스로를 속이지 않는 것이다. “이건 언젠가 될 거야”라고 계속 믿으면서 붙잡고 있으면 안 된다. 필요하면 끊어내야 한다.

어떤 시점에는 돌아보고 판단해야 한다. “이건 당시에는 유망한 아이디어였지만 실제로는 생각보다 덜 중요했다”, “다른 접근법이 더 잘 작동한다”, “우리가 뭔가를 발견했지만 이 방향은 핵심이 아니다” 같은 식으로 말이다.

하지만 그런 작업도 많은 경우 유익하다. 어떤 기법을 증명하는 데 실패했더라도, 그 write-up은 중요할 수 있다. 사람들이 자연스럽게 떠올릴 법한 아이디어라면, 실패 기록은 다른 사람들이 같은 길을 다시 가지 않게 막아준다.

진행자:
실패를 긍정적으로 보는 것과, 계속 실패만 하는 연구자를 어떻게 구분하나? 어떤 연구자가 연속해서 베팅을 하지만 아무것도 성공하지 못한다면, 어느 시점에는 실제 기여가 필요하지 않나?

마크 첸:
경험상 그런 경우를 본 적이 있다. 하지만 동시에 어떤 사람들은 계속 베팅이 실패하다가, 거의 좌절하려는 순간에 엄청난 mega hit를 내기도 했다. 그런 일이 충분히 여러 번 있었다.

그래서 중요한 것은 아이디어 자체가 sound한가다. 야심적일 수는 있다. 하지만 말이 되어야 한다. 어떤 사람들은 위험한 프런티어에 있는 아이디어를 계속 낸다. 그런 경우에는 가끔 한 번만 맞혀도 충분히 가치가 있다.

트레이딩적인 관점일 수도 있지만, 결국 기대값의 문제다. 장기적으로 가치를 더해야 한다.

19. 요리 마무리와 프리트레이닝에 대한 마지막 견해

진행자:
이제 거의 완성됐다. 간을 보고 싱거우면 간장을 넣고, 너무 짜면 물을 넣으면 된다. 맛이 어떤가?

마크 첸:
꽤 좋다.

진행자:
오늘 요리는 어땠나?

마크 첸:
이건 일종의 student distillation 같다. 당신이 이제 나보다 훨씬 잘한다.

진행자:
아니다. 당신도 잘했다. 특히 새우에 불 붙이는 것도 잘했다. 마지막으로, 지금 연구에서 과대평가된 것과 과소평가된 것이 있다면 무엇이라고 보나?

마크 첸:
아직도 “프리트레이닝은 죽었다”고 보는 사람이 있다면, 나는 프리트레이닝이 과소평가됐다고 생각한다. 프리트레이닝은 죽지 않았다.

전체 흐름을 대담식으로 짧게 다시 압축하면

진행자:
OpenAI 연구자들에게 수프를 가져갔다는 이야기는 사실인가?

마크 첸:
사실이다. 연구자들을 진정시키는 데 도움이 됐던 것 같다. AI 업계가 얼마나 이상하고 치열하게 돌아가는지 보여주는 웃긴 장면이다.

진행자:
트레이더 출신이라는 배경은 AI 연구와 연결되는가?

마크 첸:
트레이딩은 현실을 속일 수 없는 분야다. 매우 냉혹한 지표를 최적화해야 하고, 디테일과 시스템 최적화 능력이 중요하다. 그런 점은 AI 연구와 어느 정도 통한다.

진행자:
박사 학위 없이 연구자가 되려면 어떻게 해야 하나?

마크 첸:
좋은 논문을 완전히 복제해보는 것이 가장 좋다. 훈련 곡선과 손실값까지 맞추려 하면, 논문에 명시되지 않은 실전 기술들을 배우게 된다.

진행자:
RL은 어떤 영역에서 잘 통하고, 어떤 영역에서 어렵나?

마크 첸:
수학과 코딩처럼 정답이 명확한 영역에서는 잘 통한다. 반면 창작 글쓰기처럼 평가가 주관적인 영역은 훨씬 어렵다.

진행자:
초인간 모델은 어떻게 평가해야 하나?

마크 첸:
현실 세계와 접속하는 방식이 중요하다. 실제 연구, 코딩 협업, 긴 시간축의 작업 수행 능력이 중요해진다.

진행자:
“프리트레이닝은 죽었다”는 말에 동의하나?

마크 첸:
동의하지 않는다. 스케일링 법칙은 여전히 강력하다고 본다. 사람들은 계속 병목을 말했지만, 우리는 더 나은 엔지니어링과 연구로 그 병목을 넘어왔다.

진행자:
reasoning은 OpenAI 내부에서 당연한 방향이었나?

마크 첸:
아니다. 당시에는 프리트레이닝과 포스트트레이닝 조합이 매우 잘 작동하고 있었기 때문에, reasoning은 내부 설득이 필요한 큰 베팅이었다.

진행자:
OpenAI의 연구 로드맵은 자주 바뀌나?

마크 첸:
고수준 로드맵은 안정적이어야 한다. 큰 축은 프리트레이닝, RL, alignment/post-training이다. 다만 구현 세부사항과 컴퓨트 배분은 계속 조정한다.

진행자:
좋은 연구자는 어떻게 알아보나?

마크 첸:
처음부터 알기는 어렵다. 보통 6개월에서 1년 정도 함께 일해보면 드러난다. 연구자는 여러 유형이 있다. 빠르게 구현하는 사람도 있고, moonshot 아이디어로 세계관을 바꾸는 사람도 있다.

진행자:
AI 평가에는 어떤 문제가 있나?

마크 첸:
업계는 평가 위기에 있다. 좋은 표준 벤치마크가 부족하고, 공개 벤치마크에는 과적합할 위험이 있다. eval을 만드는 팀과 모델을 최적화하는 팀을 분리하는 것이 중요하다.

진행자:
모델이 어려운 수학은 잘하는데 쉬운 일은 못하는 이유는?

마크 첸:
모델과 인간이 직관적으로 잘하는 것이 다르다. 모델은 특정 영역에서는 강하지만, 인간이 가진 맥락이나 시각적 경험, 작업 간 학습 능력은 아직 부족하다.

진행자:
긴 컨텍스트를 키우면 해결되나?

마크 첸:
context window를 키우는 것은 한 방법이지만, long context를 구현하는 것과 잘 쓰는 것은 다르다. compaction처럼 작업 상태와 통찰을 압축하는 방식도 중요하다.

진행자:
AGI 전에 아직 중요한 연구 베팅이 남아 있나?

마크 첸:
창문은 작지만 남아 있다. 우리는 모델이 self-sustained research를 할 수 있는 세계에 가까워지고 있다.

진행자:
멀티모달 모델은 하나의 모델이어야 하나?

마크 첸:
연구소 입장에서는 가능한 한 하나의 인프라와 적은 수의 아키텍처로 유지하는 데 장점이 크다.

진행자:
vibe researcher의 미래는 무엇인가?

마크 첸:
연구는 점점 orchestration 중심이 되고 있다. 인간은 아이디어와 방향을 제시하고, 모델은 구현과 실행을 맡게 된다. 최종적으로는 모델이 end-to-end 연구를 수행하는 것이 목표다.

진행자:
실패한 연구 베팅은 어떻게 다루나?

마크 첸:
스스로를 속이지 말고 필요하면 끊어내야 한다. 하지만 실패 기록도 중요하다. 다른 사람들이 같은 실수를 반복하지 않게 해준다.

진행자:
마지막으로, 과소평가된 연구 영역은?

마크 첸:
프리트레이닝이다. 프리트레이닝은 죽지 않았다.

전체 0

« 데미스 하사비스 Semafor Tech 인터뷰

목록보기 답글쓰기

글수정 글삭제