인터뷰/예측
제리 트워렉 "진짜 지능은 스스로 적응하고, 즉석에서 배우고, 이전에는 풀 수 없던 문제를 시간이 지나며 풀 수 있게 되는 과정"
작성자
작성일
2026-05-14 11:53
조회
167
인터뷰: “AGI 발전을 가로막는 것은 무엇인가?”
출연: 제리 트워렉 Jerry Tworek진행: Y Combinator 인터뷰어
1. 지능이란 무엇인가?
진행자:먼저 가장 근본적인 질문부터 해보겠습니다. 연구 커뮤니티에서도 아직 합의가 잘 안 된 부분인데요. 지능이란 무엇인가요?
스피어먼의 일반지능 개념부터, 레그와 허터의 universal intelligence, 프랑수아 숄레의 intelligence measure 같은 논의들이 있죠. 제리님은 지능을 어떻게 정의하시나요?
제리 트워렉:
저에게 지능을 정의하는 문제는 매우 개인적이고도 중요한 주제입니다. 저는 인생의 꽤 오랜 시간을 이 문제에 대해 생각해왔습니다.
제가 생각하는 지능의 핵심은 미지의 것에 적응하는 능력입니다.
예를 들어 컴퓨터가 체스를 잘 두거나 바둑을 잘 둔다고 해봅시다. 그것은 분명 대단해 보입니다. 하지만 그것이 곧 지능일까요?
컴퓨터가 1초 안에 숫자 1만 개를 더할 수 있다고 해서 지능이 있다고 말할 수 있을까요?
그건 계산 능력입니다. 하지만 프로그램하기 쉬운 계산이죠.
제가 말하는 지능은 단순히 어려운 일을 하는 능력이 아닙니다.
진짜 지능은 스스로 적응하고, 즉석에서 배우고, 이전에는 풀 수 없던 문제를 시간이 지나며 풀 수 있게 되는 과정입니다.
새로운 환경에 놓였을 때, 그 환경을 이해하고 문제를 해결해나갈 수 있어야 합니다.
체스 프로그램은 체스는 잘 둘 수 있지만 바둑을 둘 수 없고, 숫자를 더할 수도 없고, 새로운 수학 문제를 탐구할 수도 없습니다.
물론 어떤 프로그램이 새로운 수학 문제를 풀 수 있다고 해도, 다른 종류의 문제를 풀 수 없다면 그것을 완전한 의미의 지능이라고 부르기는 어렵습니다.
아마 지능에는 스펙트럼이 있을 것입니다.
인간은 스스로를 지능적이라고 생각합니다. 왜냐하면 우리는 새로운 기술을 만들고, 배우고, 세계를 확장해왔기 때문입니다.
하지만 동시에 인간의 지능에도 어떤 한계가 있는 것처럼 느껴집니다. 그래서 아주 엄밀한 의미에서는 인간의 지능도 완전한 지능은 아닐 수 있습니다.
2. 지능을 측정할 때 사전 경험과 훈련 데이터는 고려해야 하는가?
진행자:지능을 정의하거나 측정할 때, 사전 경험, 모델 구조의 사전 정보, 훈련 데이터의 양, 훈련 횟수 같은 것들을 통제해야 한다고 보시나요?
제리 트워렉:
좋은 질문입니다. 제 개인적인 생각으로는, 너무 일반화하고 싶지는 않지만, 저는 그것을 크게 할인해서 보지는 않습니다.
우리가 어떤 사람을 봤을 때, 그 사람이 매우 어려운 문제들을 연속으로 풀고, 점점 더 큰 도전에 빠르게 적응한다고 해봅시다.
그때 우리는 보통 이렇게 말하지 않습니다.
“저 사람은 책을 더 많이 읽었기 때문에 그런 거야.”
“저 사람은 데이터가 더 많았기 때문에 그런 거야.”
우리는 그냥 이렇게 말합니다.
“저 사람은 지능적이다.”
지능은 결국 새롭고 예상하지 못한 상황에서의 실용적 문제 해결 능력입니다.
그런 의미에서 어떤 존재가 더 많은 데이터를 학습했기 때문에 뛰어나다고 해서, 그 지능을 무시할 필요는 없다고 생각합니다.
결국 훈련의 결과가 지능으로 나타나는 것이니까요.
다만 하나의 중요한 각도는 있습니다. 바로 학습 속도입니다.
같은 출발선에서 시작한 두 존재가 있다고 합시다. 한쪽이 훨씬 빠르게 배운다면, 우리는 그쪽이 더 지능적이라고 말할 수 있습니다.
마치 학교에서 어떤 아이가 다른 아이보다 훨씬 빠르게 배우는 경우처럼요.
그래서 지능은 단순히 현재의 실력 수준만이 아니라, 학습 곡선의 기울기, 즉 얼마나 빠르게 배우는지도 중요합니다.
3. 지능은 절편보다 기울기가 중요하다
진행자:저희가 예전에 말하던 방식으로 표현하면, 저는 B보다 M이 더 중요하다고 봅니다.
즉, y절편보다 기울기가 중요하다는 거죠. 세상은 계속 변하니까 빠르게 적응하는 존재가 중요합니다.
예를 들어 5살 아이가 IMO에서 35점을 받는 것과 35살 성인이 IMO에서 35점을 받는 것 중 어느 쪽이 더 인상적일까요?
제리 트워렉:
5살 아이가 그런 점수를 받는 것은 훨씬 드문 일이기 때문에 당연히 인상적입니다.
하지만 이것도 단순하게 볼 수는 없습니다.
예를 들어 어떤 10살 아이가 지금까지 나온 모든 IMO 문제를 외워서, 새로운 문제를 과거 문제와 패턴 매칭해서 푼다고 합시다.
반면 경험 많은 수학자가 이론을 깊이 이해하고 여러 개념의 연결성을 바탕으로 창의적으로 문제를 푼다고 해봅시다.
그렇다면 단순히 나이만으로 판단할 수는 없습니다.
중요한 것은 그 지능이 얼마나 유동적이고, 역동적이며, 새로운 영역에서도 작동하는가입니다.
IMO 자체도 매우 잘 정의된 도메인입니다. 일종의 박스입니다.
몇 가지 전략을 잘 익히면 많은 문제를 풀 수 있습니다.
4. 같은 점수를 더 적은 시간과 에너지로 얻는다면 더 지능적인가?
진행자:또 다른 관점도 있습니다. 예를 들어 두 사람이 IMO를 치는데 한 사람은 1시간을 쓰고, 다른 사람은 8분만 씁니다. 그런데 둘이 같은 점수를 받는다면요?
이는 일종의 테스트 시간 계산량, 또는 에너지당 지능의 문제입니다.
같은 결과를 더 적은 줄le, 더 적은 계산으로 얻는다면 더 똑똑한 알고리즘이라고 볼 수 있지 않을까요?
제리 트워렉:
분명히 그렇습니다.
최근 몇 년 동안 제 작업 중 하나가 바로 테스트 타임 컴퓨트 scaling이었습니다.
즉, 모델이 문제를 풀 때 얼마나 많은 계산 자원을 쓰는지에 따라 성능이 어떻게 변하는지를 보는 것입니다.
저희는 ARC-AGI 벤치마크의 이전 버전에서도 이런 방법론을 적용하려 했습니다.
보통은 이를 달러 단위로 표현했습니다. 왜냐하면 오늘날의 여러 AI 제공자들을 비교하기 쉽기 때문입니다.
지금 모델의 성능을 말할 때 단순히
“이 모델은 이 정도 성능을 낸다”
라고 말하는 것은 충분하지 않습니다.
그 성능을 얻는 데 비용이 얼마나 들었는지를 말하지 않으면 정보가 부족합니다.
오늘날의 모델들은 더 오래 생각하면 대체로 더 좋은 답을 냅니다. 어느 정도까지는요.
그리고 그 정도는 많은 사람들이 편하게 지불할 수 있다고 느끼는 수준보다 훨씬 큽니다.
따라서 비용과 계산량은 매우 중요한 입력값입니다.
5. 테스트 타임 컴퓨트만으로 새로운 알고리즘을 발견할 수 있는가?
진행자:예를 들어 정렬 알고리즘만 생각해보죠.
훈련 데이터에 버블 정렬의 실행 과정만 무한히 있다고 합시다. 그러면 테스트 타임 컴퓨트를 아무리 늘려도 병합 정렬로 넘어가지는 못할 것입니다.
더 많은 thinking token을 써도 결국 버블 정렬의 나쁜 구현, 혹은 정확한 버블 정렬 구현만 얻게 되겠죠.
즉, 인간이 이미 해결한 문제라면 trace가 있지만, 인간이 아직 해결하지 못한 문제에는 trace가 없습니다.
그렇다면 테스트 타임 컴퓨트만으로는 새로운 해법으로 갈 수 없는 것 아닐까요?
제리 트워렉:
이 질문은 상당 부분 훈련 데이터가 무엇이냐에 달려 있습니다.
만약 훈련 데이터가 버블 정렬의 trace뿐이라면, 모델은 버블 정렬만 배울 것입니다.
하지만 오늘날 모델 제작자들이 훈련시키는 것은 단순한 알고리즘 그 자체만이 아닙니다.
대체로 인간 지식 전체의 조합입니다.
그 안에는 알고리즘뿐만 아니라, 알고리즘을 생각하는 방식, 알고리즘을 도출하는 방식, 문제를 구조화하는 방식도 들어 있습니다.
저는 이것을 어떤 사람들처럼 crystallized intelligence라고 부르기보다, 모델에서는 오히려 fluid intelligence에 가깝다고 봅니다.
데이터를 가져와서 일종의 이상한 액체처럼 녹여낸 뒤, 그 안에 모든 것이 섞여 있는 것입니다.
모델은 단지 알고리즘만 배운 것이 아닙니다.
인간이 알고리즘을 어떻게 설계하고, 어떻게 도출하고, 어떻게 사고하는지도 어느 정도 배웠습니다.
물론 완벽하지는 않습니다.
모델이 절대적인 초인적 알고리즘 발명 능력을 가진 것은 아닙니다.
하지만 오늘날 최고의 LLM이 새로운 정렬 알고리즘을 절대 발견할 수 없다고 말할 자신은 없습니다.
왜냐하면 우리는 모델에게 알고리즘 설계, 알고리즘적 사고, 알고리즘을 도출하는 인간의 방법을 많이 가르쳤기 때문입니다.
6. 모델은 훈련 분포 밖으로 의미 있게 나갈 수 있는가?
진행자:하지만 그 역시 인간이 발견한 전략과 휴리스틱을 가져오는 것 아닐까요?
체스의 기물 가치라든가, IMO를 푸는 전략이라든가, 결국 다른 지능이 만든 것을 가져와 사용하는 셈입니다.
그렇다면 모델이 테스트 타임 컴퓨트를 통해 정말로 훈련 분포 밖으로 의미 있게 샘플링할 수 있다고 보시나요?
제리 트워렉:
근본적으로는 가능하다고 생각합니다.
다만 핵심은 다시 훈련 데이터입니다.
훈련 데이터가 단지 결과물만 담고 있느냐, 아니면 새로운 것을 찾는 사고 패턴, 추론 패턴, 탐색 패턴까지 담고 있느냐가 중요합니다.
체스 휴리스틱의 공간도 하나의 공간이고, 알고리즘의 공간도 하나의 공간입니다.
인간은 이런 공간을 탐색할 때 그냥 무작위로 탐색하지 않습니다.
어떤 구조를 세우고, 어떤 방식으로 가능성을 좁혀갑니다.
오늘날 모델 안에도 그런 방식들이 어느 정도 인코딩되어 있다고 생각합니다.
저는 현재 모델들이 특정 공간에 대한 좋은 탐색 연산자라고 봅니다.
예를 들어 모든 정렬 알고리즘의 공간을 무식하게 탐색한다면 너무나 거대한 공간이라 거의 불가능합니다.
하지만 LLM에게 그 공간을 탐색하게 하면 갑자기 후보를 상당히 좁힐 수 있습니다.
그리고 결국 흥미롭고 말이 되는 무언가를 내놓을 수도 있습니다.
알파고의 37수도 비슷합니다.
그것은 단순한 브루트포스 탐색이 아니었습니다.
모델의 가치 함수에 의해 인도된 탐색이었고, 그 과정에서 새로운 전략이 나온 것입니다.
그래서 모델이 완전히 불가능하다고 보지는 않습니다.
아직 우리가 원하는 만큼 잘하지 못할 뿐입니다.
7. 지능을 벤치마크로 어떻게 측정해야 하는가?
진행자:지금까지 지능의 정의, 기술 습득, 학습 효율, 사전 경험 보정에 대해 이야기했습니다.
그렇다면 실제로 지능을 측정하고 정량화하는 가장 좋은 방법은 무엇일까요?
제리 트워렉:
아주 좋은 질문입니다. 저는 이 부분에 대해서는 약간 비관적입니다.
우리는 지속적으로 잘못된 것을 측정해왔습니다.
조금 조심스럽게 말하자면, 우리는 그 시점에 우리가 풀기 어려워했던 것들을 지능의 척도로 삼아왔습니다.
체스가 풀리기 전에는 체스가 지능의 좋은 벤치마크라고 생각했습니다.
다른 문제들도 마찬가지였습니다.
그런데 우리는 과거의 모든 벤치마크를 풀었습니다.
그리고도 여전히 말합니다.
“이건 AGI가 아니다.”
그렇다면 우리가 측정했던 것은 지능 그 자체가 아니었던 것입니다.
지능에 인접한 무언가였을 수는 있지만, 지능 자체는 아니었습니다.
제가 보기에 모델이 정말 똑똑한지 측정하는 가장 좋은 방법은, 일종의 무한한 과제 원천이 있어야 합니다.
그리고 그 과제들은 계속 신선해야 합니다.
모델이 그런 새롭고 다양한 과제들을 계속 잘할 수 있는지를 봐야 합니다.
벤치마크의 가장 큰 약점은 굿하트의 법칙입니다.
벤치마크가 알려지는 순간, 사람들은 그 벤치마크를 목표로 훈련합니다.
그러면 어떤 벤치마크든 결국 reward hacking이 됩니다.
어떤 벤치마크가 공개되고 나면, 첫 번째 훈련 런이 시작되는 순간부터 그 벤치마크는 지능 측정 도구로서의 가치가 급격히 떨어집니다.
모델이 그것에 맞춰 훈련되기 때문입니다.
그래서 정말 좋은 과제는 미래의 과제, 미리 알 수 없는 과제, 환원 불가능한 과제입니다.
그리고 그 과제들은 충분히 다양하고 흥미로워야 합니다.
새로운 과학을 발명하는 일이 좋은 예입니다.
그것은 미리 정답이 알려져 있지 않은 종류의 과제이기 때문입니다.
8. 게임은 AGI 벤치마크로 좋은가?
진행자:과거 OpenAI의 Procgen, CoinRun, World of Bits, DeepMind의 게임 기반 연구들이 있었고, 지금은 ARC-AGI 3도 게임플레이를 사용합니다.
각 게임은 새로운 기술 습득을 요구하고, 한 게임에서 통하는 하드코딩된 전략이 다음 게임에서는 통하지 않습니다.
게임을 벤치마크로 보는 것에 대해 어떻게 생각하시나요?
제리 트워렉:
게임플레이는 매우 흥미롭습니다.
저는 특히 게임을 좋아하고, 연구할 가치가 있다고 생각합니다.
왜냐하면 게임은 인간 지능에게 흥미롭고 몰입감 있게 설계되었기 때문입니다.
너무 단순한 게임이라면 인간에게 재미가 없을 것입니다.
즉, 많은 게임은 인간 지능에 도전하도록 만들어졌습니다.
게임은 현재 모델들이 약한 많은 능력을 테스트합니다.
예를 들어 자원 배분, 장기 계획, 멀티모달 인식 등이 있습니다.
오늘날 모델들은 이런 것들에 아직 매우 뛰어나지는 않습니다.
일반적인 게임 분포에서 모델이 최신 Halo 같은 게임을 잘할 수 있느냐고 묻는다면, 거기까지 가는 데는 시간이 좀 걸릴 것입니다.
다만 게임도 굿하트될 수 있느냐는 질문이 있습니다.
또 보지 못한 게임으로 일반화할 수 있느냐는 문제도 있습니다.
예전에 Atari 게임을 많이 연구했을 때, 각 게임을 개별적으로 푸는 것은 가능했지만 게임 간 일반화는 매우 어려웠습니다.
Montezuma’s Revenge 같은 게임은 특히 어려웠죠.
하지만 오늘날 LLM은 과거 알고리즘보다 게임 간 일반화를 더 잘할 가능성이 있다고 봅니다.
왜냐하면 세계에 대한 표현이 이미 어느 정도 잘 구축되어 있기 때문입니다.
한 게임을 잘하면 다른 게임도 어느 정도 잘할 수 있는 식의 점프가 가능할 수 있습니다.
다만 문제도 있습니다.
게임은 낮은 지연시간, 빠른 행동, 멀티모달 지각을 요구합니다.
모델은 크고 느리기 때문에 빠르게 반응해야 하는 게임에서는 어려움이 있을 수 있습니다.
그래도 게임 벤치마크에서 진전은 있을 것입니다.
하지만 어떤 모델이 게임을 잘 푼다고 해서 곧바로 “이것이 AGI인가?”, “이 모델이 안정적으로 새로운 과학을 만들 수 있는가?”라고 묻는다면, 그건 여전히 따져봐야 할 문제입니다.
9. AGI를 향한 여러 접근법 중 무엇이 가장 맞다고 보는가?
진행자:이제 AGI를 향한 여러 접근법에 대해 묻고 싶습니다.
제가 부르는 방식으로는 이런 것들이 있습니다.
일리야주의: “next token prediction이면 충분하다. 더 많은 토큰이면 된다.”
르쿤주의: world model, JEPA, self-supervised learning, latent predictive coding.
노암주의: 일리야주의에 generator-verifier gap을 더해 무한 데이터를 얻는 방식.
숄레주의: 프로그램 합성, 뉴로심볼릭 방법.
첼시 핀식 접근: 메타러닝과 RL.
이 중 어느 쪽에 가장 동의하시나요?
제리 트워렉:
좋은 질문입니다. 저는 이들 모두가 어느 정도 진실의 일부를 갖고 있다고 생각합니다.
우리는 더 많은 토큰도 필요하고, 더 많은 메타러닝도 필요합니다.
하지만 굳이 하나를 고르라면 저는 메타러닝 쪽에 조금 더 동의합니다.
다만 우리가 아직 메타러닝을 충분히 잘하고 있다고 생각하지는 않습니다.
사실 트랜스포머도 이미 많은 메타러닝을 하고 있습니다.
트랜스포머가 보여주는 in-context learning은 메타러닝입니다.
그리고 인류가 지금까지 만든 최고의 메타러닝 알고리즘이라고 할 수 있습니다.
하지만 그것만으로는 아직 AGI가 아닙니다.
그렇다면 병목은 무엇일까요?
더 많은 토큰일까요? 저는 꼭 그렇지는 않다고 봅니다. 물론 더 많은 토큰은 항상 도움이 됩니다.
더 많은 메타러닝일까요?
메타러닝은 딥러닝 최적화 과정에서 자연스럽게 어느 정도 발생합니다.
generator-verifier gap일까요?
우리는 이미 RL을 많이 하고 있습니다.
그럼 단순히 RL을 한 자릿수 더 스케일링하면 되는 걸까요?
그것도 아닐 수 있습니다.
제가 요즘 많이 생각하는 것은, 최근 몇 년 동안 우리가 모델 아키텍처 자체를 충분히 많이 바꾸고 실험하지 않았다는 점입니다.
사람들은 이렇게 생각했습니다.
“트랜스포머는 잘 스케일된다. 그러니 그냥 계속 스케일하자.”
하지만 아키텍처 안에는 엄청난 prior가 들어 있습니다.
생각의 구조 자체도 아키텍처에 영향을 받습니다.
우리는 이미 많은 토큰을 쓰고 있고, 이미 RL도 하고 있고, 이미 메타러닝도 하고 있습니다.
그렇다면 아직 하지 않고 있는 것은 무엇인가?
저는 바로 이 층위, 즉 아키텍처와 사고 구조를 바꾸는 문제를 더 많이 봐야 한다고 생각합니다.
10. Train-time recurrence가 중요해질까?
진행자:저는 train-time recurrence의 중요성에 대해 글을 쓴 적이 있습니다.
튜링 완전한 아키텍처를 만들려면 unbounded recurrence가 필요한데, 현재 모델은 훈련 시간에는 그런 것을 갖고 있지 않습니다.
훈련 때는 사실상 한 번의 forward pass만 있고, teacher-forced trace로 다시 돌아갑니다.
그래서 모델이 자기만의 latent representation을 발전시키기 어렵습니다.
ARC-AGI 2에서 가장 성공적이었던 접근들도 HRM, TRM이었고요.
마지막 scaling law가 test-time compute였다면, 다음 scaling law는 train-time compute, train-time recurrence라고 생각합니다.
어떻게 보시나요?
제리 트워렉:
저는 그런 접근에 상당히 긍정적입니다.
그 방향은 타당하다고 생각합니다.
개인적으로 TRM 결과도 매우 좋아합니다.
그리고 꽤 높은 확률로, 어떤 방식으로든 recurrence는 앞으로 몇 년 안에 다시 돌아올 것이라고 봅니다.
11. OpenAI와 Anthropic의 경쟁에 대해
진행자:마지막 질문입니다.
OpenAI와 Anthropic에 대해 어떻게 보시나요?
Anthropic이 빠르게 따라잡고 있는 것처럼 보입니다. 2026년 중반쯤에는 매출에서 OpenAI를 앞설 것이라는 그래프들도 있습니다.
제리 트워렉:
민감한 질문입니다.
저는 두 회사 모두에 좋은 친구들이 있습니다.
두 회사 모두 오늘날 우리가 살고 있는 인공지능 현실을 정의하고 있습니다.
둘 다 매우 성공적인 회사이고, 현재 가장 빠르게 성장하는 회사들 중 하나일 것입니다.
다만 제가 생각하는 것은, 지금 세계가 경쟁 구도에 너무 사로잡혀 있다는 점입니다.
“이 회사가 따라잡고 있다.”
“저 회사가 앞서고 있다.”
이런 식의 경쟁 프레임에 너무 몰입하다 보니, 오히려 혁신의 길에서 조금 벗어난 느낌이 있습니다.
현재의 머신러닝 방식에서 최대한 더 짜내려는 데 집중하고 있는 것 같습니다.
하지만 머신러닝 연구는 결코 끝나지 않았습니다.
아직 할 일이 훨씬 더 많이 남아 있습니다.
그래서 다른 주체들이 다시 등장하고, 새로운 발전과 혁신을 만들어낼 공간도 있다고 생각합니다.
진행자:
아주 흥미롭습니다. 오늘 와주셔서 감사합니다.
제리 트워렉:
감사합니다. 저도 기대됩니다.
전체 0