인터뷰/예측

루카스 카이저 “뭔가 아직 부족”

작성자
작성일
2026-06-04 20:05
조회
7




루카스 카이저 인터뷰 상세 정리

1. “추론만으로 일반화에 도달할 수 있는가?”

진행자:
요즘 AI에서 가장 중요한 질문 중 하나는 “추론(reasoning)만으로 일반화(generalization)에 도달할 수 있느냐, 아니면 다른 방법이 필요하냐”인 것 같습니다. 몇 달 전에도 이 질문을 던졌는데, 지금 생각은 어떻게 바뀌었나요?

루카스 카이저:
지금의 트랜스포머에 추론, 에이전트, 셸 접근 권한, 도구 사용 능력을 붙이면 정말 놀라운 일을 합니다. 2년 전만 해도, 단순한 다음 단어 예측 모델에 체인 오브 소트와 강화학습, 도구 사용을 붙였더니 어려운 업무 문제를 이해하고 코드를 구현하는 수준까지 갈 거라고는 믿지 못했을 겁니다.

그런데도 여전히 “이게 인간과 완전히 같지는 않다”는 느낌이 있습니다. 인간은 훨씬 적은 데이터에서 개념을 잡고, 더 큰 도약을 합니다. 반면 LLM은 어떤 개념을 배우기는 배우지만, “다른 모든 선택지를 소진한 뒤에야” 배우는 것처럼 보입니다. 표면적인 패턴을 엄청나게 많이 학습하고 나서야, 그걸로 설명이 안 될 때 개념을 배웁니다.

그래서 저는 아직 뭔가 다른 방식의 이해, 더 장기적인 개념화 방식, 더 적은 데이터로 일반화할 수 있는 무언가가 있을 수 있다고 느낍니다. 다만 이것은 아직 느낌입니다. 우리가 그 차이를 정확히 짚어내려고 하면, 트랜스포머가 또 따라잡아버립니다.

현재 양쪽 주장이 모두 강해지고 있습니다. 트랜스포머는 계속 강해지고 있고, 동시에 포스트 트랜스포머를 추구하는 연구소들도 흥미로운 결과를 내고 있습니다. 결국 누가 이길지는 아직 모르겠습니다.



2. “포스트 트랜스포머의 분위기는 실제인가, 단순한 바이브인가?”

진행자:
샌프란시스코 쪽에서 “뭔가 새로운 게 있다”는 분위기, 즉 포스트 트랜스포머에 대한 감각이 있다고 하셨습니다. 이건 실제 초기 결과 때문인가요, 아니면 연구자들의 직감인가요?

루카스 카이저:
상당 부분은 직감입니다. 그리고 샌프란시스코의 파티나 팟캐스트, 연구자들 사이의 대화에서 자기강화되는 부분도 있습니다. 하지만 단순한 분위기만은 아니라고 봅니다.

야닉 르쿤도 오래전부터 비슷한 이야기를 해왔습니다. 현재의 신경망은 원래 인간 뇌를 모방하려고 만들어졌지만, 실제로는 뇌와 매우 다릅니다. 인간은 훨씬 적은 데이터로 훨씬 많은 일을 할 수 있습니다. 그러니 현재 모델에는 없는 어떤 근본적인 학습 능력이 인간에게 있다는 생각은 자연스럽습니다.

물론 반론도 있습니다. 지금 모델들은 애초에 수조 토큰으로 학습하도록 최적화됐습니다. 적은 데이터로 학습하도록 설계된 것이 아닙니다. 같은 컴퓨트를 쓰되 데이터를 제한하면 트랜스포머도 훨씬 잘하도록 조정할 수 있을지 모릅니다. 또 인간은 텍스트뿐 아니라 시각, 행동, 세계와의 상호작용에서 엄청난 데이터를 얻습니다. 그래서 단순 비교는 어렵습니다.

그래도 저는 우리가 아직 머신러닝에서 활용하지 못한 무언가가 있다고 봅니다. 그것을 찾아낸다면 지금의 모델을 훨씬 더 놀랍게 만들 수도 있습니다.



3. “현 모델은 엄청나지만, 학습 방식은 아직 비효율적이다”

진행자:
트랜스포머와 추론 모델이 이미 연구 수학 문제도 풀고 있습니다. 이 정도면 충분한 것 아닌가요?

루카스 카이저:
정말 놀랍습니다. 저는 예전에 수학자였기 때문에, 컴퓨터가 실제 연구자 수준으로 수학 이야기를 하는 것을 보게 될 줄은 몰랐습니다. 최근 에르되시 단위거리 문제 관련 이야기도 매우 흥미로웠습니다. 이건 정말 미친 수준의 변화입니다.

하지만 연구자로서는 여전히 “우리가 학습을 제대로 이해한 것은 아니다”라고 느낍니다. 모델은 배우긴 배우지만, 너무 많은 데이터와 너무 많은 컴퓨트가 필요합니다. 뭔가 아직 부족합니다.



4. “데이터가 풍부한 문제는 빠르게 풀리고, 남는 병목은 데이터 제한 영역이다”

진행자:
많은 문제는 데이터가 충분합니다. 그렇다면 굳이 인간처럼 적은 데이터로 일반화하는 방법이 필요한가요?

루카스 카이저:
그 지적은 공정합니다. 하지만 AI 투자가 이렇게 빠르게 들어가는 상황에서는, 데이터가 풍부한 문제들은 매우 빠르게 해결됩니다. 그러면 결국 남는 병목은 데이터가 제한된 문제들입니다.

특히 물리 세계가 그렇습니다. 로봇이나 자율주행은 인터넷 텍스트처럼 데이터를 쉽게 무한 확장할 수 없습니다. 특정 로봇 하드웨어에서 데이터를 모은다고 해도, 가상 세계나 텍스트 세계처럼 쉽게 스케일되지 않습니다.

예를 들어 웨이모 같은 자율주행차는 이미 실제로 존재하고 훌륭합니다. 하지만 고속도로 공사 구간 같은 상황에서 여전히 일반화 문제가 생깁니다. 인간 청소년도 “도시 공사 구간은 운전할 수 있는데 고속도로 공사 구간은 못 한다”는 식의 문제는 없습니다. 공사 구간은 공사 구간으로 일반화합니다. 그런데 모델은 그런 일반화가 아직 어색합니다.



5. “새로운 방법은 아키텍처, 데이터, 손실함수, 최적화 모두 바꿔야 할 수도 있다”

진행자:
그럼 이런 문제는 트랜스포머 안에서 해결될까요, 아니면 완전히 다른 구조가 필요할까요?

루카스 카이저:
머신러닝 연구의 흥미로운 점은 어디를 바꿔야 할지 모른다는 겁니다. 아키텍처를 바꿔야 할 수도 있고, 데이터를 바꿔야 할 수도 있고, 손실함수나 최적화 과정을 바꿔야 할 수도 있습니다. 어쩌면 전부 조금씩 바꿔야 할 수도 있습니다.

트랜스포머가 좋은 것도 단독으로 좋은 것이 아니라, 다음 단어 예측 손실과 잘 맞아떨어졌기 때문입니다. 강화학습도 체인 오브 소트가 있어야 잘 작동합니다. 이런 것들은 퍼즐 조각처럼 맞물릴 때 작동합니다.

저는 RNN에서 머신러닝을 시작했기 때문에 recurrence, 즉 순환 구조에 애착이 있습니다. 사실 reasoning은 어떤 의미에서 recurrence를 다시 가져왔습니다. 매 토큰을 생성할 때 같은 가중치를 반복해서 쓰기 때문입니다. 하지만 다른 방식으로 recurrence를 넣으려 하면 아직 잘 맞물리지 않았습니다.

다만 TRM, HRM 같은 작은 모델들이 스도쿠나 ARC-AGI 같은 문제에서 꽤 잘하는 사례가 있습니다. 작은 규모에서는 recurrence나 구조적 변화를 넣으면 순수 트랜스포머보다 잘할 수 있습니다. 문제는 이것이 언어와 대규모 LLM에 일반화될 수 있느냐입니다. 이건 매우 흥미로운 질문입니다.



6. “코딩 에이전트는 지난 20년 동안 내 연구 방식에 가장 큰 변화다”

진행자:
올해 에이전트가 등장하면서 연구 방식이 바뀌었다고 하셨습니다. 얼마나 생산성이 올라갔나요?

루카스 카이저:
저는 꽤 정량화할 수 있습니다. 최근 개인 컴퓨터에서 예전 논문 몇 개를 재현해봤습니다. 예전에 제가 직접 재현하려고 했을 때는 실행 가능한 상태까지 약 3주가 걸렸던 일이, Codex로는 이틀 만에 됐습니다. 대략 일주일 걸릴 일이 하루가 되는 느낌입니다. 5배인지 10배인지는 모르지만, 분명 리듬이 바뀝니다.

또 하나 큰 변화는 병렬성입니다. 예전에는 한 번에 하나의 일을 했습니다. 지금은 세 가지 일을 동시에 시작해놓고 에이전트에게 맡길 수 있습니다.

개인 프로젝트에서는 거의 코드를 직접 보지 않게 됐습니다. 친구가 “그럼 덜 날카로워지는 것 아니냐”고 물었는데, 저는 오히려 반대라고 생각합니다. 클래스 이름이나 작은 함수 이름을 모두 기억할 필요는 없어졌지만, 대신 전체 머신러닝 구조 — 손실함수, 배치, 실제로 돌아가는 학습 과정 — 를 머릿속에서 훨씬 더 명확히 통제해야 합니다.

에이전트는 가끔 엉뚱하게 보조 손실(auxiliary loss)을 추가해버리기도 합니다. 그러니 전체적으로 무엇이 실행되고 있는지 알고 있어야 합니다. 예전에는 구현 세부사항에 정신이 팔려 큰 그림을 잊곤 했는데, 지금은 큰 그림을 계속 유지하면서 “이렇게 하라”고 지시하고 확인할 수 있습니다. 그래서 단순히 시간이 절약되는 정도가 아니라, 작업이 훨씬 즐거워졌습니다.



7. “AI 연구 인턴 수준에 가까워졌지만, 아직 연구자는 아니다”

진행자:
OpenAI가 올해 11월까지 “연구 인턴 수준”을 목표로 한다고 공개적으로 말했습니다. Codex를 많이 써본 입장에서 가까워졌다고 느끼나요?

루카스 카이저:
인턴에 가까워진 느낌은 있습니다. 하지만 매우 조심스럽게 확인해야 합니다. 아까 말했듯이 모델이 자기가 합리적이라고 생각해서 제가 요청하지 않은 손실함수를 추가하기도 합니다. 인턴도 가끔 창의적이면 그럴 수 있겠죠.

제가 밤새 모델에게 “더 나은 모델을 만들어라, perplexity를 낮춰라” 같은 목표를 주고 그냥 놔둔 적도 있습니다. 그런데 그런 건 잘 안 됩니다. 아주 사소하고 재미없는 조정만 하다가 끝납니다. 그래서 아직 연구자 수준은 아닙니다.



8. “긴 맥락 문제는 파일과 grep이라는 해킹으로 해결되고 있다”

진행자:
그럼 AI가 연구자 수준으로 가려면 무엇이 필요할까요?

루카스 카이저:
저는 오랫동안 long context, 메모리 문제를 연구했습니다. 트랜스포머로도 맥락 길이가 백만 토큰까지 늘어났습니다. 그런데 에이전트 시대가 되니, 긴 맥락의 해법이 사실상 “많은 내용을 파일에 쓰고 grep으로 찾게 하는 것”이 되어버렸습니다.

5년 전의 저에게 이것을 해법이라고 하면 “그건 해킹이지 진짜 해법이 아니다”라고 했을 겁니다. 그런데 머신러닝에서는 작동하는 것이 중요합니다. 드롭아웃도 어떤 의미에서는 해킹입니다. 우리는 모양이 아니라 작동 여부로 판단해야 합니다.

Codex를 Claude Code보다 좋아하는 이유 중 하나가 compaction입니다. 대화를 오래 이어갈 때 요약을 잘해서 흐름을 유지합니다. 이 역시 깊은 원리라기보다는 좋은 프롬프트와 약간의 RL이 결합된 것일 수 있습니다. 그래도 작동합니다.

AI가 연구자가 되려면, 어떤 사람들은 더 큰 개념을 다루고 목표를 따라가는 포스트 트랜스포머 구조가 필요하다고 말할 것입니다. 반면 다른 사람들은 한 달 동안 Codex와 대화한 내용을 다시 분석하게 하고, 메타 패턴을 파일로 쓰게 하고, 여러 사람의 데이터를 모아 RL을 하면 연구자처럼 행동할 수 있다고 볼 것입니다. 실제 인간 연구자도 다른 연구자들을 보고 배우고, 시행착오를 통해 연구 방식을 익힙니다.

하지만 아직 사람들이 이것을 충분히 시도했다고 보지는 않습니다. Codex 시대는 사실상 올해 초, 크리스마스 즈음부터 시작됐다고 봅니다. 아직 반년도 안 됐습니다.



9. “지난 겨울의 코딩 모델 도약은 원인이 명확하지 않다”

진행자:
프리트레이닝 스케일링이나 reasoning 스케일링은 무엇을 키우면 되는지 비교적 명확했습니다. 그런데 Codex와 Claude Code의 최근 도약은 무엇이 원인인지 불명확해 보입니다.

루카스 카이저:
맞습니다. 조금 혼란스럽습니다. 물론 제가 모른다고 해서 아무도 모른다는 뜻은 아닙니다. 어떤 사람들은 더 강한 의견을 갖고 있을 수 있습니다. 하지만 적어도 제게는 무엇이 이 도약을 만들었는지 아주 명확하지 않습니다.

RNN에서 트랜스포머로 넘어갈 때는 원인을 아키텍처 변화로 비교적 쉽게 돌릴 수 있었습니다. Reasoning도 명확히 중요했습니다. 그런데 지난 겨울의 변화는 하네스, 포스트트레이닝, 새로운 프리트레이닝 모델들이 모두 조금씩 바뀌었습니다. 뭔가 큰 점프가 있었지만, 정확히 무엇 때문인지 말하기 어렵습니다.



10. “비검증 영역도 완전히 비검증은 아니다”

진행자:
RL은 코딩이나 수학처럼 검증 가능한 영역에서 잘 작동합니다. 법률, 의료, 창작처럼 검증이 어려운 영역에서는 어떻게 될까요?

루카스 카이저:
비검증 영역에서도 꽤 진전이 있었습니다. 법률의 Harvey나 의료 분야를 보면, 완전히 검증 불가능한 것은 아닙니다. 그 안에도 검증 가능한 부분들이 많이 있습니다. GDPval 같은 벤치마크도 그런 영역을 어느 정도 다룹니다.

사실 “검증 가능/불가능”은 이분법이 아니라 스펙트럼입니다. 코딩, 특히 프로그래밍 대회는 상당히 검증 가능합니다. 하지만 프론트엔드 코딩은 덜 검증 가능합니다. 수학도 사람들이 생각하는 것만큼 완벽히 검증 가능하지 않습니다. Lean으로 형식화할 수는 있지만, 대부분의 GPT 수학 증명은 형식화되어 있지 않습니다.

저는 시를 폴란드어로 번역하는 개인 프로젝트도 했습니다. 시 번역은 매우 비검증적인 영역처럼 보이지만, 모델을 검증자로 쓰면 운율, 문화적 참조 같은 것을 꽤 잡아냅니다. 다만 여전히 “취향”은 어렵습니다. 어떤 번역이 세련되지 않다는 느낌은 분명 있는데, 그걸 말로 쉽게 정의할 수 있다면 이미 검증 가능했을 겁니다.

강화학습은 기본적으로 “좋다/나쁘다”를 알려주는 교사나 검증자가 있으면 그것에 맞춰 잘하게 만드는 방법입니다. 사람이 이미지가 아름다운지 아닌지 클릭해주면, 이미지 생성 모델도 더 아름다운 이미지를 만들게 됩니다. 즉 검증 가능성의 기준은 생각보다 약합니다.

하지만 문제는 구멍을 하나씩 막아야 한다는 겁니다. 특정 영역에서 부족함이 보이면 데이터를 더 넣고 피드백을 주어 개선할 수 있습니다. 그런데 매번 그렇게 때려박지 않아도 되는, 더 뇌 같은 방식이 있다면 훨씬 좋겠죠.



11. “현 구조로도 대부분의 문제는 해결 가능해 보이지만, 경제성이 문제다”

진행자:
그렇다면 현재 구조와 RL 방식으로도 어떤 영역이든 충분히 집중하면 해결 가능하다고 보나요?

루카스 카이저:
그렇게 느껴집니다. 다만 경제성을 고려해야 합니다. 현재 모델을 잘 작동시키려면 꽤 크고 강한 기반 모델에서 시작해야 합니다. 보통 그런 모델은 비싸고 폐쇄형입니다. RL fine-tuning API 같은 것은 좋지만, 완전한 접근 권한은 아닙니다.

또 데이터 구축과 도메인 적용에는 상당한 투자가 필요합니다. 회사, 계약, 전문 데이터가 필요합니다. 중요한 문제라면 그럴 만한 가치가 있지만, 그냥 모델과 대화하면 알아서 해결되는 방식이라면 훨씬 좋겠죠.



12. “RL은 일반화를 만들지만, 이상하고 들쭉날쭉하다”

진행자:
여러 영역에서 RL을 하다 보면 일반 능력도 같이 개선되나요? 아니면 영역별로 따로따로 해야 하나요?

루카스 카이저:
RL에서도 일반화는 분명히 나타납니다. 법률이 RL 파이프라인에 본격적으로 들어가지 않았는데도, Harvey 같은 곳에서는 기본 모델이 이미 잘하거나 아주 조금의 추가 학습으로 잘하게 된다고 합니다.

하지만 이 일반화는 우리가 기대하는 방식과 다르게 작동합니다. 모델은 수학에서 다른 수학 영역으로도 제대로 일반화하지 못할 때가 있습니다. IMO 문제에서도 한동안 기하 문제를 잘 못 풀었습니다. 다른 영역의 어려운 문제는 풀면서 기하는 못 풀었습니다. 그러다 더 많은 기하 문제를 보자 갑자기 풀기 시작했습니다. 꼭 공간 이해 데이터를 본 것도 아니고, 그냥 더 많은 기하 문제를 본 겁니다.

모델의 일반화는 인간에게 가까워 보이는 곳에서 멀고, 인간에게 멀어 보이는 곳에서 가까울 수 있습니다. 우리에게는 가까운 개념이 모델에게는 멀고, 모델에게 가까운 개념이 우리에게는 멀 수 있습니다. 그래서 “외계적 일반화”라고 할 수 있습니다.

이 들쭉날쭉함 때문에 신뢰하기 어렵습니다. 어디에 날카로운 모서리가 있을지 계속 감시해야 합니다.



13. “큰 모델일수록 날카로운 모서리가 줄어든다”

진행자:
애플리케이션 회사들은 핵심 모델 회사와 긴밀히 협력해야 할까요, 아니면 자기 모델을 만들어야 할까요?

루카스 카이저:
현재 확실한 것은, 더 크고 좋은 프리트레인 모델일수록 날카로운 모서리가 줄어든다는 겁니다. RL을 하든 파인튜닝을 하든, 큰 모델에서 시작하면 삶이 훨씬 쉬워집니다.

몇 년 전에는 “LLM은 죽었고 SLM, 작은 모델이 미래다”라는 말이 많았습니다. 지금은 작은 모델들도 정말 훌륭합니다. 몇십억 파라미터 모델이 예전 GPT-3 수준의 일부 능력을 보여주기도 합니다. 하지만 큰 문제를 쉽게 풀고, 자기 데이터와 맥락에 맞추려면 여전히 거대한 모델만 한 것이 없습니다.



14. “개인용 GPU 하나가 예전 트랜스포머 연구 클러스터보다 강하다”

진행자:
새로운 하드웨어 세대가 연구에 어떤 변화를 주나요?

루카스 카이저:
하드웨어는 플롭스와 메모리 접근 속도의 문제입니다. 최근 저는 개인용 컴퓨터에 RTX 5090 GPU를 넣었습니다. BF16 기준으로 대략 200테라플롭스 정도입니다. 우리가 트랜스포머를 연구하던 시절의 GPU는 하나에 9테라플롭스였고, 8GPU 머신을 썼습니다. 대략 머신 하나가 70~80테라플롭스 정도였습니다.

지금 제 책상 밑에 있는 GPU 하나가 당시 머신 여러 대에 해당합니다. 트랜스포머 연구 전체를 오늘날에는 개인용 타워 하나로 재현할 수 있는 수준입니다. 아직 10년도 지나지 않았는데 엄청난 변화입니다.

더 중요한 것은 거대 모델을 훈련하는 것뿐 아니라, 연구자가 더 많은 실험을 할 수 있다는 점입니다. 예전에는 인간 뇌 수준의 계산량이 몇십 년 뒤에나 가능할 거라고 생각했습니다. 그런데 지금은 단일 GPU가 그 추정치에 가까워지고 있습니다.

이제 대학 연구자도, 취미 연구자도, 좋은 아이디어가 있다면 인간의 몇 년치 학습에 해당하는 실험을 며칠 만에 돌려볼 수 있는 시대가 오고 있습니다.



15. “에이전트가 CUDA 커널까지 써주면 아이디어와 하드웨어 사이의 병목이 줄어든다”

루카스 카이저:
RNN 같은 구조는 순차적이어서 PyTorch에서 그냥 돌리면 느립니다. 특수 CUDA 커널을 쓰면 빨라지지만, CUDA 커널 작성은 끔찍한 일입니다.

그런데 이제 에이전트에게 “느린 구현과 같은 결과를 내는 빠른 CUDA 커널을 만들어라”라고 시킬 수 있습니다. 아직 완벽하지는 않지만 이미 가능합니다. 더 큰 모델이 나오면 “이 하드웨어를 최대한 잘 활용하라”고 말하고 몇 시간 뒤 결과를 받는 식이 될 수 있습니다.

예전에는 하드웨어가 내 아이디어와 맞지 않으면 병목이 생겼습니다. 앞으로는 에이전트가 그 간극을 더 많이 메워줄 수 있습니다.



16. “학계와 취미 연구자도 다시 큰 기여를 할 수 있다”

진행자:
거대 컴퓨트는 일부 대형 연구소에만 있으니, 결국 중요한 연구는 큰 연구소에서만 가능한 것 아닌가요?

루카스 카이저:
특히 급진적인 변화가 필요하다고 믿는다면, 학계와 개인 연구자에게도 큰 기회가 있습니다. 저는 날에 따라 생각이 바뀌지만, 긍정적인 날에는 그런 급진적 변화가 더 가능하다고 봅니다.

현재 방법들도 너무 잘 작동하기 때문에 당연히 계속 밀어붙여야 합니다. 하지만 학자의 즐거움은 작은 규모에서 완전히 야생적인 아이디어를 시도할 수 있다는 데 있습니다. 지금의 “작은 규모”는 5년 전보다 훨씬 큽니다. 한 대의 머신으로도 예전보다 훨씬 의미 있는 규모의 실험을 할 수 있습니다.

안드레이 카파시의 nanochat 같은 것도 개인 머신에서 몇 시간 안에 GPT-2 수준 모델을 얻을 수 있습니다. 모든 아이디어가 스케일되지는 않겠지만, 그 과정 자체가 매우 흥미롭습니다.



17. “멀티모달 모델은 아직 인간 감각 처리 방식에 못 미친다”

진행자:
멀티모달 모델에 대해서는 어떻게 보나요? 이전에는 큰 진전이 많지 않다고 하셨는데, 지금도 그렇게 보나요?

루카스 카이저:
진전은 분명 있습니다. 하지만 현재의 멀티모달 트랜스포머나 diffusion 모델은 결국 픽셀이나 패치를 예측하는 방식에 가깝습니다. 인간은 매 순간 엄청난 감각 정보를 병렬적으로 받아들이고 배웁니다. 뉴런은 느리지만, 우리는 시각, 청각, 신체 감각을 동시에 처리합니다.

현재 모델은 이 점을 제대로 반영하지 못했습니다. 이미지를 작은 패치로 쪼개서 순차적으로 처리하는 방식은 뭔가 잘못된 느낌입니다. 고해상도 이미지를 매 밀리초마다 받아들이는 식의 세계와는 맞지 않습니다.

Thinking Machines가 최근 multistream transformer 같은 아이디어를 내놓은 것도 흥미롭습니다. 여러 스트림이 동시에 진행되는 구조가 필요할 수 있습니다. Codex를 쓸 때도, bash 명령이 실행되는 동안 제가 뭔가 말을 해도 모델이 기다려야 하는 상황이 답답합니다. 인간처럼 모든 것이 동시에 일어나는 구조가 더 자연스럽습니다.



18. “OpenAI에서 가장 큰 결정 중 하나는 reasoning으로 피벗한 것”

진행자:
OpenAI에서 겪은 가장 중요한 결정은 무엇이었나요?

루카스 카이저:
제가 있던 시기에서 가장 큰 질문은 reasoning으로 피벗할 것인가였습니다. OpenAI가 “reasoning은 pre-training만큼 중요해질 것이다. 우리 모델은 reasoning 모델이 될 것이고, 출시될 것이다”라고 결단한 것은 매우 용감한 결정이었습니다.

초기의 reasoning 모델은 말이 많지 않았고, personality를 넣기도 어려웠고, 느렸습니다. 그래서 “사람들이 그냥 채팅 모델을 더 좋아하지 않을까?”라는 질문이 있었습니다. 하지만 OpenAI는 이 방향으로 가기로 했습니다.

두 종류의 모델 라인을 동시에 운영하는 것은 끔찍하게 어렵습니다. 언젠가는 통합해야 했고, 그 통합도 오래 걸렸습니다. 하지만 그 결정을 하지 않았다면 지금의 많은 놀라운 것들이 없었을 겁니다.

다만 회사가 커지면 이런 야생적인 베팅을 하기가 어려워집니다. OpenAI도 그 사이 20배쯤 커졌을 것이고, Anthropic도 커졌고, Google은 원래 컸습니다. 큰 회사는 잃을 것이 많고 프로세스도 많기 때문에 과감한 결정을 하기 어렵습니다. 저는 OpenAI와 다른 연구소들이 이런 능력을 계속 유지하기를 바랍니다.



19. “Anthropic은 코딩에 집중한 것이 매우 좋은 결정이었다”

진행자:
Anthropic이 왜 코딩 쪽에서 먼저 크게 성공했다고 보나요?

루카스 카이저:
Anthropic은 코딩에 집중하는 매우 좋은 결정을 했습니다. 당시 OpenAI는 ChatGPT에 집중하고 있었습니다. 물론 ChatGPT는 훌륭했지만, Anthropic은 채팅에서 정면으로 경쟁하기 어려웠기 때문에 다른 곳에 베팅했습니다. 그 베팅이 코딩이었고, 매우 좋은 선택이었습니다.

OpenAI도 코딩을 하지 않은 것은 아닙니다. 그래서 꽤 빨리 따라잡을 수 있었습니다. 하지만 초점이 달랐습니다. 회사가 10억 사용자 규모로 성장하면 해야 할 일이 너무 많습니다.

AI에서는 지금 잘되는 것에만 집중하면 다음 변화를 놓칠 수 있습니다. 2025년에 가장 놀라운 AI가 ChatGPT였다면, 2026년에는 아닐 수 있습니다. 2027년에는 또 다른 것이 나올 수 있습니다. 좋은 베팅을 하면 먼저 그 영역을 장악할 수 있습니다.



20. “Google은 넓게 들고 가는 전략 덕분에 따라잡을 수 있다”

진행자:
Google은 트랜스포머를 발명했지만 먼저 상업적으로 장악하지 못했다는 비판을 받습니다. 어떻게 보나요?

루카스 카이저:
Google은 여러 방향의 연구팀을 계속 유지하는 연구소입니다. 사람들은 그것을 비판하지만, 그런 전략은 나중에 따라잡기 쉽게 만듭니다. 어떤 좋은 것이 나오면 이미 그 분야에 강한 팀이 있기 때문입니다.

저는 Google이 ChatGPT 세계에서는 따라잡았다고 봅니다. 하지만 Codex/Claude Code식 세계에서는 아직 완전히 따라잡은 것 같지는 않습니다. 예를 들어 Gemini 3.5 Flash를 Codex처럼 써봤는데, 제 느낌으로는 아직 그 장벽을 넘지 못했습니다. 하지만 결국 넘을 것이라고 봅니다.

넓게 유지하면 즉각적인 승리는 놓칠 수 있습니다. Anthropic이 코딩에서 먼저 성공한 것처럼 말입니다. 하지만 나중에 따라잡는 데는 유리합니다.



21. “닫힌 모델과 오픈소스 모델의 격차는 유지될 가능성이 크다”

진행자:
폐쇄형 모델과 오픈소스 모델의 격차는 앞으로 벌어질까요, 줄어들까요?

루카스 카이저:
예측하기 쉽지 않습니다. 큰 모델은 더 좋습니다. 증류(distillation)를 하면 작은 모델도 좋아지지만, 증류된 모델은 큰 모델과 완전히 같지는 않습니다.

저는 mini 모델들을 잘 안 쓰게 됐습니다. 쓸 때는 괜찮아 보이다가, 한 번 삐끗해서 제 시간을 너무 많이 낭비하면 다시 큰 모델로 돌아갑니다.

그렇다고 오픈소스가 매우 뒤처질 위험이 크다고 보지는 않습니다. 충분한 회사와 국가적 수요가 있습니다. 예를 들어 한 국가가 경찰서나 병원 행정에 AI를 쓰려 한다면, 특정 회사 하나의 모델과 장애 상황에 의존하고 싶지 않을 수 있습니다. 약간 약하더라도 주권적 모델, 오픈 모델을 원할 이유가 많습니다.

그래서 오픈 모델은 계속 존재할 것이고, 대형 연구소들은 앞서가기 위한 인센티브가 있을 것입니다. 이 상태가 한동안 지속될 것 같습니다.



22. “지난 1년간 가장 크게 마음을 바꾼 것은 AI 인턴의 속도”

진행자:
지난 1년 동안 AI에 대해 생각을 바꾼 것이 있다면 무엇인가요?

루카스 카이저:
AI가 이렇게 빨리 인턴 같은 존재가 될 거라고 믿지 않았습니다. 저는 예전에는 AI와 매일 대화하지 않았습니다. 사람들이 “ChatGPT를 어떻게 쓰냐”고 물으면, 하루에 한 번 물어봤다거나 며칠 전에 한 번 썼다고 말하곤 했습니다.

저는 컴퓨터와 그렇게 많이 대화하게 될 줄 몰랐습니다. 그런데 이제는 업무에 대해 계속 대화합니다. 또 프로그래밍할 때 에디터를 거의 쓰지 않게 될 거라고도 생각하지 않았습니다. 이제는 그냥 “코드를 이렇게 바꿔라”고 말합니다. 이건 큰 업데이트였습니다.



23. “실존위험보다는 당장은 해킹, 전력망 같은 작은 위험에 집중한다”

진행자:
모델이 발전하면서 실존위험이나 안전 우려는 커졌나요, 줄었나요?

루카스 카이저:
제 생각은 크게 바뀌지 않았습니다. 저는 항상 “너무 걱정하지는 않지만, 안일해서도 안 된다”는 쪽이었습니다.

지금 모델들이 프로그래밍 능력을 갖게 되면서 제가 더 신경 쓰는 것은 작은 위험입니다. 예를 들어 시스템을 해킹한다든지, 전력망을 망가뜨린다든지 하는 위험입니다. 지금은 그런 위험에 집중해야 한다고 봅니다.

실존위험을 생각하는 사람들이 있는 것은 좋습니다. 가드레일도 필요합니다. 최종적으로는 우리가 원한다면 데이터센터를 끌 수 있어야 하고, 통제권을 가져야 합니다. 하지만 모델이 훨씬 좋아졌다고 해서, 저는 아직 모델 자체에서 직접적인 위협을 느끼지는 않습니다.



24. “RSI와 연구 자동화는 대단하지만, 연구 돌파구는 여전히 어렵다”

진행자:
최근 안드레이 카파시가 Anthropic에서 RSI 관련 일을 한다는 이야기가 있었습니다. 어떻게 보나요?

루카스 카이저:
저도 이 “psychosis”의 일부입니다. AI 어시스턴트와 함께하면 연구를 정말 많이 할 수 있습니다. 시스템의 많은 부분도 더 빨리 개선할 수 있습니다.

하지만 포스트 트랜스포머 같은 연구 돌파구를 생각하면, 아이디어 공간은 너무 넓고 대부분은 틀립니다. 연구란 원래 그런 것입니다. 엄청난 기술과 행운이 필요합니다. 뭔가 공기 중에 있다는 느낌은 있지만, 실제 돌파구는 몇 년 떨어져 있을 수도 있습니다.

AI가 인간 수준 연구자, 혹은 10배 연구자가 된다고 해도, 수많은 인간 연구자들이 오랫동안 시도하고도 못 푼 문제는 여전히 어려울 수 있습니다. 인간 뇌에 대해서도 우리는 아직 거의 모르고, 그것을 머신러닝과 제대로 연결하지 못하고 있습니다.

그래서 저는 현재 시스템이 더 좋아지는 것은 확실하다고 보지만, 연구 돌파구가 자동으로 금방 나온다고 보지는 않습니다.



25. “왜 창업하지 않았나?”

진행자:
Transformer 논문 공동저자들 대부분이 회사를 창업했습니다. 본인은 창업을 생각해보지 않았나요?

루카스 카이저:
정말 많이 질문받았습니다. 하지만 저는 아직까지 창업하지 않은 것이 매우 만족스럽습니다. Google과 OpenAI에서 보낸 시간은 훌륭했고, 그곳에서 일할 수 있었던 것은 특권이었습니다.

저는 기술적인 일을 사랑합니다. 회사를 시작한 사람들은 처음에는 회사 업무에 그렇게 많은 시간을 쓰지 않아도 될 거라고 생각했을 수 있지만, 실제로는 많이 써야 합니다. 물론 회사들이 놀라운 일을 하기도 합니다.



26. “지금은 머신러닝 연구자가 되기에 가장 흥미로운 시기다”

진행자:
마지막으로 청중에게 남기고 싶은 말이 있다면요?

루카스 카이저:
저는 지금이 머신러닝 연구자가 되기에 다시 한번 가장 흥미로운 시기라고 생각합니다. 책상 밑에 둘 수 있는 강력한 GPU가 있고, 그 GPU를 한계까지 밀어붙이도록 도와주는 코딩 에이전트가 있습니다. 대형 연구소들은 트랜스포머를 계속 밀고 있고, 그것은 훌륭합니다. 동시에 다른 무언가, 포스트 트랜스포머의 가능성도 공기 중에 있습니다.

저는 사람들이 더 많은 야생적인 아이디어를 시도했으면 좋겠습니다. 요즘 논문 중에는 “프리트레인 모델을 조금 다르게 RL했다”는 식의 논문이 많습니다. 그것도 좋지만, 기존을 따라잡으려 하지 말고 새로운 것을 해봐도 됩니다. 작게 시작해도 되고, 처음에는 실패해도 됩니다.

저도 “Attention Is All You Need” 전년도에 “You don’t need attention”에 가까운 논문을 썼습니다. active memory로 대체하자는 내용이었고, 결과적으로 좋은 조언은 아니었습니다. 하지만 틀린 방향을 탐색해야 옳은 방향으로 이어질 수 있습니다.

모델들이 아직 잘 못하는 것도 바로 이것입니다. 완전히 틀린 방향에서 배워서, 그것을 비틀어 옳은 방향으로 가져가는 능력입니다. 인간은 아직 이것을 잘합니다. 그러니 우리는 더 많은 야생적 탐색을 해야 합니다. 에이전트가 있으면 실패 비용도 줄어듭니다. 연구 탐색을 하고, 실패하고, 거기서 흥미로운 것에 도달해야 합니다.



핵심 요약

이 인터뷰의 핵심은 루카스 카이저가 현재 AI를 엄청나게 강력하지만 아직 인간식 일반화에는 도달하지 못한 시스템으로 보고 있다는 점입니다.

그는 트랜스포머와 reasoning, RL, 코딩 에이전트의 성과를 매우 높게 평가합니다. 특히 Codex 같은 도구는 연구자의 생산성을 5~10배 가까이 바꾸고, 연구 방식 자체를 바꿨다고 말합니다. 하지만 동시에 현재 모델은 너무 많은 데이터와 컴퓨트가 필요하고, 일반화가 인간처럼 매끄럽지 않으며, 특정 영역에서 날카로운 실패 지점을 보인다고 지적합니다.

그는 포스트 트랜스포머 가능성에 열려 있습니다. 다만 그것이 반드시 필요하다고 단정하지는 않습니다. 현재 방식도 계속 강해지고 있고, RL과 도구 사용, 파일 기반 메모리 같은 “해킹처럼 보이는 방법”도 실제로는 매우 잘 작동하기 때문입니다.

결국 그의 입장은 이렇습니다.

“현재 AI는 이미 지능적이고, 코딩 에이전트는 AGI라고 불러도 이상하지 않을 만큼 강력하다. 하지만 인간처럼 적은 데이터로 개념을 잡고, 틀린 방향에서 배워 옳은 방향으로 비트는 능력은 아직 부족하다. 그래서 지금이야말로 기존 스케일링을 계속 밀면서도, 야생적인 새 아이디어를 실험해야 할 가장 흥미로운 시기다.”
전체 0