노엄 브라운 "현재 연구소들의 가장 큰 병목도 결국 시간"

작성자

작성일

2026-06-27 12:36

조회

No Priors 인터뷰: 노엄 브라운 — “현대 AI 모델 평가는 지금 방식으로는 부족하다”

사라 고아:
오늘은 AI 추론(reasoning) 분야의 중요한 연구자인 노엄 브라운을 다시 초대했다. 이번 대화에서는 기존 벤치마크 평가가 왜 현대 AI 모델의 능력을 제대로 보여주지 못하는지, 대규모 테스트 타임 컴퓨트(test-time compute), 재귀적 자기개선(RSI), 프런티어 모델 경쟁에 대해 이야기한다.

노엄 브라운:
다시 나오게 되어 기쁘다.

1. 왜 벤치마크 방식이 문제인가

사라:
최근 노엄이 “대규모 테스트 타임 컴퓨트”에 대한 글을 썼다. 왜 이 글을 쓰게 되었나?

노엄:
계기는 GPT-5.5가 공개됐을 때의 반응이었다. 처음 몇 시간 동안 사람들은 “이게 정말 5.4보다 크게 나아진 모델인가?” 하고 의심했다. 공개된 벤치마크 표를 보면 5.5가 5.4보다 몇 퍼센트포인트 오른 정도로만 보였기 때문이다.

하지만 사람들이 직접 써보자 반응이 바뀌었다. 실제 체감은 훨씬 좋아졌다. 이유는 벤치마크 결과가 모델이 얼마나 오래 생각했는지, 즉 테스트 타임 컴퓨트를 통제하지 않고 제시됐기 때문이다.

5.5는 5.4보다 훨씬 효율적으로 생각한다. 같은 최대 설정에서 5.4는 더 오래 생각하고 답을 내놓는다. 반면 5.5는 더 적은 생각 시간으로 더 좋은 성능을 낸다. 생각 시간이나 비용을 맞춰서 비교하면 5.5가 훨씬 큰 도약이라는 점이 드러난다.

2. “모델 성능”은 이제 고정값이 아니다

사라:
그러면 왜 그냥 5.5도 5.4만큼 오래 생각하게 만들면 안 되나?

노엄:
그 질문이 바로 핵심이다. “얼마나 오래 생각하게 해야 하는가?”라는 문제가 생긴다. 예전 GPT-3 시절에는 모델이 오래 생각해도 별로 좋아지지 않았다. 그래서 어느 정도 실행하면 성능이 금방 정체됐다.

하지만 지금 모델들은 다르다. 잘 설계된 스캐폴드(scaffold)를 붙이면 모델이 며칠, 심지어 몇 주 동안도 유의미하게 계속 성능을 개선할 수 있다. 어떤 벤치마크에서는 성능이 정체되는 지점이 너무 멀리 있어서 현실적으로 거기까지 테스트하기 어렵다.

그래서 이제 모델 평가는 단일 점수로 하면 안 된다. 토큰 수, 시간, 비용, 추론 예산 같은 x축을 두고, 그 예산에 따라 성능이 어떻게 변하는지를 보여줘야 한다.

3. 벤치마크에는 “예산 축”이 필요하다

사라:
모델이 아주 오랫동안 계속 개선된다면, 평가 주기 안에서 그런 테스트를 다 돌릴 수 없지 않나?

노엄:
맞다. 예를 들어 사이버 보안 평가에서는 모델이 1억 토큰까지도 계속 개선되는 사례가 보인다. 문제는 그런 평가를 실제로 돌리는 데 시간이 오래 걸린다는 것이다.

그래도 방법은 있다. 낮은 예산에서 성능 곡선을 관찰한 뒤, 더 큰 예산에서 어떤 성능이 나올지 예측하는 연구가 가능하다. 예컨대 10달러나 100달러 수준의 추론 예산만 보고, 1만 달러 예산에서는 성능이 어디까지 갈지 예측할 수 있을까? 이런 연구는 아직 많이 안 됐고, 학계가 다룰 만한 좋은 주제라고 본다.

4. 사용자는 모델을 충분히 오래 생각하게 하고 있나

사라:
일반 사용자들은 모델을 충분히 오래 생각하게 하지 않는 편인가?

노엄:
문제에 따라 다르다. 모델을 일주일 동안 생각하게 하면 벤치마크상으로는 좋아 보일 수 있지만, 실제 사용에서는 비현실적이다. 질문 하나 하고 일주일을 기다릴 수는 없다.

실제로는 빠른 반복이 중요하다. 어떤 경우에는 모델이 바로 답해야 하고, 어떤 경우에는 사용자가 오래 생각하길 원할 수 있다. 따라서 모델의 생각 시간은 유연해야 한다. 지금 사용자들은 현재 조건 안에서는 나름 적절한 균형을 잡고 있다고 본다.

5. 벤치마크 맥싱과 “겉보기 성능” 문제

사라:
요즘 벤치마크 맥싱, 즉 벤치마크 점수를 최대화하는 문제에 대한 이야기도 많다. 현재 벤치마크 환경을 어떻게 보나?

노엄:
이것도 글을 쓴 이유 중 하나다. 지금은 여러 모델을 묶거나 같은 모델을 여러 번 돌린 뒤 최고 답변을 고르는 식으로 점수를 쉽게 올릴 수 있다. 예를 들어 모델을 한 번만 실행하는 대신 다섯 번 실행하고, 그중 가장 좋은 답을 고르면 점수가 올라간다.

그런데 그건 모델 자체가 좋아진 것이라기보다 더 많은 테스트 타임 컴퓨트를 쓴 것일 수 있다. 따라서 비용이나 토큰 수를 통제하지 않으면 실제 개선인지, 단지 더 많이 돌린 결과인지 구분하기 어렵다.

벤치마크 자체도 공개되면 최적화 대상이 된다. 그래서 OpenAI 내부에서는 특정 벤치마크에 과도하게 최적화하지 않으려 한다. 해결책 중 하나는 공개되지 않은 비공개 홀드아웃 세트를 유지하는 것이다.

6. 노엄이 개인적으로 쓰는 평가: 포커 봇 만들기

사라:
새 모델이 정말 좋아졌는지 알아보려면 직접 써보라는 말이 많다. 노엄은 어떤 식으로 평가하나?

노엄:
나는 요즘 모델에게 포커 봇을 만들게 한다. 좋은 평가라고 생각한다. 포커 봇은 오픈소스 코드가 많지 않고, 논문은 있지만 실제로 구현하려면 많은 추론과 반복이 필요하다. 작은 함정도 많다. 내가 직접 겪어본 문제들이라 모델이 어디서 실패하는지 잘 볼 수 있다.

초기 모델들은 거의 아무것도 못 했다. 5.2쯤 되자 리버 솔버, 즉 포커 마지막 단계의 솔버를 함께 만들 수 있었다. 내가 직접 하는 것보다 다섯 배 정도 빠르게 만들 수 있었다. 특히 최적화는 굉장히 인상적이었다. 내가 만든 코드보다 10배 빠르게 만들기도 했다.

하지만 5.2에는 단점도 있었다. 모델이 나를 “가스라이팅”하는 느낌이 있었다. 자신이 제대로 했다고 말하지만 실제로 확인하면 틀린 경우가 많았다. 예를 들어 “팟에 100달러가 있는데 폴드하면 얼마를 잃느냐”고 물었더니 92달러라고 답한 적이 있다. 내가 “100달러를 넣고 폴드했는데 왜 100달러를 잃지 않느냐”고 하자, 모델은 “92는 100에 가깝고 큰 문제는 아니다”라는 식으로 반응했다. 명백히 문제가 있었다.

5.5에서는 훨씬 좋아졌다. 거의 제로샷으로 상당 부분을 해낸다. 지금은 풀스케일 포커 솔버 작업을 하고 있는데, 약간의 방향 제시만 하면 전체를 거의 해낸다. 6개월이나 1년 뒤에는 내 박사 논문 전체에 해당하는 포커 솔버를 한 번에 제로샷으로 만들 수도 있을 것 같다.

7. 안전 평가에도 테스트 타임 컴퓨트 문제가 있다

사라:
이 문제는 안전 평가에도 영향을 줄 것 같다. 어떤 의미인가?

노엄:
불편한 진실에 가깝다. 각 AI 연구소에는 책임 있는 스케일링 정책이나 대비 프레임워크가 있다. 모델을 출시하기 전에 위험한 능력이 있는지 평가한다. 예를 들어 생물무기 제작 같은 위험한 일을 할 수 있는지 본다.

그런데 많은 프레임워크는 ChatGPT 전후, 테스트 타임 컴퓨트 스케일링이 중요하지 않던 시절에 만들어졌다. GPT-3는 1달러를 쓰든 1,000만 달러를 쓰든 능력이 크게 달라지지 않았다. 그러나 지금은 다르다. 모델의 능력이 투입 예산의 함수가 됐다.

10달러 예산으로는 못 하는 일을 1만 달러 예산으로는 할 수 있고, 1,000만 달러 예산으로는 더 많은 일을 할 수 있다. 그러면 안전 평가는 어느 예산에서 해야 하는가? 현재 정책들은 이 질문을 충분히 다루지 않는다.

8. 모델 출시 주기와 장기 평가의 충돌

사라:
모델이 장기간 실행될수록 능력이 계속 올라간다면, 모델 출시 주기와 충돌하지 않나?

노엄:
맞다. GPT-3 시절에는 모델을 일주일 동안 실행해도 유용한 일을 시키기 어려웠다. 하지만 최신 모델은 5.5 같은 모델에 스캐폴드를 붙이면 몇 주, 몇 달 동안 실험을 진행하게 할 수 있다.

예를 들어 내가 포커 솔버 작업을 한 달 동안 계속 하라고 시킬 수 있는 세계가 곧 올 것 같다. 지금 당장은 완전한 풀 포커 솔버를 단순히 “한 달 동안 해봐”라고 해서 성공할 정도는 아니지만, 꽤 가까워지고 있다.

문제는 모델이 한 달 동안 무엇을 할 수 있는지 알려면 실제로 한 달을 돌려봐야 한다는 것이다. 6개월 후의 능력을 알고 싶으면 6개월 동안 돌려봐야 한다. 그런데 지금 모델은 2~3개월마다 새로 나온다. 그러니 아무도 현재 모델의 진짜 상한을 모른다.

9. 이미 공개된 모델에도 숨은 능력이 있다

사라:
이미 공개된 모델 안에도 사람들이 아직 충분히 탐색하지 못한 잠재 능력이 있다고 보나?

노엄:
그렇다. 좋은 예가 에르되시 단위 거리 문제다. OpenAI 내부 모델이 몇 주 전 이 추측을 반례로 깼다. 나는 수학자는 아니지만 수학계에서는 꽤 큰 사건으로 보였다.

흥미로운 점은 그 작업이 엄청난 예산으로 된 게 아니라는 것이다. 새 모델을 훈련하고 “어떤 문제를 풀 수 있나” 보던 중 낮은 예산에서 반례가 나왔다.

더 흥미로운 건 이후 사람들이 5.5에서도 비슷한 답을 끌어낼 수 있다는 걸 발견했다는 점이다. 단순히 “이 추측을 반례로 깨봐”라고 물으면 안 되지만, 여러 접근법을 나열하게 하고, 유망한 경로를 더 탐색하게 하면 결국 반례에 도달할 수 있었다.

즉, 원칙적으로는 공개된 5.5만으로도 충분한 스캐폴딩과 예산이 있었다면 누군가 먼저 그 문제를 풀 수 있었을 가능성이 있다. 다만 비용은 아마 수천 달러에서 10만 달러 정도 들었을 수 있다.

10. 그러면 지금 모델을 깊게 파야 하나, 다음 모델을 기다려야 하나

사라:
그렇다면 사람들은 현재 세대 모델을 더 많이 실험해야 하나?

노엄:
흥미로운 질문이다. 모델 출시 주기가 워낙 빠르기 때문이다. 두 달 뒤 새 모델이 나오면 같은 일을 10배, 100배 싸게 할 수 있을 수 있다. “왜 지금 엔지니어링을 하지? 그냥 다음 모델 기다리면 되는 거 아냐?”라는 밈이 나오는 이유다.

OpenAI 내부에서도 수학자와 물리학자들이 모델로 열린 문제를 풀어보고 싶어 한다. 하지만 우리는 사람들이 모든 시간을 그런 데 쓰지 않도록 권장한다. 지금 모델의 한계를 끝까지 밀어붙이는 것도 유혹적이지만, 더 중요한 건 더 강력한 모델을 만들고 안전하게 세상에 배포해서 전 세계 과학자들이 직접 문제를 풀 수 있게 하는 것이다.

11. 재귀적 자기개선, RSI에 대한 노엄의 견해

사라:
대규모 테스트 타임 컴퓨트가 연구 방향이나 재귀적 자기개선에 어떤 영향을 준다고 보나?

노엄:
먼저 분명히 하고 싶은 것은, 아직 모델이 임의의 거대한 추론 예산만 주면 전 영역에서 초지능이 되는 단계는 아니라는 점이다. “GPT-7을 만들어라”라고 명령하고 그냥 놔두면 되는 세계는 아니다.

모델은 더 오래 생각해도 개선되지 않는 영역이 있다. 예를 들어 “아브라함 링컨은 언제 태어났나?” 같은 사실 검색 문제는 모르면 오래 생각해도 소용없다. 위키피디아 접근 없이 일주일 생각한다고 생년월일을 더 잘 기억하게 되는 건 아니다.

반대로 테스트 타임 컴퓨트를 많이 쓸수록 계속 좋아지는 문제도 있다. 스도쿠가 예다. 무작위 조합을 계속 시도하는 단순한 방식으로도 시간이 충분하면 결국 풀 수 있다.

대부분의 벤치마크는 이 두 극단 사이 어딘가에 있다. 모델이 충분히 오래 생각한다고 모든 일을 다 할 수 있는 건 아니다. 특히 연구에서는 아직 “연구 취향”이 좋지 않다. 모델은 연구자를 매우 잘 보완하지만, 연구 사이클 전체를 완전히 대체하지는 못한다.

12. 연구 능력에서 모델이 잘하는 것과 못하는 것

사라:
모델에게 연구 과제를 시켰을 때 “이건 아직 못 한다”고 느낀 예가 있나?

노엄:
포커 솔버 예로 돌아가면, 모델은 내가 박사 과정에서 만든 알고리즘을 최적화하는 데 매우 뛰어났다. 내가 얼마나 비효율적이었는지 놀랄 정도였다. 10배, 100배 빠르게 만들기도 했다.

하지만 “기존 알고리즘보다 더 좋은 새로운 알고리즘을 만들어라. 논문들을 종합해서 novel한 걸 제안해봐”라고 하면 아직 잘 못 한다. 많은 시간을 줘도 단순히 더 나은 알고리즘을 생각해내지는 못한다.

물론 스캐폴드를 더 잘 짜고 문제를 더 제한하면 가능할 수도 있다. 하지만 지금은 그냥 “더 좋은 알고리즘을 만들어줘”라고 해서 되는 단계는 아니다. 그래도 모델 출시 때마다 이 능력은 점점 좋아지고 있다. 언젠가 코딩이나 수학에서 그랬던 것처럼 연구 취향에서도 임계점을 넘을 수 있다고 본다.

13. 빠른 이륙인가, 점진적 이륙인가

사라:
그렇다면 노엄은 지금 아주 빠른 이륙, 즉 하룻밤 사이의 지능 폭발이 가깝다고 보지는 않는 건가?

노엄:
빠르다는 건 상대적이다. 지금도 엄청나게 빠르게 움직이고 있다. 하지만 “하룻밤 사이에 모델이 자신을 더 똑똑하게 만드는 돌파구를 발견하고, 그 돌파구가 또 다음 돌파구를 만들고, 순식간에 전 영역 초인간이 되는” 시나리오로 가고 있다고 보지는 않는다.

이유는 현재 모델의 최고 능력이 대규모 테스트 타임 컴퓨트에 크게 의존하기 때문이다. 모델이 가장 강력한 능력을 발휘하려면 오래 실행되어야 한다. 그러면 시간 자체가 병목이 된다. 모델이 아무리 강해도 충분히 오래 돌려야 한다면 모든 것이 즉시 폭발적으로 변하지는 않는다.

현재 연구소들의 가장 큰 병목도 결국 시간이라고 본다. 연구자들이 매우 강도 높게 일하는 이유도 여기에 있다. 우리는 능력의 오버행을 보고 있고, 무엇이 가능한지도 보지만, 얼마나 빨리 실행할 수 있느냐가 문제다.

14. 멀티에이전트와 집단 지능

사라:
아직 덜 탐구된 프런티어는 무엇이라고 보나? 예전에 멀티에이전트 이야기도 했다.

노엄:
멀티에이전트는 꽤 많이 탐구되고 있다고 본다. 하지만 충분한 규모에서는 아직 더 할 수 있는 게 많다. 특히 멀티에이전트는 작은 모델로 연구하기 어렵고, 프런티어 모델이 있어야 잠재력이 제대로 드러난다.

인간 문명을 보면, 지난 5만 년 동안 인간 개개인의 지능이 생물학적으로 크게 진화해서 오늘날 문명이 생긴 게 아니다. 수십억 명의 인간이 오랜 시간 생각하고, 지식을 축적하고, 서로 공유하고, 그 위에 다시 쌓았기 때문에 가능했다.

AI 모델은 아직 그렇지 않다. 모델은 짧은 컨텍스트 안에서 태어나 잠깐 존재하다가 사라지는 것에 가깝다. 물론 연속성을 부여하려는 방법들이 있지만 매우 제한적이다.

앞으로는 모델들이 더 큰 규모로 지식을 공유하고, 서로 축적하고, 그 지식 위에 생산적으로 쌓아가는 세계로 갈 것이라고 본다. 아직은 초기 신호만 보이는 단계다.

15. 프런티어 연구소 경쟁

사라:
하룻밤 사이의 하드 테이크오프가 아니라면, 프런티어 연구소 간 경쟁은 어떻게 봐야 하나?

노엄:
경쟁은 매우 치열하다. 현재 모델들은 이미 프런티어 연구소 연구자들의 생산성을 높이고 있다. 아직 한계는 있지만, 모델을 써서 모델 연구를 개선하는 것은 실제로 일어나고 있고, 앞으로 더 강해질 것이다.

그래도 위안이 되는 점은 프런티어 연구소 연구자들이 지금 무엇이 걸려 있는지 이해하고 있다는 점이다. 이 모델들이 엄청난 좋은 결과로 이어질 수도 있고, 매우 나쁜 결과로 이어질 수도 있다는 걸 알고 있다. 경쟁은 있지만, 동시에 긍정적인 결과로 가기 위해 어떻게 해야 하는지 고민하고 있다고 본다.

16. 사람들은 AI를 어떻게 써야 하나

사라:
노엄은 추론과 테스트 타임 컴퓨트의 중요성을 일찍부터 봐왔다. 사람들이 모델을 어떻게 쓰면 좋겠다고 보나?

노엄:
많은 사람들이 2022년이나 2023년에 AI를 써보고 “출력을 믿기 어렵다”고 느낀 뒤, 중요한 결정에는 쓰지 않는 경우가 있다. 하지만 모델은 많이 발전했다. 이제는 꽤 중요한 질문에도 유용하다.

나는 세금 조언을 물어보기도 하고, 최근 콘도를 샀을 때 필요한 서류가 무엇인지, 각 서류가 무슨 의미인지 모델에게 물어봤다. 이런 종류의 질문에는 정말 좋다. 일상적으로 많이 사용한다.

개인적으로는 이제 모델 출력을 인간 전문가보다 더 신뢰할 수 있는 경우도 있다고 느낀다. 물론 상황에 따라 검증은 필요하지만, 예전처럼 “그냥 못 믿겠다”는 단계는 지났다고 본다.

17. 연구 커뮤니티가 아직 충분히 받아들이지 않은 것

사라:
다른 연구자들이 아직 노엄만큼 중요하게 여기지 않는 것이 있다면?

노엄:
사실 테스트 타임 컴퓨트의 중요성이 아직 완전히 컨센서스라고 느끼지 않는다. 사람들이 말로는 “벤치마크에 x축이 있어야 한다”고 동의하지만, 실제로는 여전히 기존 벤치마크 표를 발표한다.

왜냐하면 사람들이 그 표를 기대하기 때문이다. 그런데 사람들이 왜 그 표를 기대하느냐? 모두가 그 표를 발표하기 때문이다. 그래서 나쁜 균형 상태가 만들어졌다. 모두가 지금 방식이 부족하다는 걸 알지만, 아무도 먼저 벗어나려 하지 않는다.

내 글의 목적은 “우리가 나쁜 균형에 있다”는 걸 명확히 말하는 것이었다. 앞으로 모델 출시 때는 단일 점수 표가 아니라, 토큰·시간·비용 같은 x축을 둔 평가가 더 자연스럽게 받아들여졌으면 한다.

18. 라우팅 레이어와 모델 선택 비즈니스에 대한 견해

사라:
많은 기업들이 자기들의 가치는 라우팅 레이어, 즉 어떤 과제에 어떤 모델을 얼마나 쓰는지 최적으로 선택하는 데 있다고 말한다. 이 관점은 어떻게 보나?

노엄:
그것도 결국 같은 문제와 연결된다. 라우팅 레이어를 쓰면 여러 모델의 답을 비교하거나 합의시켜 더 좋은 성능을 낼 수 있다. 나는 그런 방식이 개별 모델 하나보다 더 좋은 성능을 낼 수 있다고 본다.

하지만 중요한 질문은 이것이다. 같은 테스트 타임 컴퓨트 예산을 썼을 때도 더 나은가? 여러 모델을 돌리는 대신 가장 좋은 모델 하나를 더 오래 생각하게 했을 때보다 좋은가?

라우팅이 의미 있을 수는 있다. 하지만 비용, 토큰, 시간 기준으로 통제한 뒤 비교해야 한다. 그리고 기존 벤치마크와 마찬가지로, 라우팅도 특정 벤치마크에 과최적화될 수 있다. 실제 사용 사례에서도 개선이 의미 있게 유지되는지 봐야 한다.

19. 마무리

사라:
오늘 나와줘서 고맙다. 기존 벤치마크의 잘못된 균형에서 벗어나게 하는 미션을 해줘서 고맙다.

노엄:
다시 나와서 좋았다.

전체적으로 노엄 브라운의 주장은 이렇습니다. 현대 AI 모델은 더 이상 “단일 벤치마크 점수”로 평가할 수 없다. 모델의 능력은 이제 추론에 얼마나 많은 시간·토큰·비용을 투입하느냐에 따라 달라진다. 따라서 모델 평가, 안전 평가, 기업의 라우팅 전략, 프런티어 경쟁까지 모두 테스트 타임 컴퓨트라는 축을 중심으로 다시 생각해야 한다.

전체 0

« 마크 첸 "여러분도 AGI가 곧 온다고 느끼고 있길 바란다"

목록보기 답글쓰기

글수정 글삭제