노엄 브라운 “모델은 이미 내가 이해할 수 있는 수준을 넘어섰다”

작성자

작성일

2026-06-06 00:01

조회

1. “모델은 이미 내가 이해할 수 있는 수준을 넘어섰다”

진행자:
오늘은 OpenAI의 노엄 브라운과 이야기합니다. 그는 OpenAI에서 멀티에이전트 추론과 테스트타임 컴퓨트 스케일링을 연구하고 있고, OpenAI의 첫 공개 추론 모델인 o1 개발의 핵심 인물 중 한 명입니다.
작년에 그의 팀은 IMO, IOI, ICPC 같은 수학·컴퓨터과학 대회에서 금메달급 성과를 냈습니다. 오늘은 OpenAI가 최근 발표한 에르되시 단위거리 추측 반례와 AI 수학 연구에 대해 이야기해보겠습니다.

노엄 브라운:
모델들은 이제 제가 정말로 “무엇을 할 수 있는지” 이해할 수 있는 수준을 넘어섰습니다.
제가 OpenAI 내부와 외부의 수학자들과 이야기하면서 받은 느낌은, 모델들이 서로 다른 수학 분야들을 결합하는 능력에서 극도로 뛰어나다는 것입니다.

이 점에서는 이미 어느 정도 초인간적이라고 말할 수 있습니다.
다만 복잡한 문제를 길게 추론해나가는 능력에서는 아직 완전히 초인간적이라고 말하기는 논쟁의 여지가 있습니다. 하지만 그쪽에서도 진전은 매우 빠릅니다.

결국 시간이 지나면 모델들은 거의 모든 면에서 초인간적이 될 것입니다.
그 전환 기간이 얼마나 걸릴지는 모르겠습니다. 몇 년일 수도 있고, 10년일 수도 있습니다. 하지만 결국 그렇게 될 것이라고 봅니다.

2. 왜 지금 에르되시 문제 같은 “진짜 수학 연구 성과”가 나왔나

진행자:
OpenAI가 평면 단위거리 문제에서 에르되시의 추측을 반박하는 결과를 발표한 지 약 일주일 정도 됐습니다.
IMO 성과는 10개월 전쯤 이미 매우 인상적이었는데, 왜 그때가 아니라 지금 “진짜 수학 연구”의 첫 대형 결과가 나온 걸까요? 모델이나 시스템에서 무엇이 달라졌나요?

노엄 브라운:
사실 여러 면에서 그리 놀라운 일은 아닙니다.
우리가 1년 전쯤 IMO 결과를 얻었을 때도, 우리는 “진전은 계속될 것이고, 앞으로 수학에서 더 중요한 결과들이 나올 것”이라고 말했습니다. 결국에는 모델들이 인간이 증명하지 못한 것들을 증명하는 지점에 도달할 것이라고 봤습니다.

그동안 모델들이 미해결 문제를 푸는 초기 신호들은 있었습니다.
다만 그 문제들이 정말 중요한 문제였는지, 아니면 인간들이 별로 관심을 주지 않았던 문제였는지에 대한 의문이 있었습니다.

이번 결과가 흥미로운 이유는, 아마도 처음으로 모델이 수학자들에게 정말 흥미롭고 중요한 문제를 풀었다고 볼 수 있기 때문입니다.
우리는 이런 일이 결국 일어날 것이라고 생각했고, 모델들이 계속 더 능력 있어지면서 마침내 이런 결과가 나온 것입니다.

그리고 이 결과는 저나 제 팀이 특별히 만들어낸 것이 아닙니다.
그냥 모델들이 점점 더 능력 있어진 자연스러운 결과입니다. OpenAI의 몇몇 연구자들이 “이제 모델이 이런 문제도 풀 수 있는 수준인가?”라고 생각하고 문제를 던져봤고, 결과적으로 답은 “그렇다”였습니다.

3. 조합론이 특별히 AI에 유리한 분야였나?

진행자:
이번 문제가 조합론 쪽 문제인데, 혹시 조합론이 AI가 특히 잘할 수 있는 영역이라고 봤나요? 아니면 여러 미해결 문제를 시도하다가 이 문제가 먼저 풀린 건가요?

노엄 브라운:
저는 조합론이 특별하다고 생각하지 않습니다.
오히려 저는 조합론에 대해 약간 비관적인 편이었습니다. 그런데 그냥 여러 문제를 시도해봤고, 그중 이 문제에서 “아, 이건 맞는 것 같다”는 답이 나온 것입니다.

4. AI는 인간과 다른 방식으로 수학을 잘하는가?

진행자:
이번 구성 자체가 매우 흥미롭습니다. 인간 수학자가 생각해내기 어려웠을 법한 복잡한 구성이었습니다.
원래 에르되시의 논증과 비슷한 면도 있지만 훨씬 복잡합니다. 어떤 수학자는 예전에 비슷한 방향을 시도했지만 너무 복잡해서 포기했다고 말했습니다.
이것은 AI가 인간과는 다른 방식으로 수학을 잘할 가능성을 보여주는 것 같습니다. 모델이 “인간과 비슷하지만 더 뛰어난 수학자”라기보다는, 인간과 다른 차원에서 강한 것 아닐까요?

노엄 브라운:
흥미로운 질문입니다.
모델들은 이미 제가 무엇을 잘하고 무엇을 못하는지 판단하기 어려운 수준까지 왔습니다. 이 증명들을 이해하는 것 자체가 저의 능력을 넘어서는 부분이 있고, 대부분 사람들에게도 그럴 것입니다.

그래서 제가 “이 부분은 모델의 약점이고, 이 부분은 강점이다”라고 자신 있게 말하기는 어렵습니다.
하지만 OpenAI 내부와 외부 수학자들과 이야기해본 결과, 모델들은 여러 수학 분야를 결합하는 능력에서 매우 강합니다. 이 점에서는 이미 초인간적이라고 볼 수 있습니다.

반면 복잡한 문제를 장기간 추론해 해결하는 능력은 아직 완전히 초인간적이라고 하기는 논쟁의 여지가 있습니다.
하지만 그 능력도 빠르게 발전하고 있습니다.

그래서 당분간은 뾰족한 지능, 즉 어떤 부분에서는 초인간적이고 어떤 부분에서는 아직 인간보다 덜한 형태가 나타날 것입니다.
하지만 시간이 지나면서 모델들은 전반적으로 더 강해질 것입니다. 단순히 수많은 수학 지식을 흡수하고 결합하는 능력만 좋아지는 것이 아니라, 근본적인 추론 능력도 좋아지고 있습니다.

짧은 기간에는 여러 수학 분야를 새롭게 연결하는 식의 멋진 증명들이 더 나올 가능성이 큽니다.
하지만 장기적으로는 거의 모든 면에서 초인간적이 될 것입니다.

5. 인간+AI의 “센타우르 시기”는 올까?

진행자:
수학에서도 인간이 AI를 보조하거나 AI와 함께 연구하는 “센타우르 시기”가 있을까요? 아니면 너무 짧아서 의미가 없을까요?

노엄 브라운:
분명히 센타우르 시기는 있을 것이라고 봅니다.
고전적인 비유는 체스와 바둑입니다. 1997년에 가리 카스파로프가 딥블루에게 패배한 뒤, 약 10년 정도는 인간+AI 조합이 인간 단독이나 AI 단독보다 더 나은 시기가 있었습니다.

하지만 지금 체스 AI는 너무 강해져서 인간이 더해져도 거의 보탬이 되지 않습니다. 인간이 더 이상 테이블에 추가할 것이 없는 수준이 된 것입니다.

수학에서도 비슷한 일이 일어날 수 있습니다.
AI가 어떤 면에서는 매우 효과적이지만, 인간 수학자와 함께할 때 더 강력한 시기가 있을 것입니다. 설령 언젠가 “인간 수학자와 AI 수학자 중 하나를 고르라면 AI를 고르겠다”는 수준이 되더라도, 인간+AI 조합이 둘 중 하나보다 더 효과적일 수 있습니다.

문제는 그 기간이 얼마나 길지입니다.
아주 짧을 수도 있고, 길 수도 있습니다.

체스나 바둑과 수학의 차이는 자기대국 self-play입니다.
체스와 바둑은 2인 제로섬 게임이기 때문에 AI가 자기 자신과 무한히 플레이하면서 데이터를 만들고 스스로 강해질 수 있었습니다.
하지만 수학은 2인 제로섬 게임이 아닙니다. 그래서 같은 방식의 자기대국을 바로 적용하기 어렵습니다.

이 점 때문에 수학에서 초인간 수준으로 넘어가는 속도는 더 오래 걸릴 수도 있습니다.
반면 지금까지 AI 진전이 너무 빨랐기 때문에, 어느 쪽일지는 균형 있게 봐야 합니다.

6. 왜 수학에서 self-play는 체스·바둑만큼 간단하지 않은가

진행자:
수학에서도 한 모델이 문제를 만들고 다른 모델이 풀게 하면 self-play 같은 것이 가능하지 않을까요? 문제를 점점 어렵게 만들 수도 있을 것 같습니다.

노엄 브라운:
사람들이 2인 제로섬 게임이 self-play에 얼마나 특별한 환경인지 과소평가한다고 생각합니다.
체스나 바둑에서는 목표가 명확합니다. 미니맥스 정책으로 수렴하면 됩니다. 외부 데이터도, 인간 데이터도 필요 없습니다. AI끼리 플레이하면서 서로의 약점을 찾고 개선하면 됩니다.

하지만 2인 제로섬 게임 밖으로 나오면 이런 성질이 사라집니다.

예를 들어 최후통첩 게임 ultimatum game을 생각해볼 수 있습니다.
Alice가 100달러를 가지고 있고, Bob에게 얼마를 줄지 제안합니다. Bob은 수락하거나 거절할 수 있습니다. Bob이 수락하면 돈을 나눠 갖고, 거절하면 둘 다 0달러를 받습니다.

순수한 self-play라면 Alice는 Bob에게 1달러나 1센트만 주고, Bob은 어쨌든 받는 게 0보다 낫기 때문에 수락하는 전략으로 수렴할 수 있습니다.
하지만 인간에게 그렇게 제안하면 잘 작동하지 않습니다. 인간은 공정성 같은 요소를 고려하기 때문입니다.

수학에서도 비슷한 문제가 생깁니다.
문제를 만드는 에이전트가 아주 어려운 문제를 만들 수는 있지만, 그 문제가 불가능한 문제일 수도 있고, 인간에게 전혀 흥미롭지 않은 문제일 수도 있습니다.
예를 들어 계산기 없이 50자리 곱셈을 하라고 하면 LLM에게는 어렵겠지만, 수학적으로 흥미로운 문제는 아닙니다.

그래서 self-play가 수학에서 불가능하다는 뜻은 아닙니다.
오히려 저는 self-play가 매우 중요할 것이고, 초인간 수준을 넘어 상상하기 어려운 지능 수준으로 가는 데 핵심이 될 가능성이 크다고 봅니다.
다만 체스나 바둑처럼 간단하지 않다는 것입니다.

센타우르 시기가 얼마나 길지는, 결국 수학에서 제대로 된 self-play를 얼마나 빨리 여느냐에 많이 달려 있다고 봅니다.

7. 에르되시 문제 증명은 어떻게 검증했나?

진행자:
모델이 너무 강해져서 비전문가가 답이 맞는지 알기 어려운 수준이 됐다고 하셨습니다.
이번 에르되시 문제 결과는 구체적으로 어떻게 검증했나요? 자동 테스트도 있었고, 내부 수학자들도 있었을 텐데, “정말 풀었다”고 믿기까지 어떤 과정이 있었나요?

노엄 브라운:
우리는 새로운 모델을 훈련했습니다.
그 모델은 수학 전용 모델이 아니었습니다. 일반 목적의 추론 모델이었습니다.

그 후 OpenAI 내부의 수학 박사, 전직 수학 교수 출신 연구자들이 모델의 능력을 확인해보고 싶어 했습니다.
그래서 여러 미해결 문제에 모델을 돌려봤습니다. 그중 하나가 이번 문제였고, 모델이 “이건 풀렸다”고 답한 것입니다.

하지만 문제는 검증이었습니다.
이 증명이 맞는지 확인하려면 단순한 수학 전문성이 아니라 여러 수학 분야에 대한 전문성이 필요했습니다.
그래서 약 일주일 정도 “맞는 것 같긴 한데 확실하지 않은” 흥미로운 기간이 있었습니다.

결국 외부 수학자들에게 가져가서, “이 후보 증명이 있는데 정말 유효한지 도와달라”고 했습니다.
그들과 논의한 뒤에야 이 결과가 실제로 맞다는 확신을 얻게 됐습니다.

저도 처음에는 “이게 정확히 무슨 의미지? 정말 큰일인가?”라는 생각이었습니다.
에르되시 문제들이 여러 개 풀렸다는 이야기는 들어본 적이 있었기 때문에, 이 문제가 왜 특별한지 바로 알지는 못했습니다.

저와 많은 사람을 설득한 것은 외부 수학자들의 반응이었습니다.
그들이 “이건 정말 중요한 결과”라고 말한 것이 컸습니다. 그래서 우리는 외부 수학자들의 피드백을 강조했습니다. OpenAI가 스스로 중요하다고 말하는 것과, 외부 수학자들이 중요하다고 말하는 것은 다르기 때문입니다.

8. 이 문제를 푸는 데 엄청난 컴퓨트가 들어간 것은 아니다

진행자:
AI는 인간 사회보다 훨씬 많은 주의와 노력을 미해결 문제에 쏟을 수 있습니다. 수학의 많은 세부 분야에는 최전선에서 일하는 사람이 몇 명밖에 없기 때문에, AI가 투입하는 시간 자체가 발견을 크게 밀어붙일 수 있을 것 같습니다.

노엄 브라운:
그럴 수 있습니다.
하지만 강조하고 싶은 것은, 우리가 이 문제를 푸는 데 엄청난 노력을 들인 것은 아니라는 점입니다. 최종적으로는 그렇게 많은 컴퓨트가 들어가지 않았습니다.

우리는 나중에 그래프를 보여줬습니다.
x축은 테스트타임 컴퓨트의 양이고, y축은 에르되시 문제를 풀 확률입니다. 그 그래프의 각 데이터 포인트를 만들기 위해 모델을 문제에 100번씩 돌렸습니다.

그 정도로 100번씩 돌릴 수 있었다는 것은, 이게 말도 안 되게 비싼 작업은 아니었다는 뜻입니다.

흥미로운 점은 테스트타임 컴퓨트를 더 넣을수록 문제를 풀 확률이 꽤 크게 올라갔다는 것입니다.
제 takeaway는, 이 모델이 아직 풀 수 있지만 우리가 충분한 컴퓨트를 넣지 않았기 때문에 풀지 않은 다른 문제들이 아마 꽤 있을 것이라는 점입니다.

9. OpenAI가 직접 모든 미해결 수학 문제를 푸는 것이 최선인가?

진행자:
그렇다면 이 새로운 도구를 어디에 겨냥하고 싶나요? 어느 분야가 특히 유망하다고 보나요?

노엄 브라운:
OpenAI 내부에서는 모델을 더 효과적으로 만들 수 있는 엄청난 레버리지가 있습니다.
우리는 일반 사용자보다 몇 달 먼저 프런티어 모델에 접근할 수 있습니다. 그래서 모든 미해결 수학 문제를 훑으면서 모델을 돌려보고, 무엇을 증명할 수 있는지 확인하고 싶은 유혹이 큽니다.

그렇게 하면 놀라운 결과를 얻을 수도 있습니다.
하지만 저는 그것이 OpenAI 입장에서 가장 높은 레버리지라고 생각하지 않습니다.

우리에게 가장 중요한 일은 모델을 더 좋고, 더 강력하고, 더 안전하게 만들고, 가능한 한 빨리 세상에 내놓는 것입니다.
그렇게 해서 수학자들이 이 모델을 사용해 미해결 문제들을 풀 수 있게 해야 합니다.

그래서 저는 OpenAI 연구자들이 미해결 문제를 직접 푸는 방향으로 너무 빠지는 것을 오히려 말리는 편입니다.
가장 중요한 것은 모델 자체를 개선하는 것입니다.

그리고 이번 결과가 수학 전용 모델에서 나온 것이 아니라 일반 목적 모델에서 나왔다는 점이 중요합니다.
이 능력은 수학에만 제한되지 않습니다. 머신러닝 연구에도 매우 효과적일 수 있고, 결국 모델을 더 좋게 만드는 데 쓰일 수 있습니다. 이것이 일종의 재귀적 자기개선 recursive self-improvement을 가능하게 할 수 있습니다.

10. 왜 일반 목적 추론 모델이 중요한가?

진행자:
당신은 오래전부터 일반 목적 추론 모델이 이런 대회나 연구에 중요하다고 믿었던 것 같습니다.
IMO, IOI, ICPC에 사용한 모델도 기본적으로 같은 모델이었죠?

노엄 브라운:
대체로 같은 모델이었습니다.
ICPC와 IOI에서는 몇 개 모델을 조합한 스캐폴딩이 있었지만, 가장 중요한 모델은 IMO에 쓰인 것과 같은 모델이었습니다.

진행자:
왜 그렇게 일반 목적 모델을 고집했나요? 재귀적 자기개선이나 범용 전이에 대한 생각 때문이었나요?

노엄 브라운:
저에게 항상 가장 영향력이 크다고 느껴진 것은 정말 범용적인 시스템이었습니다.
핵심은 필요한 것을 최소한으로 분해하고, 무엇을 스케일할 수 있는지 찾는 것입니다.

분야가 이렇게 빠르게 발전하는 시기에는 특정 벤치마크나 대회에만 특화된 모델을 만드는 데 빠지기 쉽습니다.
예를 들어 IOI를 풀기 위해 아주 특화된 모델을 만들 수는 있습니다. 하지만 그런 모델은 6개월 뒤에는 별로 유용하지 않을 수 있습니다.

우리는 목표가 있다는 사실을 인식해야 합니다. 그 목표는 AGI든, 초지능이든, 무엇이라 부르든 그 방향입니다.
우리는 그 경로에서 너무 우회하고 싶지 않습니다.

IMO 같은 것은 AGI로 가는 길의 이정표로서는 좋습니다.
하지만 거기에 너무 길게 붙잡혀 있어서는 안 됩니다.

11. “인상적인 결과를 내고 싶다”는 유혹을 경계해야 한다

진행자:
그러니까 IMO 같은 것은 상승 곡선의 부산물이어야지, 그 자체를 위해 자원을 투입해 깃발 꽂기식으로 하면 안 된다는 말이군요.

노엄 브라운:
맞습니다.
하지만 이것은 늘 긴장 관계입니다. 매우 인상적인 결과를 얻고, 세상에 발표하고, 인정을 받고 싶은 유혹이 큽니다.
우리는 그 유혹에 저항해야 한다고 생각합니다.

12. AI 시대에 좋은 수학자는 어떤 사람이 될까?

진행자:
앞으로 수학자들이 모델을 사용해 연구한다면, 누가 가장 잘할까요?
기존의 뛰어난 수학자들, 예를 들어 필즈상 수상자들이 계속 압도적으로 잘할까요? 아니면 모델을 잘 사용하는 새로운 유형의 사람들이 더 좋은 성과를 낼까요?

노엄 브라운:
다른 유형의 사람들이 될 가능성이 있습니다.
새로운 기술이 등장할 때마다 사람들은 적응해야 하고, 접근 방식이 달라집니다.

모델이 어떤 면에서는 매우 강하고, 다른 면에서는 인간보다 약하다면, 가장 성공할 사람들은 모델의 약점을 보완할 수 있는 사람들일 것입니다.
즉, AI 모델과 잘 상호보완되는 사람이 가장 성공할 가능성이 큽니다.

그 프로필은 오늘날의 위대한 수학자 프로필과 매우 다를 수도 있습니다.

진행자:
그 보완 능력이 무엇일지 초기 힌트가 있나요? 예를 들어 수학이 너무 전문화됐기 때문에, 여러 분야를 연결하는 제너럴리스트가 다시 중요해질까요? 아니면 모델이 잘하는 문제를 고르는 감각이 중요할까요?

노엄 브라운:
제가 AI 연구에서 이 모델들을 사용한 경험을 말하자면, 모델들은 아직 연구 취향 research taste이 좋지 않습니다.
저에게는 이 시기가 정말 놀랍습니다. 저는 개별 연구자 IC로서 괜찮은 편이었지만, 그 면에서 아주 탁월하다고 느끼지는 않았습니다. 그런데 지금은 제가 모델들과 매우 잘 상호보완된다고 느낍니다. 훨씬 더 생산적이 됐습니다.

수학에서도 비슷할 수 있습니다.
올바른 질문을 하고, 무엇을 조사해야 하는지 아는 능력이 가장 가치 있는 능력이 될 수 있습니다.
모델들은 현재 그 부분을 잘하지 못하는 것 같습니다.

그래서 좋은 연구 취향을 가진 사람들이 AI 수학 모델과 매우 좋은 조합이 될 수 있습니다.

13. AI 수학 발전은 어떤 순서로 진행될까?

진행자:
이번 에르되시 문제에서 어떤 수학자는 처음에 OpenAI가 더 강한 상한을 증명한 줄 알고 “그랬다면 우리는 완전히 끝났다”고 느꼈다고 했습니다.
하지만 실제로는 반례 구성이었기 때문에 “AI가 할 수 있을 법한 일”로 느껴졌다고 했죠. 이런 구분이 철학적으로 중요하다고 보나요?

노엄 브라운:
에르되시 문제와 별개로, 제가 AI 수학 발전을 예측한다면 이런 순서일 것 같습니다.

먼저 IMO 금메달 수준에 도달합니다.
그다음에는 중요도가 낮거나 연구자들이 별로 주목하지 않았던 미해결 문제들을 풀기 시작합니다.
그다음에는 중요한 결과를 증명하지만, 아직 수학자들이 “이건 인간 능력을 완전히 넘어섰다”고 잠 못 잘 정도는 아닌 방식으로 나옵니다.
그러다가 진전이 계속되면 결국 수학자들이 정말 잠을 못 자는 수준의 결과가 나올 것입니다.

이번 결과는 그 진행 과정의 또 다른 지점이라고 봅니다.
그리고 1년 뒤에는 능력이 훨씬 더 높아져 있을 것입니다. 그때는 오늘날 수학자들이 상상하기 어려운 일을 할 수도 있다고 봅니다.

14. 여러 연구 분야를 결합하는 능력은 이미 AI의 큰 강점이다

진행자:
이번 결과도 원래 에르되시의 비교적 초등적인 구성에서 출발해, 대수적 수론 등 다양한 아이디어를 결합한 것처럼 보입니다.
기존 연구 문헌은 방대하고, 전문 수학자들도 그중 일부만 압니다. AI가 서로 다른 연구 영역의 논문들을 결합해 새로운 것을 만드는 “일회성 배당”이 가까이 있는 것 아닐까요?

노엄 브라운:
단기적으로 그런 곳에서 많은 돌파구가 나올 것이라고 생각합니다.
모델들은 너무나 많은 데이터 소스와 논문들로 훈련되어 있습니다. 모든 분야를 깊이 있게 따라가는 것은 인간에게 불가능합니다.

이 점에서 모델들이 이미 오래전부터 초인간적이었다는 것은 꽤 분명합니다.
저는 바로 거기서 시작한다고 봅니다. 그리고 그 이후로 더 발전해나갈 것입니다.

15. 왜 수학은 AI 과학 연구에서 특별한 영역인가?

진행자:
AI for science 전체에서 수학은 특히 좋은 영역인가요? 물리학이나 다른 분야와 비교하면 어떤가요?

노엄 브라운:
수학은 특별합니다. 왜냐하면 수학은 순수하게 추론 능력이 병목이기 때문입니다.

물리학의 경우 저는 물리학자는 아니지만, 물리학자들과 이야기해보면 많은 부분이 실험 결과에 의해 병목이 걸려 있는 것 같습니다.
아무리 멋진 이론을 만들어도 결국 실제 물리 실험에 돈을 들여 검증해야 합니다. 새로운 데이터를 얻어야 다음 단계를 알 수 있습니다.

하지만 수학은 그렇지 않습니다.
방에 앉아서 오래 깊게 생각하면 놀라운 것을 만들어낼 수 있습니다. 그것이 수학에서 진전이 일어나는 방식입니다.

그래서 단기적으로 가장 큰 이득은 물리 실험이나 실험 데이터가 병목이 아니라, 순수 추론 능력이 병목인 분야에서 나올 것입니다.

습식 실험실 wet lab은 병목이 될 수 있습니다.
물리학에서도 실험 데이터 수집이 병목이 될 수 있습니다.
수학은 그런 병목이 없습니다.

AI 연구도 어느 정도 비슷한 면이 있습니다.
물론 많은 AI 연구는 엄청난 GPU와 대규모 실험에 병목이 걸립니다. 하지만 작은 규모의 실험과 자원으로 할 수 있는 것도 많습니다. 그래서 저는 AI 모델들이 실제 AI 연구를 진전시키는 능력에 꽤 낙관적입니다.

16. IMO와 대회 수학은 곧 흥미를 잃을 수 있다

진행자:
다음 IMO가 두 달 정도 남았습니다. 이제 IMO가 사실상 포화되는 해라고 보나요? 작년에도 이미 42점 만점에 34점으로 금메달 수준이었습니다. 곧 모든 문제를 만점으로 풀 것으로 기대하게 되면, IMO는 더 이상 흥미로운 평가가 아니게 될 수도 있지 않을까요?

노엄 브라운:
작년에 IMO 금메달 결과를 얻었을 때, 다른 연구소의 누군가가 저에게 “내년에는 만점을 받을 것 같나요?”라고 물었습니다.
저는 그에게 “내년까지 누구나 사용할 수 있는 모델이 IMO 만점을 받지 못한다면 실망할 것”이라고 말했습니다.

최신 내부 모델로 만점을 받지 못한다면 놀랄 것입니다.
그리고 지금 공개 모델로도 만점을 받지 못한다면 실망할 가능성이 있습니다.

그래서 이제, 혹은 아주 가까운 시점에, 수학 대회와 코딩 대회는 더 이상 흥미롭지 않게 될 것이라고 봅니다.
진짜 프런티어는 실제 미해결 문제입니다. 현실 세계의 진짜 연구입니다.

우리가 자주 언급하지는 않았지만, 작년 IMO 6번 문제도 우리 모델들은 이미 한동안 풀 수 있었습니다.
몇 달 전부터 IMO 6번 문제에서 만점 해답을 얻을 수 있었습니다. 다만 대회 수학의 시대가 이미 지나갔다고 느꼈기 때문에 크게 홍보하지 않았습니다.

17. IMO 6번 문제는 왜 어려웠나?

진행자:
IMO 6번은 역사적으로 어려운 문제입니다. 작년에도 인간 참가자 중 만점을 받은 사람이 극소수였다고 알고 있습니다.
AI에게 특별히 어려운 이유가 있었나요? 예를 들어 조합기하나 기하 문제는 인간의 시각적 직관이 강점이라 AI에게 어려울 수 있다는 주장도 있습니다.

노엄 브라운:
흥미로운 점은 인간에게 어려운 문제와 AI에게 어려운 문제 사이에 상당한 상관관계가 있다는 것입니다.
그 문제는 인간에게도 매우 어려운 문제였기 때문에 AI에게도 어려웠던 것은 놀랍지 않습니다.

그리고 문제의 성격도 관련이 있습니다.
모델들은 기하학적 이해나 geometry 쪽에서는 약간 뒤처지는 면이 있다고 생각합니다.
하지만 모델들은 전반적으로 계속 좋아지고 있고, 이런 영역에서도 좋아지고 있습니다. 그래서 어느 순간 모델들이 갑자기 그 문제를 풀 수 있게 된 것은 놀랍지 않았습니다.

18. 대회 수학과 연구 수학의 차이: “문제 해결 지평 horizon”

진행자:
대회 수학과 연구 수학 사이에는 질적인 차이가 있다고 보나요?
IMO 문제는 자기완결적이어야 하고, 인간이 몇 시간 안에 풀 수 있어야 합니다. 연구 문제는 훨씬 긴 시간 지평을 갖습니다.

노엄 브라운:
차이는 지평 horizon에 있습니다.
IMO 문제는 대략 한 문제당 1시간 반 정도 걸립니다.

제 동료 Alex Way가 지적한 것인데, AI 수학 모델의 발전을 보면 인간 수학자가 푸는 데 걸리는 시간이 점점 길어지는 문제를 풀 수 있게 되는 방향으로 진행되어 왔습니다.

2023년에는 GSM8K를 풀었습니다. 인간 수학자에게는 5초 정도 걸리는 문제입니다.
2024년에는 MATH 벤치마크로 갔습니다. 고등학교나 초기 대학 수준 문제로, 인간 수학자에게 1분 정도 걸릴 수 있습니다.
그다음 AIME는 인간 수학자에게 10분 정도 걸릴 수 있습니다.
그다음 IMO는 인간 수학자에게 100분, 즉 1시간 반 정도 걸릴 수 있습니다.

거의 매년 한 자릿수 규모, 즉 한 order of magnitude씩 문제 해결 지평이 길어져 왔습니다.
이 추세가 계속되지 않을 이유도 있을 수 있지만, 지금까지는 꽤 규칙적으로 이어졌습니다.

연구 수학은 훨씬 더 긴 지평을 갖습니다.
인간 수학자가 15시간, 일주일, 그 이상 걸리는 문제들입니다. 모델이 더 능력 있어지면 그런 문제들도 결국 풀 수 있게 되는 것은 그리 놀라운 일이 아닙니다.

또 하나의 차이는 IMO가 AI에게 오히려 적대적으로 어려운 형식이라는 점입니다.
모델은 다양한 수학 분야를 알고 결합하는 데 강합니다. 반면 IMO는 그런 능력보다, 한 문제를 오래 붙잡고 순수 추론하는 능력을 강하게 요구합니다.
그런데도 모델이 IMO 금메달 수준에 도달했다는 것은 매우 흥미로운 일입니다.

그래서 1년도 안 되어 인간 수학자들이 못 푼 결과를 증명하기 시작한 것은 사실 그렇게 놀랍지 않을 수 있습니다.
이미 모델은 어려운 문제를 추론하는 능력에서 IMO 금메달 수준이었고, 여러 수학 분야를 알고 결합하는 능력에서는 인간보다 훨씬 강했을 가능성이 높기 때문입니다.

19. 1~2년 뒤 수학자는 코딩에서의 AI 활용처럼 일하게 될 수 있다

진행자:
5년 뒤 인간 수학자들은 무엇을 하고 있을까요? 새로운 연구 프로그램을 만들고, 모델을 몇 시간 돌려서 가능성을 확인하는 식이 될까요?

노엄 브라운:
5년은 지금 너무 먼 미래입니다.
진전이 너무 빨라서 5년 뒤 세상이 어떤 모습일지 모르겠습니다.

하지만 1~2년 뒤를 말하자면, 수학은 오늘날 코딩과 비슷해질 수 있다고 봅니다.
모델과 많이 함께 일하고, 모델이 많은 작업을 수행하며, 인간은 방향을 잡아주고, 조종하고, 도전하고, 함께 결과를 만들어내는 방식입니다.

사실 저는 이런 일이 코딩보다 수학에서 먼저 일어나지 않은 것이 조금 놀랍습니다.
하지만 수학도 코딩이 현재 있는 위치에서 그리 멀지 않다고 생각합니다.

20. OpenAI는 특정 수학자들에게만 모델을 먼저 주기보다 모두에게 빨리 공개하려 한다

진행자:
그렇다면 다음 단계는 무엇인가요? 수학자들에게 제한적으로 모델을 먼저 제공해 연구를 돕는 식의 계획이 있나요?

노엄 브라운:
IMO 결과 이후 실제로 그런 논의를 했습니다.
이 모델을 수학자들에게 먼저 제공해야 할지 논의했습니다.

하지만 결국 문제는 대역폭과 맞춤형 배포의 복잡성이었습니다.
그리고 진전이 너무 빠릅니다. 우리는 모델을 가능한 한 빨리 모두에게 제공하고 싶습니다.

특정 그룹을 위해 빠르게 특별 배포하는 것은 복잡성을 많이 만듭니다.
그 오버헤드가 그만한 가치가 있다고 보지 않았습니다.

그래서 대부분의 경우에는 모델을 모두에게 최대한 빨리 제공하는 데 집중하는 것이 낫다고 봅니다.
어쩌면 일부 특별한 경우는 있을 수 있지만, 기본적으로는 모든 사람이 이 모델을 사용해 온갖 놀라운 결과를 증명할 수 있게 하는 것이 목표입니다.

21. 앞으로 가장 큰 문제: 인간이 검증할 수 없는 증명

진행자:
마지막으로 꼭 이야기하고 싶은 것이 있나요?

노엄 브라운:
이번 결과 이후 계속 생각해온 문제가 있습니다.
이 증명은 저도 많은 시간을 들이면 이해할 수 있을지도 모르지만, 아직 깊이 이해하지는 못했습니다. 많은 사람들도 이런 증명을 이해하기 어려울 것입니다. 직접 증명하는 것은 말할 것도 없습니다.

모델들이 여러 면에서 초인간적이 되면, 우리는 증명 자체가 인간 수학자들이 검증하기 너무 어려워지는 문제에 직면할 것입니다.

이것은 전형적인 확장 가능한 감독 scalable oversight 문제입니다.
증명 자체가 인간이 이해하기 어려운 수준일 때, 모델이 그 증명이 옳다는 것을 인간 수학자에게 어떻게 납득시킬 수 있을까요?

저는 수학이 이런 문제의 최전선에 서게 될 것이라고 생각합니다.
수학은 “인간이 직접 이해하기 어려운 AI의 산출물을 어떻게 검증할 것인가”라는 scalable oversight 문제를 가장 먼저, 가장 선명하게 보여주는 영역이 될 수 있습니다.

이 문제를 해결할 수 있기를 바랍니다. 왜냐하면 이것은 수학뿐 아니라 다른 많은 영역에서도 중요해질 것이기 때문입니다.

핵심 요약

노엄 브라운의 관점은 꽤 강합니다.

첫째, 그는 AI 수학 모델이 이미 여러 수학 분야를 결합하는 능력에서는 초인간적이라고 봅니다.
둘째, 순수 장기 추론 능력은 아직 완전히 초인간적이라고 단정하지 않지만, 빠르게 발전하고 있다고 봅니다.
셋째, IMO 같은 대회 수학은 곧 포화될 것이며, 진짜 프런티어는 실제 미해결 수학 문제라고 말합니다.
넷째, OpenAI가 해야 할 가장 중요한 일은 직접 모든 문제를 푸는 것이 아니라, 더 강하고 안전한 모델을 만들어 빠르게 공개하는 것이라고 봅니다.
다섯째, 앞으로 수학자는 오늘날 개발자가 AI 코딩 도구와 함께 일하듯이, 모델을 조종하고 방향을 잡는 방식으로 연구할 가능성이 큽니다.
여섯째, 장기적으로는 인간이 이해하거나 검증하기 어려운 AI 증명이 등장할 것이며, 수학은 scalable oversight 문제의 최전선이 될 수 있습니다.

결국 이 인터뷰의 핵심은 이겁니다.

“AI는 이제 대회 문제를 잘 푸는 수준을 넘어, 실제 인간 수학자들이 풀지 못한 문제를 풀기 시작했다. 그리고 이것은 수학에만 국한된 사건이 아니라, AI 연구와 재귀적 자기개선의 시작 신호일 수 있다.”

전체 0

« 구글 딥마인드 내부: 추론, 옴니채널, 그리고 최첨단 AI의 출시 | AGI 하우스

목록보기 답글쓰기

글수정 글삭제