추론 모델이 80년 묵은 수학 문제를 해결한 방법 — OpenAI 팟캐스트 20화

작성자

작성일

2026-06-05 12:13

조회

OpenAI 팟캐스트 20화

“추론 모델이 80년 묵은 수학 문제를 해결한 방법”

출연자
Andrew Mayne: 진행자
Alexander Wei: OpenAI 추론 연구팀
Hongxun Wu: OpenAI 추론 연구팀, 이론 컴퓨터과학 배경
Lijie Chen: OpenAI 추론 연구팀, 이론 컴퓨터과학/수학 배경

1. 오프닝: “이건 진짜 너무 흥분돼서 잠을 못 잤다”

Andrew Mayne:
“안녕하세요. 저는 Andrew Mayne이고, OpenAI 팟캐스트에 오신 걸 환영합니다. 오늘은 OpenAI 모델이 최근 수학에서 이룬 돌파구 뒤에 있는 추론 연구팀의 Alexander Wei, Hongxun Wu, Lijie Chen과 이야기합니다. 이들은 그 발견의 뒷이야기와, 사람들의 반응에서 인상 깊었던 점을 말해줄 겁니다.”

Lijie Chen:
“모두가 잠을 제대로 못 잤습니다. 너무나 흥분되는 일이었거든요. 이 모델은 정말 놀라운 무언가였습니다. 이건 최고의 수학 저널에도 실릴 수 있는 수준의 결과라고 생각했습니다. 보통 ‘너무 좋아서 사실일 리 없다’는 경우가 많은데, 이번에는 그 드문 경우 중 하나처럼 보였습니다. 너무 좋아 보이지만 실제로 참인 경우였던 거죠.”

2. Lijie가 OpenAI 추론팀에 합류한 이유

Andrew Mayne:
“Lijie, 당신은 어떤 일을 하나요?”

Lijie Chen:
“저는 Alex와 함께 추론을 연구합니다.”

Andrew Mayne:
“어떻게 추론 연구에 들어오게 됐나요?”

Lijie Chen:
“작년 여름에 Alex가 IOI와 IMO 쪽에서 큰 돌파를 이뤘습니다. 저는 예전에 IOI 참가자였기 때문에 그게 정말 충격적이었습니다. 모델이 이미 메달, 심지어 금메달을 딸 수 있다는 게 믿기 어려웠죠.”

“당시 저는 UC Berkeley의 조교수였습니다. 그런데 이런 생각이 들었습니다. ‘어쩌면 내 커리어를 다시 생각해봐야 할지도 모르겠다. 모델을 더 똑똑하게 만드는 일이 세상에 훨씬 더 큰 영향을 줄 수 있겠구나.’ 그래서 작년 10월쯤 Alex와 이야기를 나눴고, 이 분야에 엄청나게 흥분하게 되었습니다. 결국 OpenAI에 합류했습니다.”

3. IMO와 IOI는 왜 AI의 중요한 목표였나

Andrew Mayne:
“우리는 IOI와 IMO라는 말을 자주 듣습니다. Alex, 모두를 위해 설명해줄 수 있나요?”

Alexander Wei:
“IMO와 IOI는 고등학생을 위한 두 개의 대회입니다. 각각 International Mathematical Olympiad, International Olympiad in Informatics를 뜻합니다. 즉 국제수학올림피아드와 국제정보올림피아드죠.”

“이 문제들은 정말 악랄하게 어렵습니다. 시험은 두 세션으로 나뉘고, 각 세션이 4시간 반에서 5시간 정도 됩니다. 그런데 그 시간 동안 문제는 단 세 개만 풉니다.”

“오랫동안 이 대회들은 AI에서 일종의 암묵적인 ‘그랜드 챌린지’였습니다. 언제쯤 모델이 이런 시험에서 최고의 인간들과 비슷한 수준의 성과를 낼 수 있을까? 이것이 모델 성공을 측정하는 흥미로운 출발점이었습니다.”

“그런데 지금은 그 이후로 얼마나 멀리 왔는지를 이야기하게 됐습니다. 정말 놀라운 일입니다.”

4. Alex가 추론 연구에 들어온 계기: “모델에게 더 오래 생각하게 하자”

Andrew Mayne:
“당신은 어떻게 추론 연구에 들어오게 됐나요?”

Alexander Wei:
“저는 머신러닝으로 박사학위를 했습니다. 박사과정 말쯤에, 더 어려운 추론 문제를 풀기 위해 추론 시점에 더 많은 컴퓨팅을 쓰는 아이디어에 관심을 갖게 됐습니다.”

“그때 저는 API에서 GPT-3.5 Turbo를 가지고 실험하고 있었습니다. 하지만 딱히 흥미로운 결과는 얻지 못했습니다. 그런데 OpenAI 안에 이와 비슷한 일을 하는 팀이 있다는 걸 알게 됐습니다. 저는 거기에 크게 흥분했고, 운 좋게 합류할 수 있었습니다.”

Andrew Mayne:
“가장 단순하게 설명하면, inference-time compute라는 건 모델이 더 오래 생각하게 하는 거죠?”

Alexander Wei:
“맞습니다. test-time compute 이전의 모델들은 거의 즉석에서 대답했습니다. 말하자면 즉흥적으로 답을 냈죠. 그런데 inference-time compute, test-time compute는 모델에게 답을 최종적으로 내기 전에 생각하고, 답을 개선하고, 여러 시도를 해볼 기회를 줍니다.”

“당연히 이것은 모델을 더 똑똑하게 만듭니다. 즉석에서는 할 수 없던 일을 할 수 있게 해주죠.”

5. 2023~2024년만 해도 모델은 초등 수학도 어려워했다

Andrew Mayne:
“처음 추론 연구를 시작했을 때, 어디까지 갈 수 있을지 기대가 있었나요? 단순히 학문적으로 멋진 일이라고 생각했나요? 아니면 더 큰 비전이 있었나요?”

Alexander Wei:
“제가 추론에 끌렸던 이유는, 당시 모델들이 명백히 못하는 일이었기 때문입니다. 2023년 말, 2024년 초만 해도 모델들은 초등학교 수준의 수학 문제도 어려워했습니다.”

“그때는 ‘이 모델들이 수학에서 뭔가 합리적인 일을 하게 만들 수 있을까?’가 질문이었습니다. 제가 모델보다 훨씬 못하는 수준이 되는 것은 상상도 못했죠.”

“OpenAI에 입사한 첫날 Nolan Brown이 저에게 ‘모델이 언제 IMO 금메달을 딸 것 같냐’고 물었습니다. 당시에는 연구팀 내부에서도 올해 IMO 금메달은 어렵고, 아마 2026년쯤 가능하지 않을까 생각하는 사람이 많았습니다.”

“저는 우리가 밀어붙이면 4월쯤 가능할 수도 있다고 생각했습니다. 실제로 좋은 모델이 나온 것은 6월이었고, IMO가 열렸을 때 우리는 금메달을 딸 수 있었습니다.”

“돌이켜보면, 이 모든 일은 제가 예상한 것보다 훨씬 빨리 일어났습니다. 그리고 그 이후의 진전도 같은 속도로 계속되고 있다는 점이 정말 미친 일처럼 느껴집니다. 겨우 10개월 전 일인데, 오늘날 AI 입장에서는 IMO 수준 문제는 이미 한참 뒤에 있는 것처럼 느껴집니다.”

6. P vs NP는 아직 멀다? “새로운 이론을 만들어야 할 수도 있다”

Lijie Chen:
“Nolan이 저에게도 비슷한 질문을 했습니다. IMO 금메달은 아니고, 모델이 P vs NP를 풀 수 있겠느냐는 질문이었습니다.”

“저는 P vs NP는 꽤 어려울 것이라고 생각합니다. 왜냐하면 그것을 풀려면 새로운 이론을 만들어야 할 수도 있기 때문입니다. 어쩌면 여러 권의 책에 해당하는 새로운 아이디어가 필요할지도 모릅니다.”

“현재로서는 아직 거기까지는 멀어 보입니다. 하지만 미래에 무슨 일이 일어날지는 모릅니다.”

7. Hongxun: “o1이 나온 순간, 수학 문제를 푸는 데 장벽은 없어 보였다”

Andrew Mayne:
“Hongxun, 당신은 어떤 일을 하나요?”

Hongxun Wu:
“저는 이론 컴퓨터과학을 연구했습니다. 박사과정 동안 Lijie와 많이 협업했습니다. 저도 Berkeley에 있었습니다.”

“o1이 나왔을 때, 저는 지도교수에게 ‘이제 모델이 수학 문제를 푸는 데 장벽은 없어 보입니다’라고 말했던 기억이 납니다.”

“그는 그냥 미소를 지었습니다. 그리고 자신이 학생 하나를 잃게 될 거라는 걸 알고 있었던 것 같습니다.”

8. 에르되시 단위거리 추측: 80년 된 문제를 모델이 반증하다

Andrew Mayne:
“모델이 에르되시의 추측 중 하나를 반증했다고 들었습니다. 간단히 설명해줄 수 있나요?”

Alexander Wei:
“지난주 우리 모델들은 에르되시의 단위거리 추측에 대한 증명, 정확히는 반증을 만들어냈습니다. 이것은 조합기하학 분야의 80년 된 미해결 문제였습니다.”

“문제는 대략 이렇습니다. 종이 위에 점들이 있다고 합시다. 그중 정확히 1인치 떨어진 점쌍이 몇 개나 있을 수 있을까요? 그리고 점의 개수가 늘어날 때, 그런 점쌍의 최대 개수는 점의 개수에 대해 어떤 식으로 증가할까요?”

Andrew Mayne:
“이건 사소한 문제가 아니었죠.”

Alexander Wei:
“맞습니다. 에르되시의 원래 추측은, 평면에서 단위거리 점쌍을 최대한 많이 만들려면 정사각형 격자처럼 점들을 배치하는 것이 최적에 가깝다는 것이었습니다.”

“그런데 모델이 보인 것은, 정사각형 격자가 사실 전혀 최적에 가깝지 않다는 것이었습니다. 고급 정수론을 활용한 전혀 다른 구성으로 훨씬 더 잘할 수 있다는 것을 보인 겁니다.”

9. 모델은 특정 수학 전용 모델이 아니었다

Andrew Mayne:
“그리고 이 모델은 범용 모델이었죠?”

Alexander Wei:
“그렇습니다. 이 모델은 특정 수학 문제만을 위해 훈련된 모델이 아니었습니다.”

“우리는 새 모델이 생겼고, 사실상 시운전을 해보고 싶었습니다. 그래서 매우 어려운 수학 문제들을 평가해봤습니다. ‘이 모델이 어디까지 할 수 있을까?’를 보고 싶었던 겁니다.”

10. 문제를 고른 방식: “모델 능력의 상한을 보고 싶었다”

Andrew Mayne:
“Hongxun, 이 문제들은 어떻게 골랐나요?”

Hongxun Wu:
“사실 우리가 이 문제를 특별히 골랐다고 말하기는 어렵습니다. 우리는 모델 능력의 상한을 테스트하고 싶었습니다. 그래서 에르되시 문제들 중 일부를 골라 모델의 능력을 시험했습니다.”

Andrew Mayne:
“누가 Enter를 눌러 모델에게 질문했나요?”

Lijie Chen:
“아마 Hongxun과 저 둘 다였을 겁니다.”

Hongxun Wu:
“우리는 두 개의 서로 다른 내부 모델을 테스트하고 있었습니다. 그런데 둘 다 올바른 해결책처럼 보이는 것을 내놓았습니다. 정말, 정말 흥분되는 순간이었습니다.”

11. 처음에는 다들 믿지 않았다: “이건 말이 안 된다”

Andrew Mayne:
“어떻게 그것이 맞다는 걸 알았나요?”

Lijie Chen:
“물론 먼저 모델에게 검토하게 했습니다. 하지만 모델은 언제나 신뢰할 수 있는 것은 아니죠.”

“그래서 모델로 확인한 뒤, 그럴듯해 보이자 회사 안의 수학자 친구들에게 물어봤습니다. Mehtaab, Mark Sellke 같은 사람들에게요.”

“처음에 그들은 ‘이게 참일 리가 없다. 이건 중요한 미해결 문제다’라고 말했습니다. 하지만 하루 정도 생각해본 뒤에도 오류를 찾지 못했습니다. 그러자 점점 더 확신하게 됐습니다. 결국 ‘이거 진짜 맞을 수도 있겠다’는 분위기가 됐죠.”

“그때부터 모두가 너무 흥분해서 잠을 제대로 못 잤습니다.”

12. “처음엔 틀렸다고 했지만, 나는 별로 놀라지 않았다”

Andrew Mayne:
“사람들이 정확하다고 말하기 시작했을 때 대화 분위기는 어땠나요?”

Lijie Chen:
“저는 그렇게 놀라지는 않았습니다. 처음에 Mehtaab이 ‘이건 확실히 틀렸다’고 말했을 때, 저는 그가 아마 5분이나 10분 정도밖에 보지 않았을 거라고 생각했습니다. 그래서 마음속으로는 그 말을 그렇게 믿지 않았습니다.”

“나중에 그가 ‘50% 정도 가능성이 있다’고 말했습니다. 저는 속으로 ‘그 추세를 외삽하면 내일 밤에는 100%가 되겠구나’라고 생각했습니다.”

“약간 꿈같았지만, 동시에 이 모델이 놀라운 일을 할 것이라는 느낌은 자연스럽기도 했습니다. 시간이 갈수록 이것이 정말 맞을 수 있고, 정말 큰일일 수 있다는 느낌이 더 현실이 되었습니다.”

13. “이건 IMO 수준을 훨씬 넘어선다”

Lijie Chen:
“이건 처음으로 모델이 최고의 수학 저널에 실릴 만한 결과를 낸 사례일 수 있습니다. 이건 IMO 수준을 훨씬 넘어섭니다.”

“언젠가 이런 일이 일어날 것이라고는 생각했습니다. 하지만 이렇게 빠르게, 바로 이번 5월에 일어날 줄은 몰랐습니다.”

14. OpenAI는 특정 벤치마크보다 일반 지능 모델을 만든다

Andrew Mayne:
“OpenAI는 특정 벤치마크에 맞춰 훈련하기보다, 전반적으로 좋은 일반 모델을 만들려고 한다는 점이 자주 강조됩니다. 추론에서도 마찬가지인가요?”

Alexander Wei:
“네. 이 모델은 저희 모두가 현재 Codex 모델 대신 사용해본 모델이기도 합니다. 일반 목적 모델로도 꽤 잘 작동합니다.”

“에르되시 단위거리 결과를 낼 수 있는 능력은, 가까운 미래에는 사람들이 집에서도 해볼 수 있게 될 것이라고 생각합니다.”

15. 온라인 반응: “수학자들이 자기 미해결 문제를 가져오기 시작했다”

Andrew Mayne:
“사람들이 온라인에서 어떤 반응을 보였나요?”

Hongxun Wu:
“결과를 발표한 뒤, 이론 컴퓨터과학 친구들이 자기들의 미해결 문제를 모델에게 시도해보라고 하기 시작했습니다. 제 지도교수도 두세 개의 미해결 문제를 보내줬습니다.”

“반응은 매우 긍정적이었습니다. 사람들은 오늘날 AI의 최전선이 정말로 인간 수학자들이 자랑스러워할 만한 연구 결과를 만들어낼 수 있다는 느낌을 받았습니다.”

Alexander Wei:
“사람들이 모델의 구성을 시각화하려고 디자인을 만드는 것도 봤습니다. 그 구성을 격자에 그려보면 꽤 예쁘고 대칭적인 기하학적 디자인이 나옵니다.”

Lijie Chen:
“우리는 그 디자인 중 하나를 액자에 넣어 책상 위에 올려놓을까 생각하고 있습니다. 이 순간을 기념하기 위해서요.”

16. 이 문제는 에르되시 문제 중에서도 꽤 중요한 문제였다

Andrew Mayne:
“에르되시 문제는 요즘 더 많이 들립니다. 어떤 것들은 사람들이 생각했던 것보다 덜 어려웠던 것처럼 보이기도 합니다. 그런데 이 문제는 더 복잡해 보입니다. 이 문제를 어느 정도 위치에 놓을 수 있을까요?”

Lijie Chen:
“에르되시는 천 개 이상 문제를 제안했을 겁니다. 어떤 문제에는 상금을 걸었고, 어떤 문제는 그냥 기록해두었습니다.”

“이 문제에는 500달러를 걸었습니다. 지난 세기의 500달러니까 꽤 의미가 있습니다. 그리고 이 문제는 이산기하학 분야의 중심 문제 중 하나였습니다. 많은 이산기하학 논문에서 논의된 문제이고, 수학자들이 많이 생각해왔고 답을 정말 알고 싶어했던 문제입니다.”

“그래서 이것은 그냥 에르되시가 점심 먹고 나서 던진 질문 같은 것이 아니라, 구체적인 수학 분야의 주요 미해결 문제라고 말할 수 있습니다.”

Andrew Mayne:
“그 500달러는 어떻게 받나요? 에르되시가 세상을 떠난 뒤 사라졌나요?”

Lijie Chen:
“그걸 담당하는 특별한 기관이 있는 것 같습니다. 보통은 수표를 액자에 넣습니다.”

Hongxun Wu:
“아마 Sam의 사무실에 액자를 걸지도 모르겠습니다.”

17. 추론이 효과적이라는 증거: “더 오래 생각하면 더 많이 맞춘다”

Andrew Mayne:
“이것이 추론이 효과적이라는 것을 어떻게 증명한다고 보나요?”

Lijie Chen:
“가장 큰 증거는 공식 블로그의 그래프입니다. 모델에게 생각할 시간을 더 주면, 이 문제에서 정확도가 더 빨리 올라갑니다.”

“많은 시간을 주면 거의 50% 정도 맞출 수 있습니다. 더 많이 생각할수록 더 많이 맞는다는 겁니다. 저는 이것이 추론이 효과적이라는 강한 증거라고 생각합니다.”

18. 창의성: “조합기하학에 class field theory를 적용했다”

Andrew Mayne:
“증명을 들여다봤을 때, 창의적이라고 느낀 부분이 있었나요?”

Alexander Wei:
“맥락을 말하자면, 그 증명은 제 개인 수학 수준을 훨씬 넘어섭니다. 하지만 높은 수준에서 이해한 바로는, class field theory를 조합기하학 문제에 적용하는 아이디어는 이전에 실제로 잘 사용된 적이 없었습니다.”

“물론 두 분야 사이에 다리가 있을 수 있다는 것을 아는 사람들은 있었던 것 같습니다. 하지만 그 연결을 만들고 실행하는 것은 상당한 통찰과 창의성을 요구합니다.”

“그리고 증명을 완성하는 과정 자체도 매우 섬세하고 조심스러운 작업입니다. 실제로 할 수 있는 사람은 매우 적었을 겁니다.”

Lijie Chen:
“제게 가장 놀라운 순간은 이겁니다. 모델에게 어떤 일을 시키고 점심을 먹으러 갑니다. 돌아와 보면 모델이 제가 생각했던 것보다 훨씬 더 잘해놓은 겁니다. 그 순간 ‘이 모델은 정말 놀라운 무언가구나’라고 느끼게 됩니다.”

19. 모델은 도구를 썼나? Lean을 썼나?

Andrew Mayne:
“GPT-3.5 Turbo처럼 즉석에서 답하던 모델에서 이제는 엄청난 수학 증명을 해내는 모델까지 왔습니다. 이 모델은 도구를 사용했나요? Lean을 썼나요? 아니면 모델 내부에서만 한 건가요?”

Hongxun Wu:
“이 경우 모델은 기본적으로 Codex와 비슷합니다. 코딩할 수 있고, 웹사이트를 보고 정보를 찾을 수 있습니다. 일반적인 ChatGPT 설정에 가깝습니다. Python을 쓰고 실행할 수도 있습니다.”

“하지만 제가 알기로 모델이 특별한 형식화 증명 도구를 쓴 것은 아닙니다.”

Lijie Chen:
“재미있는 이야기가 있습니다. 모델이 웹사이트에 들어가서 처음 한 일은 Cambridge Dictionary에서 ‘unit’이라는 단어의 뜻을 확인한 것입니다.”

Andrew Mayne:
“unit이라는 단어를 찾아봤다고요?”

Lijie Chen:
“네. ‘unit’이 무엇인지 절대적으로 정확하게 이해하려고 한 겁니다. 조금 웃기지만요.”

Hongxun Wu:
“모델 답변을 보면 정의를 다시 설명하는 경우가 많습니다. 자신이 정의를 제대로 grounding했다는 것을 보여주는 식입니다.”

20. 두려워할 일인가? “위협보다 증강에 가깝다”

Andrew Mayne:
“수학과 컴퓨터과학을 잘 아는 사람들로서, 이런 일이 벌어지는 것이 위협적으로 느껴지나요?”

Lijie Chen:
“저는 위협적으로 느껴질 필요는 없다고 생각합니다. 오히려 힘을 주는 일이라고 봅니다.”

“실제로 이 증명이 나온 뒤, 인간 수학자들이 모델이 증명한 bound를 개선했습니다. 그리고 그 구성의 동기를 이용해 다른 미해결 문제들도 무너뜨렸습니다.”

“이 흐름은 계속될 것이라고 생각합니다. 모델은 우리가 어떻게 풀어야 할지 몰랐던 매우 어려운 질문에서 돌파구를 만들 수 있습니다. 하지만 그 아이디어를 소화하고, 다른 좋은 일에 사용하는 데에는 여전히 인간의 역할이 있습니다.”

21. 5년 뒤 수학자의 역할: AI와 인간의 협업

Andrew Mayne:
“5년 뒤 수학자의 역할은 어떻게 될까요?”

Lijie Chen:
“AI와 인간의 협업이 많아질 것이라고 생각합니다. AI는 많은 것을 알고 있습니다. 서로 멀리 떨어진 아이디어들을 연결할 수 있습니다.”

“하지만 인간은 더 오래 생각할 수 있습니다. 현재로서는 AI가 수학에서 완전히 새로운 이론을 세울 수는 없어 보입니다. 하지만 인간이 AI의 도움을 받으면 서로 다른 수학 분야의 아이디어를 훨씬 더 쉽게 가져올 수 있습니다.”

“AI는 인간을 훨씬 더 강하게 만들어줄 수 있습니다.”

22. AI 연구 자체도 바뀌고 있다: “AI로 AI를 더 빨리 만든다”

Andrew Mayne:
“이것이 다른 분야에도 적용될까요? 물리학에서도 발견이 나올까요?”

Alexander Wei:
“물리학에 대해서는 제가 말하기 어렵습니다. 하지만 AI 연구자로서 말하자면, 제 일상은 제가 처음 이 분야에서 연구를 시작했을 때와 완전히 달라졌습니다.”

“이제 제 작업의 매우 많은 부분이 코딩 에이전트에 의해 수행됩니다. 저는 훨씬 더 많은 일을 할 수 있게 되었습니다.”

“AI를 사용해서 AI를 더 빨리 만들 수 있다는 느낌이 들기 시작했습니다. 그것은 정말 마법 같은 느낌입니다.”

Lijie Chen:
“저도 완전히 바뀌었습니다. 반년 전 OpenAI에 합류했을 때만 해도 직접 코드를 짜고, Slack 채널을 찾아보며 방향을 찾았습니다. 그런데 이제 기본값은 Codex에게 묻는 것입니다.”

“Codex에게 많은 일을 시키고 저는 점심을 먹으러 가거나 사람들과 대화합니다. 일하는 방식이 완전히 바뀌었습니다.”

23. 연구자들에게 AI는 “대체”보다 “증폭”이다

Andrew Mayne:
“친구들에게 이것이 다른 분야에 어떤 영향을 줄지 어떻게 설명하나요?”

Lijie Chen:
“수학자 친구들도 있고 다른 분야 친구들도 있습니다. 저는 그들에게 이렇게 말하고 싶습니다. 어떤 사람들은 AI가 자신을 대체할까 봐 두려워할 수 있습니다. AI가 수학자를 대체할 것이라고 생각할 수도 있죠.”

“하지만 저는 이것이 모든 이론 연구자를 강화하는 일이라고 생각합니다. AI는 정말 많은 것과 연결관계를 알고 있다는 장점이 있습니다.”

“현재로서는 인간에게 어려운 문제가 AI에게는 꼭 어려운 문제가 아닐 수도 있습니다. 그건 정말 좋은 일입니다. 우리는 AI를 사용해 그런 문제를 풀고, 새 아이디어를 얻고, 그것을 소화한 뒤 다시 새로운 발견을 할 수 있습니다.”

“꿈같은 세계는 모든 사람이 최고 수준의 추론 능력에 접근할 수 있는 세계입니다. 그러면 연구자들은 자신이 발견하고 싶은 것을 발견하는 데 그것을 사용할 수 있습니다.”

“OpenAI는 전 세계 과학자들을 강화함으로써 과학 전체를 크게 가속할 수 있습니다. 그것이 우리의 미션입니다.”

24. 연구자가 AI를 쓰는 법: “가장 대담한 질문을 던져라”

Andrew Mayne:
“제가 연구자라면 어떻게 시작해야 할까요?”

Hongxun Wu:
“ChatGPT Pro 구독부터 시작하세요. Pro는 생각 없이 혼자 하는 것보다 훨씬 낫습니다. 더 오래 생각하니까요.”

“그리고 가능한 가장 대담한 질문을 던져보세요.”

“저는 가끔 문제를 작은 문제로 나누어 모델에게 물어보려고 했습니다. 그런데 오히려 그냥 원래 질문을 직접 던지는 편이 더 좋을 때가 있었습니다. 왜냐하면 제가 문제를 나누는 방식이 최선이 아니었기 때문입니다.”

“인간은 문제를 어떻게 풀어야 하는지에 대한 선입견을 가지고 있습니다. 그 선입견은 생각 시간을 줄이는 데 도움이 되지만, 자주 틀릴 수 있고, 사각지대를 만들 수 있습니다. AI 모델은 때때로 그런 숨겨진 것을 발견해 우리를 놀라게 합니다.”

25. 모델을 얼마나 신뢰할 것인가: “매달 신뢰도를 두 배로 올려보라”

Andrew Mayne:
“Alex, 연구자가 이 도구를 더 효과적으로 쓰려면 어떤 조언을 하겠습니까?”

Alexander Wei:
“요즘 중요한 것은 모델을 신뢰하는 법을 배우는 것이라고 생각합니다. 어디까지 신뢰할 수 있고, 어디부터는 모델이 못하는지 감각을 익혀야 합니다.”

“그 감각이 없으면 모델의 능력을 최대한 활용하지 못합니다.”

“솔직히 저는 도구 채택 면에서는 약간 공룡 같은 사람입니다. OpenAI에서 일하기 시작했을 때는 이런 도구들이 없었습니다. 그래서 모델을 충분히 신뢰하지 못하는 나쁜 습관들이 있습니다. 아직도 6개월 전 모델처럼 생각할 때가 있습니다.”

Lijie Chen:
“저는 이런 방법을 씁니다. 매번 모델에 대한 신뢰를 두 배씩 올려보는 겁니다. 그리고 언제 실패하는지 봅니다. 실패하면 다시 한 단계 뒤로 갑니다.”

“이걸 매달 반복하면, 모델을 최대한 신뢰하면서도 자신의 작업을 망치지 않는 지점에 빠르게 도달할 수 있습니다.”

“지난 5개월 동안은 그 신뢰도가 정말 지수적으로 올라갔습니다.”

26. 수학자들이 걱정하는 것은 정당하지만, 수학은 문제풀이만이 아니다

Andrew Mayne:
“수학이나 관련 분야에 있는 사람이 이 상황을 걱정한다면, 더 낙관적으로 봐야 한다고 생각하나요?”

Hongxun Wu:
“걱정하는 것은 정당하다고 생각합니다. 특히 많은 분야가 문제풀이 중심이기 때문입니다. 모델들은 문제풀이를 정말 잘하게 될 겁니다.”

“하지만 수학은 문제풀이보다 훨씬 더 많은 것입니다. 수학은 구조를 이해하고 새로운 이론을 만드는 일입니다.”

“우리는 모델을 더 잘 사용해서 우리가 만나는 문제를 풀고, 새로운 이론과 새로운 이해를 만드는 속도를 높이는 방법을 찾아야 합니다. 그것이 더 낙관적인 관점이라고 생각합니다.”

Lijie Chen:
“Codex가 좋아지면 더 적게 일할 것 같지만, 실제로는 더 많이 일하게 됩니다. 할 수 있는 일이 훨씬 많아지기 때문입니다.”

“수학에서도 비슷한 일이 벌어지길 바랍니다. 모델이 아주 좋아지면, 예를 들어 아이디어가 10개 있을 때 10개의 모델에게 각각 시도하게 할 수 있습니다. 그리고 그중 하나가 성공하는지 볼 수 있습니다. 수학자들이 지루한 계산을 직접 할 필요도 줄어들 것입니다.”

27. 아직 풀리지 않은 에르되시 문제들은 남아 있다

Andrew Mayne:
“얼마나 지나면 풀리지 않은 에르되시 문제가 더 이상 남지 않을까요?”

Hongxun Wu:
“어떤 문제들은 정말, 정말 어렵습니다.”

Alexander Wei:
“그 목록에서 가장 어려운 문제들 중에는 Collatz 추측 같은 것도 있습니다. 이런 문제들은 오늘날 수학 기술로는 매우 멀리 있는 것처럼 느껴집니다. 말로 설명하기는 아주 간단한데도 말입니다.”

28. 다음 이정표: AI가 AI 연구를 하는 것

Andrew Mayne:
“다음에는 어떤 영역에서 발견을 보고 싶나요?”

Hongxun Wu:
“저는 그냥 P vs NP를 풀었으면 좋겠습니다.”

Alexander Wei:
“제 머릿속의 다음 이정표는 AI가 AI 연구를 할 수 있게 되는 것입니다.”

“이 분야에는 풀리지 않은 문제가 너무 많습니다. 어떤 의미에서 우리는 인간 지능의 한계에 의해 제한되어 있습니다.”

“저는 AI가 널리 사용 가능한 기술이 되는 것에 낙관적입니다. 세상에는 인간이 공급할 수 있는 것보다 훨씬 더 많은 지능 수요가 있습니다.”

Lijie Chen:
“저도 P vs NP라고 말하고 싶었는데 Hongxun이 먼저 말했습니다.”

“그 외에 제가 관심 있는 구체적인 것은, AI가 서로 다른 분야의 아이디어를 결합하는 것을 넘어 완전히 새로운 아이디어를 처음부터 생성할 수 있느냐입니다.”

“현재 AI에서 그것을 명확하게 본 적은 아직 많지 않습니다. 하지만 다음에 그런 일이 일어난다면 정말 멋질 것입니다.”

29. 모델의 사고 과정은 125페이지였다

Andrew Mayne:
“그런 조짐을 본 적이 있나요?”

Lijie Chen:
“어느 정도는 있습니다. 이 문제에서도 chain of thought를 보면 125페이지 정도 됩니다. 그중 일부 생각들은 꽤 창의적이었습니다. 물론 작동하지 않은 것들도 있었습니다.”

“최종 아이디어는 여러 가지를 결합한 것에 가깝습니다. 하지만 그 과정에는 창의적인 생각들이 있었습니다.”

30. 새로운 수학 분야를 만들 수 있을까?

Andrew Mayne:
“AI가 새로운 형태의 수학을 만들 수 있을까요?”

Lijie Chen:
“그건 조금 더 시간이 걸릴 것이라고 생각합니다. 아마 내년일 수도 있겠지만요.”

“현재 모델들은 문제를 풀기 위한 아이디어를 내는 데는 매우 뛰어납니다. 하지만 완전히 새로운 종류의 수학이나 새로운 이론을 제안하는 데는 아직 능숙하지 않습니다. 모델이 어떻게 그렇게 하게 만들지는 여전히 매우 열린 문제입니다.”

Alexander Wei:
“저는 모델들이 효과적으로 독립 작업을 할 수 있는 시간 지평선에 일종의 무어의 법칙 같은 것이 있다고 봅니다.”

“수학에서도 몇 달마다 모델이 독립적으로 일할 수 있는 인간 등가 시간이 두 배씩 늘어나는 느낌이 있습니다.”

“문제 해결은 어떤 경우에는 짧은 경로가 있을 수 있습니다. 정말 잘하면 오래 걸리지 않을 수도 있습니다. 하지만 새로운 수학 방식 자체를 발명하는 것은 수년 또는 수십 년짜리 과정에 가깝습니다. 그래서 그 지수적 성장이 거기까지 도달하려면 시간이 좀 더 걸릴 것입니다.”

31. GPT-5.5와 다른 연구소들도 같은 문제를 풀었다

Andrew Mayne:
“이것은 여러분이 작업한 내부 모델로 이뤄진 일이었습니다. 그 이후 GPT-5.5도 같은 일을 할 수 있었고, 다른 연구소들도 가능하다고 말했습니다. 하지만 이 일은 몇 주 전 일이니 이제는 고대사처럼 느껴지기도 합니다. 그 이후 무엇을 보았나요?”

Alexander Wei:
“원래 결과와 후속 결과의 차이 중 하나는, 원래 모델에는 별도의 scaffolding이 필요 없었다는 점입니다. 그냥 문제를 물었고 답을 냈습니다.”

“우리가 블로그에 올린 노트에서 원래 프롬프트와 응답을 읽을 수 있습니다. 반면 후속 시도들은 모델을 조금 더 구조화하거나 조향한 경우가 있었습니다.”

“중요한 데이터 포인트는 test-time compute scaling입니다. 충분한 test-time compute 예산을 주면 모델은 이 문제를 약 50% 정도의 확률로 풀 수 있습니다.”

“즉, 더 많은 test-time compute를 투입할수록 더 좋은 결과를 얻습니다.”

32. 올해 말까지 기대하는 것: “모두가 모델로 새로운 과학을 발견하길 바란다”

Andrew Mayne:
“올해 말까지 무엇을 보게 될 것 같나요?”

Lijie Chen:
“제가 보고 싶은 것은 사람들이 우리 모델을 사용해 많은 새로운 것을 발견하는 것입니다. 수학뿐만 아니라 모든 과학에서요.”

“물론 OpenAI도 멋진 수학 결과를 내고 싶습니다. 하지만 저는 모두가 모델을 사용해 자기 자신의 과학을 발견할 수 있다면 더 좋을 것이라고 생각합니다.”

“많은 수학자들이 모델을 사용할 것이라고 기대합니다. 완전히 모델에 맡기는 방식은 아니더라도, 모델과 협업해서 더 많은 수학 결과를 발견할 수 있을 겁니다.”

33. AI를 쓰지 않는 수학자는 망원경을 안 쓰는 천문학자와 비슷해질 수 있다

Andrew Mayne:
“AI를 수학에 쓰는 것을 꺼리는 수학자들에게 가장 좋은 설득은 무엇일까요?”

Hongxun Wu:
“저라면 그냥 이 추측의 증명을 보여줄 겁니다.”

“생산성의 문제라고 생각합니다. 우리는 단지 문제풀이의 즐거움만을 위해 수학을 하는 것이 아닙니다. 분야를 발전시키고, 우리가 찾고 있는 진실을 이해하기 위해 수학을 합니다.”

“AI를 사용하면 그 속도가 크게 빨라질 것입니다. 어느 순간에는 AI 사용을 거부하기 어려워질 겁니다.”

Andrew Mayne:
“천문학자가 망원경을 쓰지 않을 수는 있지만, 왜 안 쓰는지 물어볼 수밖에 없는 것과 같군요.”

Hongxun Wu:
“정확히 그렇습니다.”

34. AI의 풀이에서 인간은 배울 수 있다

Andrew Mayne:
“모델이 내놓는 해결책을 보면서 우리가 더 나은 수학자, 연구자, 과학자, 혹은 더 나은 사고자가 될 수 있을까요?”

Lijie Chen:
“125페이지짜리 사고 과정을 보는 것은 수학자에게 그렇게 도움이 되지 않을 수 있습니다. 하지만 최종 답을 보면 이전에 몰랐던 아이디어를 배울 수 있습니다.”

“그 아이디어가 나중의 수학 연구에 영감을 주고 다른 문제를 무너뜨리는 데 사용될 수 있습니다.”

Hongxun Wu:
“우리가 증명을 검토해달라고 부탁했던 수학자들과 그들의 공동연구자들은, 그 아이디어를 사용해 실수에 대한 어떤 product conjecture를 반증했습니다. 이것이 좋은 예입니다.”

Alexander Wei:
“그 수학자 그룹이 단 일주일 만에 이 아이디어를 사용해 단위거리 추측과 비슷한 중요도의 결과를 반증했다는 것은 놀라운 일입니다. 이것은 수학자들이 AI의 결과를 보고 영감을 받아 다른 문제에 그 아이디어를 적용한 훌륭한 사례입니다.”

35. OpenAI가 수학 커뮤니티와 관계 맺는 방식

Andrew Mayne:
“이것이 수학 커뮤니티에 어떤 의미를 갖나요?”

Alexander Wei:
“우리가 이런 실험을 할 때 중요하게 생각하는 것은, 우리가 상호작용하는 학계 커뮤니티를 강화하는 것입니다.”

“우리는 외부에서 어떤 커뮤니티에 들어가 그들의 문제를 잔뜩 풀고, AI 쓰레기 같은 것을 던져주는 방식으로 하고 싶지 않습니다.”

“우리가 정말 원하는 것은 연구자들에게 이런 도구를 제공하고, 그들이 중요하다고 생각하는 문제에 AI의 test-time compute를 직접 향하게 하는 것입니다.”

“이것은 ‘가능한 많은 에르되시 문제를 풀기 위한 경주’로 보이면 안 됩니다. 우리는 이 기술이 존재하고, 오늘날 모델이 이런 일을 할 수 있다는 것을 사람들에게 알리고 싶습니다.”

36. 암호학: AI가 보안의 기초를 스트레스 테스트할 수 있다

Andrew Mayne:
“이런 것이 암호학에도 적용될 수 있을까요?”

Lijie Chen:
“암호학은 요즘 정말 중요한 주제입니다. 암호학의 기초는 factoring 같은 문제가 컴퓨터로 풀기 어렵다는 데 있습니다. 하지만 사실 우리는 그 어려움에 대한 수학적 증명을 가진 것이 아니라 추측에 의존하고 있습니다.”

“모델이 알고리즘에 아주 강해진다면, 어떤 암호학 추측을 증명해서 ‘이 프로토콜은 실제로 안전하다’고 말해줄 수도 있습니다.”

“반대로 허점을 찾을 수도 있습니다. 그것 역시 매우 중요합니다. 우리는 보안의 기초가 좋은지 확인해야 합니다.”

“모델은 암호학의 기초를 스트레스 테스트해서 더 나은 보안을 갖게 도와줄 수 있습니다.”

37. 양자컴퓨팅과 AI는 다른 패러다임이지만, AI가 양자컴퓨터 개발을 가속할 수 있다

Andrew Mayne:
“양자컴퓨팅은 어떨까요?”

Hongxun Wu:
“양자컴퓨팅은 매우 다른 영역입니다. 저는 예전에 양자컴퓨팅을 공부했습니다. 제 첫 논문도 quantum advantage에 관한 것이었습니다.”

“양자컴퓨팅과 AI는 서로 다른 패러다임입니다. 그래서 단순 비교는 어렵습니다.”

“하지만 AI는 양자컴퓨터 개발 속도를 크게 높일 수 있다고 생각합니다. 최근에는 오류정정에서 발전이 있었습니다. 더 단순한 연산으로 가능한 양자 오류정정 코드들이 물리적 구현을 가속하고 있습니다.”

“AI와의 협업을 통해 이런 일이 더 많이 나올 것이라고 봅니다. AI가 새로운 양자 오류정정 알고리즘을 제안하면, 우리는 양자컴퓨터를 훨씬 더 빠르게 개발할 수 있을 것입니다.”

38. 모델은 문제를 풀 뿐 아니라 설명도 해준다

Lijie Chen:
“모델에게 질문을 풀게 한 뒤에는, 당연히 후속 질문을 할 수 있습니다. ‘어떻게 풀었어?’, ‘증명의 이 부분을 설명해줘’라고 물을 수 있습니다.”

“그러면 모델은 매우 인내심 있게, 한 줄 한 줄 어떻게 되는지 가르쳐주려고 합니다.”

“그래서 이것은 단순한 one-shot 문제풀이가 아닙니다. 증명이 어떻게 작동하는지 배우기 위해 후속 질문을 할 수 있다는 점이 저는 정말 좋습니다.”

39. “너무 좋아서 사실일 리 없다”가 이번에는 사실이었다

Alexander Wei:
“연구자로서 매우 빨리 배우는 것이 있습니다. 결과가 너무 좋아서 사실일 리 없어 보인다면, 아마 어딘가에 버그가 있다는 겁니다.”

“모든 연구자는 실험에서 놀라운 숫자를 보고 흥분했다가, 나중에 실험이 틀렸거나 숫자가 잘못됐다는 것을 알게 된 경험이 있을 겁니다.”

“제가 처음 Lijie와 Hongxun에게 이 이야기를 들었을 때도 제 사전 믿음은 그랬습니다. ‘아, 곧 버그를 찾겠지’라고 생각했습니다.”

“하지만 며칠이 지나면서 점점 낙관이 커졌습니다. ‘어쩌면 이번은 100번 중 한 번 있는 경우일지도 모른다. 너무 좋아서 사실일 리 없어 보이지만, 실제로 사실인 경우일지도 모른다’고 생각하게 됐습니다.”

Andrew Mayne:
“여러분, 정말 감사합니다.”

출연자들:
“감사합니다.”

핵심 요약

이 영상의 핵심은 OpenAI의 범용 추론 모델이 에르되시의 80년 된 단위거리 추측을 반증하는 수준의 수학적 결과를 냈다는 것이야.

특히 중요한 포인트는 이거야.

첫째, 모델은 특정 수학 전용 모델이 아니었다.
일반 목적의 추론 모델이었고, Codex처럼 코드 작성, 웹 탐색, Python 실행 등이 가능한 일반 ChatGPT식 환경에서 작동했다.

둘째, test-time compute가 핵심이었다.
모델에게 더 오래 생각할 시간을 줄수록 정확도가 올라갔다. 연구자들은 이것을 “더 많이 생각할수록 더 많이 맞춘다”는 식으로 설명했다.

셋째, 결과는 IMO 수준을 훨씬 넘어섰다.
IMO 금메달은 이미 AI 입장에서 과거의 이정표처럼 느껴질 정도이고, 이번 결과는 “최고 수학 저널에 실릴 수 있는 수준”이라고 표현됐다.

넷째, 인간 수학자의 역할은 사라지는 것이 아니라 바뀐다.
모델이 돌파구를 만들고, 인간 수학자는 그 아이디어를 이해하고, 개선하고, 다른 문제에 적용한다. 실제로 수학자들은 모델의 아이디어를 바탕으로 다른 추측도 반증했다.

다섯째, 앞으로의 방향은 AI와 인간의 과학 협업이다.
OpenAI 연구자들은 “모든 연구자가 최고 수준의 추론 능력에 접근해 자신의 과학을 발견하는 세계”를 이상적인 방향으로 보고 있다.

전체 0

« 루카스 카이저 “뭔가 아직 부족”

레이 커즈와일 "AGI는 아직 오지 않았지만, 2029년에는 온다" »

목록보기 답글쓰기

글수정 글삭제