OpenAI 연구원 세바스티앙 뷔벡 "이 흐름을 보면 1년 뒤에는 몇 주 동안 생각하는 시스템, 2년 뒤에는 몇 년치 연구를 압축할 수 있는 시스템이 나올 수도 있습니다."

작성자

하이룽룽

작성일

2026-04-29 08:18

조회

OpenAI Podcast Ep. 17

“이제 AI가 수학을 잘하게 되면 무슨 일이 벌어질까?”

출연자
Andrew Mayne: OpenAI Podcast 진행자
Sebastian Bubeck: OpenAI 연구자, 전 Microsoft 연구자, 전 Princeton 교수
Ernest Ryu: OpenAI 연구자, 전 UCLA 수학과 교수, 응용수학·최적화·머신러닝 이론 연구자

1. “몇 년 전만 해도 AI의 수학 실력은 우스울 정도였다”

Andrew:
오늘은 수학 이야기를 해보려고 합니다. 불과 몇 년 전만 해도 언어 모델이 수학을 한다는 건 거의 농담처럼 여겨졌습니다. 그런데 이제는 국제수학올림피아드, IMO 수준까지 올라왔고, 심지어 연구 수준의 수학 문제까지 다루기 시작했습니다. 왜 수학이 AGI로 가는 데 중요한지도 이야기해보겠습니다.

Sebastian:
저는 거의 20년 동안 수학을 연구해왔습니다. 원래는 최적화와 머신러닝 이론을 연구했고, Princeton에서 교수로 일한 뒤 Microsoft를 거쳐 지금은 OpenAI에서 연구하고 있습니다. 최근 몇 년 동안은 AI가 수학에 어떻게 도움을 줄 수 있는지, 그리고 어려운 수학 문제를 푸는 능력이 얼마나 발전했는지 평가하는 일을 하고 있습니다.

Ernest:
저도 최근 OpenAI에 합류했습니다. 그 전에는 UCLA 수학과 교수였고, 최적화와 머신러닝 이론을 연구했습니다. 응용수학자에 가깝다고 볼 수 있습니다.

Andrew:
많은 사람들은 여전히 “언어 모델이 수학을 잘할 수 있나?”라고 생각합니다. 이름부터가 “language model”이잖아요. 이 인식은 어떻게 바뀌었나요?

Sebastian:
지난 몇 년의 발전은 정말 기적에 가깝습니다. 2년 전만 해도 우리는 reasoning model, 즉 깊게 추론하는 모델조차 제대로 갖고 있지 않았습니다. 그런데 지금은 모델이 Fields Medalist 같은 최고 수준 수학자들의 일상 연구를 도울 정도가 되었습니다. 이 점프는 정말 놀랍습니다.

Ernest:
중요한 점은, 이 발전에 모두가 놀랐다는 겁니다. 저희도 놀랐습니다. 1년 반 전쯤 한 학회 워크숍에서 “LLM을 스케일링하면 주요 미해결 수학 문제를 풀 수 있을까?”라는 토론이 있었습니다. 처음에는 80% 정도가 “불가능하다”고 봤습니다. 토론이 끝나고는 50 대 50 정도가 됐지만, 지금 돌아보면 그 회의론조차 너무 틀린 판단이었습니다. 불과 8개월 뒤 모델이 연구 수준 수학을 하기 시작했으니까요.

2. “2025년 여름, ChatGPT가 IMO 금메달 수준에 도달했다”

Andrew:
AI와 수학의 접점이 정말 강력하다고 느낀 순간은 언제였나요?

Ernest:
2025년 여름이 큰 전환점이었습니다. ChatGPT가 국제수학올림피아드에서 금메달 수준의 성과를 냈습니다. 이것은 경쟁 수학 문제에서는 최고 수준의 인간 고등학생과 비슷한 능력을 보였다는 의미입니다.

하지만 IMO 문제는 “준비된 문제”입니다. 누군가 만든 문제이고, 몇 시간 안에 풀리도록 설계되어 있으며, 이미 정답이 있습니다. 연구 수준 수학과는 다릅니다. 그래서 저는 궁금해졌습니다. “그럼 ChatGPT가 진짜 연구 수준 수학도 할 수 있을까?”

저는 제 분야의 실제 미해결 문제를 ChatGPT에 시도해보기로 했습니다. 최적화 이론에서 유명한 Nesterov accelerated gradient method라는 알고리즘이 있습니다. 이 알고리즘이 항상 수렴하는지, 아니면 나쁜 경우에는 발산할 수 있는지에 대한 42년 된 열린 문제가 있었습니다.

Ernest:
저는 사흘 동안, 하루에 약 4시간씩, 총 12시간 ChatGPT와 이 문제를 놓고 대화했습니다. 단순히 프롬프트를 넣었더니 답이 나온 것은 아닙니다. 저는 검증자 역할을 했습니다. 모델이 틀리면 고쳐주고, 제가 보기엔 유망한 방향으로 대화를 이끌었습니다. 결국 증명이 나왔고, 제가 확인했고, ChatGPT에도 다시 검토시켰습니다. 맞았습니다. 그렇게 42년 된 열린 문제가 해결됐습니다.

Andrew:
그걸 논문으로 낼 수도 있었을 텐데요.

Ernest:
맞습니다. 하지만 좀 더 재미있는 방식으로 알리고 싶어서 Twitter에 올렸습니다. 그게 꽤 큰 반응을 얻었습니다. AI가 실제 열린 수학 문제를 푼 초기 사례 중 하나였기 때문입니다.

3. “예전에는 여행 경비 정산이나 시간대 계산도 잘 못했다”

Andrew:
일반 사람들이 이해할 수 있도록, AI 수학 능력이 어느 정도 변했는지 예를 들어 설명해주실 수 있나요?

Ernest:
초기 ChatGPT, 그러니까 2023년쯤에는 고등학교 수학 문제나 일상적인 계산도 자주 틀렸습니다. 예를 들어 세 명이 캠핑을 가서 각자 비용을 냈고, 마지막에 공평하게 정산해야 한다고 해봅시다. 항목이 17개쯤 되면 모델이 잘 못했습니다.

또 다른 예는 시간대 계산입니다. 한 명은 한국, 한 명은 파리, 한 명은 캘리포니아에 있을 때 Zoom 회의 시간을 잡는 문제입니다. 2025년 초까지만 해도 이런 문제를 잘 못 풀었습니다. 그런데 갑자기 상황이 바뀌었습니다. 모델들이 IMO 문제를 풀고, 더 나아가 연구 문제까지 풀기 시작했습니다.

Ernest:
지금 제 기준은 이렇습니다. 만약 당신이 새로운 수학을 발명하려는 전문 수학자가 아니라면, 즉 물리학자나 화학자처럼 미분방정식, 미분기하학 등 고급 수학을 “사용”하는 사람이라면, ChatGPT는 당신이 필요한 대부분의 수학을 처리할 수 있습니다. 물론 검증은 해야 합니다. 모델도 실수할 수 있으니까요. 하지만 99%의 사람들에게 필요한 수학은 이제 모델이 상당히 잘합니다.

Sebastian:
정말 빠르게 변했습니다. 4년 전, Google이 Minerva라는 수학 모델을 냈을 때 저는 엄청 감탄했습니다. 왜냐하면 그 모델은 평면 위 점들의 좌표를 주면 그 점들을 지나는 직선을 구할 수 있었거든요. 지금은 “그게 왜 대단하지?”라고 느껴질 정도입니다. 우리가 얼마나 빠르게 여기까지 왔는지 잊고 있는 겁니다.

4. “수학은 AI 발전을 측정하기에 완벽한 벤치마크였다”

Andrew:
이게 단순히 “와, AI가 수학도 하네”라는 이야기를 넘어서 왜 중요한가요? 과학 전반에는 어떤 영향을 주나요?

Sebastian:
수학이 중요했던 이유 중 하나는 AI의 진전을 측정하기 좋은 벤치마크였기 때문입니다. 수학 문제는 질문이 명확하고 모호하지 않습니다. 답이 맞는지 틀리는지도 비교적 분명합니다. 연구 수준에서는 검증이 더 복잡해지지만, 그 전 단계에서는 평가가 아주 쉽습니다.

그래서 지난 4년 동안 수학은 모델의 추론 능력이 얼마나 발전했는지 확인하는 완벽한 분야였습니다.

Sebastian:
하지만 이제 수학 벤치마크는 어느 정도 포화되었습니다. 다음 질문은 이것입니다. “수학을 잘하는 능력이 다른 영역에도 도움이 될까?” 저는 그렇다고 봅니다.

수학 문제를 풀려면 오래 생각해야 합니다. 며칠, 몇 주, 때로는 몇 년 동안 일관되게 생각해야 합니다. 중간에 한 번이라도 오류가 있으면 전체 논증이 무너집니다. 이 특성은 우리가 reasoning model에 원하는 능력과 매우 비슷합니다. 오래 생각하고, 오류를 찾아내고, 스스로 수정하는 능력 말입니다.

Sebastian:
인간도 비슷합니다. 우리가 인간에게 수학을 가르치는 이유는 단지 수학 문제를 풀게 하려는 게 아닙니다. 논리적으로 오래 생각하는 법을 훈련시키기 위해서입니다. AI도 수학을 통해 그런 능력을 얻게 되고, 그 능력이 다른 과학 분야로 일반화되기를 기대하고 있습니다.

5. “Erdős 문제와 AI의 문헌 탐색 능력”

Andrew:
최근 AI가 열린 수학 문제를 해결했다는 이야기를 할 때, Erdős 문제도 자주 언급됩니다. Paul Erdős가 누구인지부터 설명해주시겠어요?

Sebastian:
Paul Erdős는 지난 세기의 가장 다작한 수학자 중 한 명입니다. 약 1,500편의 논문을 썼고, 집 없이 여러 대학을 다니며 협업자를 찾는 독특한 삶을 살았습니다. 그는 질문을 던지는 데 천재적이었습니다. 모든 질문이 중요한 것은 아니었지만, 수학 공동체에 엄청난 생산성을 가져왔습니다.

수학자들 사이에는 “Erdős number”라는 개념도 있습니다. Erdős와 논문을 공동 저술한 사람은 Erdős number 1, 그 사람과 공동 저술한 사람은 2가 되는 식입니다. 저는 2입니다.

Ernest:
저는 3입니다.

Sebastian:
Erdős가 남긴 문제들을 정리한 웹사이트가 있습니다. Thomas Bloom이 관리하는 사이트인데, 아직 열려 있는 문제와 해결된 문제, 상태가 복잡한 문제들을 기록해두고 있습니다. OpenAI 모델이 연구 수준 수학을 하기 시작했을 때, 이 문제들은 자연스럽게 테스트 대상으로 보였습니다.

Sebastian:
처음에는 어떤 문제에서 모델이 “문헌 탐색”을 통해 답을 찾았습니다. 수천 편의 논문을 훑고, 전혀 다른 분야에 있는 결과가 사실상 Erdős 문제의 답이 된다는 연결을 찾아낸 겁니다. 단순히 “이 논문이 Erdős 문제를 풀었다”고 적혀 있었던 게 아닙니다. 서로 다른 언어로 쓰인 수학을 연결해야 했고, GPT가 그 연결을 해냈습니다.

그 뒤 더 체계적으로 여러 문제를 시도했고, 모델이 10개의 Erdős 문제에 대한 해결책을 찾아냈습니다. 처음에는 이 결과가 오해되기도 했습니다. 사람들은 “AI가 완전히 새로운 방식으로 10개의 열린 문제를 풀었다”고 받아들였는데, 실제로는 일부는 문헌 속에 이미 있던 해결을 찾아 연결한 경우였습니다.

Sebastian:
하지만 놀라운 점은 그 이후입니다. 몇 달 뒤에는 실제로 문헌에 없는 새로운 해결도 나오기 시작했습니다. 지금은 ChatGPT와 내부 모델들이 완전히 새로운, 조합론 최고 저널에 실릴 수 있는 수준의 Erdős 문제 해결을 10개 이상 만들어냈습니다. 이것이 정말 빠르게 가속되고 있습니다.

6. “과학 발전은 천재의 번뜩임인가, 지식의 재조합인가?”

Andrew:
AI가 문헌을 탐색하고 서로 다른 분야를 연결하는 능력을 보면, 과학적 발견이 무엇인지에 대한 질문도 생깁니다. 발견은 천재의 순간적인 통찰인가요, 아니면 여러 지식을 조합하는 과정인가요?

Sebastian:
AI 연구의 흥미로운 점은 이런 큰 질문을 피할 수 없게 만든다는 겁니다. 과학의 진보가 서로 다른 조각들을 연결하고 약간의 추론을 더하는 것인지, 아니면 인간만이 할 수 있는 천재적 통찰이 필요한 것인지 아직 결론은 없습니다.

사람들은 아인슈타인의 상대성이론 같은 사례를 자주 말하지만, 사실 그조차도 완전히 혼자 갑자기 나온 것은 아닙니다. 기존의 아이디어와 비유, 수학적 도구들이 있었습니다. 과학적 발견은 우리가 흔히 말하는 짧은 영웅담보다 훨씬 복잡합니다.

7. “AI 수학 능력은 생물학, 재료과학, 물리학에도 번질 것이다”

Andrew:
수학 도구로서 AI가 더 강해지면 생물학, 재료과학 같은 다른 분야에는 어떤 영향이 있을까요?

Sebastian:
중요한 점은 우리가 수학만을 위해 아주 특별한 기법을 개발하고 있는 게 아니라는 겁니다. OpenAI의 훈련 기법은 매우 일반적입니다. 여러 영역에 적용됩니다. 수학에서 더 빠르게 진전이 보이는 이유는 평가가 쉽기 때문입니다. 하지만 우리는 이 발전이 모든 과학 분야에서 일어날 것이라고 기대합니다.

Andrew:
긴 논리 사슬을 따라가며 “이게 참이면, 그다음 이것도 참이고…”라고 생각하는 능력은 다른 분야에도 당연히 쓰일 수 있겠네요.

Sebastian:
맞습니다.

8. “자동 연구자, auto-researcher란 무엇인가?”

Andrew:
요즘 “auto-researcher”, 자동 연구자라는 말을 듣습니다. 이건 무엇인가요?

Sebastian:
지금 우리가 AI와 일하는 방식은 Ernest가 말한 것처럼 교수와 학생의 관계에 가깝습니다. 사람이 문제를 주고, ChatGPT가 돌아와서 답을 내놓고, 사람이 검토하고 방향을 잡아줍니다. 이 과정만으로도 시간이 엄청나게 압축됩니다. Ernest의 경우 12시간 만에 문제를 풀었죠. AI 없이 했다면 훨씬 오래 걸렸을 겁니다.

Ernest:
저는 AI 없이 그 문제에 40시간 넘게 실패했습니다. 아마 한 달은 걸렸을지도 모릅니다.

Sebastian:
자동 연구자는 그보다 한 단계 더 나아간 개념입니다. 하나의 모델 또는 여러 모델이 장기간 자율적으로 연구를 수행하는 것입니다. 진짜 큰 돌파구, 예를 들어 생물학에서 wet lab 실험과 상호작용해야 하는 복잡한 문제를 풀려면, 단순히 사람이 계속 옆에서 대화하는 방식으로는 부족합니다.

Sebastian:
저는 “AGI time”이라는 개념을 좋아합니다. AI가 인간처럼 생각할 수 있다고 할 때, 얼마나 오래 그렇게 생각할 수 있느냐가 중요합니다. 몇 년 전에는 몇 초나 몇 분 정도 생각하는 고등학생 수준이었다면, 지금은 몇 시간, 며칠, 어쩌면 일주일 정도 생각하는 연구자에 가까워지고 있습니다. 앞으로는 몇 주, 몇 달 동안 생각할 수 있는 시스템으로 가야 합니다. 이것이 자동 연구자의 방향입니다.

9. “수학에서도 Codex 같은 장기 작업 방식이 필요하다”

Ernest:
지금 수학자들이 AI를 쓰는 방식은 ChatGPT를 열고 대화하는 것입니다. 하지만 각 세션에는 context window가 있습니다. 대략 수학 논문 50페이지 정도의 맥락이라고 볼 수 있습니다. 그런데 깊은 수학 돌파구를 만들기에는 부족합니다.

진짜 수학 논문은 최종적으로는 10페이지, 30페이지일 수 있지만, 그 뒤에 들어간 인간의 사고량은 훨씬 큽니다. 수개월, 수년 동안 생각하고 정리한 결과입니다.

Ernest:
Codex를 써본 사람들은 압니다. 긴 코드 작업 세션을 이어갈 수 있고, 코드 저장소 자체가 일종의 외부 기억처럼 작동합니다. 수학에서도 비슷한 일이 일어날 것입니다. 모델이 긴 수학 노트를 다루고, 중간중간 요약하고, 다시 이어서 생각하는 방식이 가능해질 겁니다.

그렇게 되면 LLM은 단순히 50페이지 안에서 끝나는 문제가 아니라, 50페이지 이상의 사고가 필요한 문제도 풀 수 있게 될 것입니다. 인간 수학자들이 하는 방식과 비슷합니다. 하루 생각하고 노트에 정리하고, 다음 주에 다시 돌아오고, 몇 달 뒤 하나의 논문으로 압축하는 방식 말입니다.

10. “AI는 과학자의 시간을 압축한다”

Andrew:
저도 작은 LLM이 수학을 하도록 하는 실험을 하다가 벤치마크가 필요했습니다. 원래라면 데이터를 만들고 생성기를 짜는 데 몇 시간이 걸렸을 텐데, Codex에게 “내 벤치마크를 만들어줘”라고 하니 5분 뒤에 완성됐습니다. 저에게는 마법 같았습니다.

Sebastian:
그게 바로 우리가 “science acceleration”이라고 부른 것입니다. 실제로 과학자의 시간을 압축하는 겁니다. 예전에는 며칠 걸렸거나, 아예 포기했을 일이 이제 가능해집니다.

Andrew:
맞아요. 저는 아마 포기했을 겁니다.

Sebastian:
그 점이 중요합니다. AI는 과학자들에게 새로운 능력을 줍니다. 예를 들어 수학자 중에는 코딩을 잘하지 않는 사람이 많습니다. 예전에는 실험을 하려면 대학원생에게 부탁해야 했습니다. 이제는 Codex로 직접 실험할 수 있습니다. 반대로 다른 과학 분야의 연구자들은 ChatGPT 덕분에 더 고급 수학을 사용할 수 있습니다.

11. “앞으로 인간 연구자는 무엇을 하게 될까?”

Andrew:
그러면 인간의 역할은 무엇이 될까요? 미래를 예측하는 건 조심스럽지만, 어떻게 보시나요?

Sebastian:
제 머리로는 이렇게 생각합니다. 지난 4년간 발전은 매우 일관되었습니다. AI가 몇 초짜리 문제를 풀던 수준에서 몇 분, 몇 시간, 며칠짜리 문제를 푸는 수준으로 올라왔습니다. 이 흐름을 보면 1년 뒤에는 몇 주 동안 생각하는 시스템, 2년 뒤에는 몇 년치 연구를 압축할 수 있는 시스템이 나올 수도 있습니다.

이미 오늘날에도 내부 에이전트가 논문에서 오류를 찾아내고 “이 부분이 틀렸고, 올바른 답은 이것”이라고 제시하는 사례가 있습니다. 그리고 AI는 질문에 답하는 것뿐 아니라 좋은 질문을 던지는 데도 점점 능숙해지고 있습니다. 실제로 인간 연구자들이 AI가 제안한 질문을 보고 “이걸 바탕으로 논문을 써야겠다”고 생각하는 경우도 있습니다.

Sebastian:
그렇다면 인간의 역할은 무엇일까요? 과학의 목적은 논문을 많이 쓰는 것이 아닙니다. 우리는 문제를 풀기 위해 과학을 하는 것이 아니라, 무언가를 더 깊이 이해하기 위해 과학을 합니다. 그리고 그 이해를 통해 질병을 치료하고, 더 좋은 물건을 만들고, 환경을 더 잘 통제하려고 합니다.

AI는 질병에 걸리지 않습니다. 하지만 인간은 질병을 걱정합니다. 그래서 어떤 문제가 중요한지 정하고, AI를 그 방향으로 이끄는 것은 인간의 역할입니다. 인간이 통제권을 가져야 합니다.

12. “수학자는 사라지는 것이 아니라 더 재미있는 문제를 풀게 된다”

Andrew:
초기 컴퓨터가 등장했을 때도 “이제 계산은 기계가 하니 수학의 어려운 문제는 없어질 것”이라고 생각한 사람들이 있었습니다. 하지만 실제로는 계산이 새로운 수학 분야를 열었습니다. 이번에도 비슷하지 않을까요?

Ernest:
저는 수학이 훨씬 더 재미있어질 거라고 봅니다. 수학자는 문제 푸는 것을 좋아합니다. 하지만 AI 이전에는 한 문제를 풀기 위해 몇 달 동안 고통스럽게 고민해야 했습니다. 해결했을 때의 도파민은 크지만, 그 과정에는 고통도 많았습니다.

AI는 그 과정을 가속할 것입니다. 더 많은 해답, 더 많은 재미가 생길 수 있습니다.

Ernest:
또 수학은 훨씬 더 연결될 것입니다. 연구 수준 수학은 매우 좁은 분야로 쪼개져 있습니다. 논문을 써도 실제로 관심 가질 사람은 전 세계에 다섯 명일 수 있습니다. 20년 뒤에는 아무도 읽지 않을 수도 있습니다.

하지만 이제 AI는 그 논문을 읽어둡니다. 미래에 그 결과가 쓸모 있는 연결을 만들 수 있다면, AI가 그것을 찾아낼 수 있습니다. 그래서 저는 제가 쓴 아주 좁은 결과도 언젠가 필요하면 사용될 가능성이 커졌다고 느낍니다.

Ernest:
또 저는 제가 모르는 분야의 수학 결과에도 접근할 수 있게 됩니다. 예전에는 그 분야를 깊이 공부하지 않으면 어떤 결과가 있는지도 알 수 없었습니다. 이제는 모델이 “당신 문제에는 이 분야의 이 정리가 쓸 수 있습니다”라고 알려줄 수 있습니다. 그러면 저는 그 결과를 공부해서 활용하면 됩니다.

13. “AI는 수학 검증을 크게 가속할 수 있다”

Ernest:
수학에서 정답을 검증하는 일은 생각보다 어렵습니다. 누군가 300페이지짜리 증명을 내고, 그 사람이 매우 유명한 수학자라면, 겉보기에는 그럴듯해 보일 수 있습니다. 하지만 그게 정말 맞는지 확인하려면 몇 년이 걸릴 수 있습니다. 한 사람이 읽는 것만으로는 부족하고, 여러 사람이 읽고 확장해보며 세부를 확인해야 합니다.

때로는 치명적으로 틀린 증명이 출판되기도 합니다. 처음에는 분야 전체가 받아들이다가 나중에야 고칠 수 없는 오류가 발견되기도 합니다.

Ernest:
AI는 이 과정을 크게 가속할 수 있습니다. 지금의 모델이 완벽하게 수학을 검증하는 것은 아니지만, 이미 꽤 잘합니다. 그리고 인간보다 훨씬 인내심이 많습니다. 출판된 수학 논문에는 작은 실수가 많고, 큰 실수도 적지 않습니다. 저희는 모델로 테스트해보며 그것을 확인했습니다.

미래에는 논문이 나온 지 일주일 만에 AI가 검증을 도와주고, 그 결과를 더 신뢰하면서 후속 연구를 빠르게 진행할 수 있을 것입니다.

14. “하지만 인간이 AI에게 열쇠를 넘겨줘서는 안 된다”

Sebastian:
저도 Ernest의 낙관에 동의합니다. 수학은 더 재미있고, 더 연결되고, 더 신뢰할 수 있는 분야가 될 것입니다. 하지만 위험도 있습니다.

가장 큰 위험은 인간이 AI에게 성의 열쇠를 넘겨주는 것입니다. 즉, 인간이 더 이상 깊이 이해하려고 노력하지 않고, ChatGPT가 쉽게 설명해주는 것에만 의존하는 겁니다. 그렇게 되면 이해가 얕아질 수 있습니다.

Sebastian:
전문성은 그 어느 때보다 중요합니다. 우리가 ChatGPT에서 이런 결과를 끌어낼 수 있는 이유는 오랜 훈련과 깊은 이해가 있기 때문입니다. 그런 전문성이 없었다면 우리는 모델을 연구 최전선까지 밀어붙일 수 없었을 겁니다.

실제로 비수학자가 AI를 사용해 정리를 증명하려고 하고, 수십 페이지짜리 증명을 만들었지만 나중에 완전히 틀린 것으로 드러난 사례도 있습니다. 이것은 진짜 위험입니다.

Ernest:
코딩에서도 비슷합니다. 사람들이 디버거와 씨름하며 배우는 과정이 있습니다. 그런데 요즘은 그 과정을 건너뛰기 쉽습니다. 저는 이것이 위험하다고 생각합니다. 일종의 정신적 근육 위축이 일어날 수 있습니다.

15. “우리는 과학자가 더 적게 필요한 것이 아니라 더 많이 필요하다”

Andrew:
일부 사람들은 AI가 발전하면 과학자가 필요 없어질 거라고 말합니다.

Sebastian:
절대 아닙니다. 그런 말은 하지 않았으면 좋겠습니다. 우리는 과학자가 더 적게 필요한 것이 아니라, 더 많이 필요합니다. 다만 그 과학자들은 훨씬 더 생산적이고 강력해질 것입니다. 더 좋은 일을 할 수 있게 됩니다.

하지만 그들은 자신의 분야를 정말 잘 알아야 합니다. 여기서 대학과 학계의 역할이 중요합니다. OpenAI가 모든 것을 할 수는 없습니다. 기존 교육기관과 연구기관이 AI 발전 속도를 이해하면서도, 과학 훈련의 핵심을 지켜야 합니다.

Andrew:
저는 오히려 더 많은 사람이 과학에 들어올 거라고 기대합니다. 나중에 과학을 시작해도 ChatGPT 같은 훌륭한 튜터가 있으니 따라잡기가 쉬워질 수 있습니다. OpenAI도 시각적 설명 도구를 ChatGPT에 추가했죠. AI가 어떤 벤치마크를 최고점으로 넘었다고 해서 “이제 초등 수학은 끝났다”라고 말할 게 아닙니다. 그다음 단계, 또 그다음 단계가 있습니다.

Sebastian:
맞습니다. 젊은 세대가 과학을 훨씬 빠르게 배울 수 있을 것입니다. 제가 10대 때 ChatGPT가 있었다면 어땠을지 상상해봅니다. Maxwell 방정식을 보고 “이게 대체 무슨 의미지?”라고 고민했던 기억이 있습니다. 지금은 ChatGPT에 물어보면 아주 아름답게 설명해줍니다. 하지만 그래도 그 위에 진짜 노력을 해야 합니다.

16. “AI가 만든 잘못된 증명과 잘못된 코드, 어떻게 막을까?”

Andrew:
AI 덕분에 수학 증명을 시도하는 사람은 많아질 것입니다. 하지만 제대로 된 배경지식 없이 틀린 증명을 대량으로 만들 수도 있습니다. 코드 저장소에서도 진짜 수정이 아닌 가짜 수정이 올라오는 일이 생기죠. 수학 저널 입장에서는 무서울 것 같습니다.

Sebastian:
AI가 그 문제의 반대편에서도 도움을 줄 수 있습니다. 제출된 증명이나 논문을 AI 에이전트가 먼저 훑고, 잠재적 문제를 표시할 수 있습니다. 물론 AI가 “이 논문을 받아라”라고 최종 결정해서는 안 됩니다. 하지만 “이 부분이 의심스럽다”고 알려주면 인간 검토자는 훨씬 효율적으로 검증할 수 있습니다.

Ernest:
수학과 코드의 사회적 구조도 바뀌어야 합니다. 최종적으로 커밋하거나 논문을 제출하는 인간이 책임을 져야 합니다. 수학에는 이미 그런 문화가 있습니다. 틀린 증명을 내면 평판에 타격이 있습니다. 자기 이름으로 논문을 낸다는 것은 자기 평판을 걸고 책임진다는 뜻입니다. 앞으로는 이 책임 문화가 더 중요해질 것입니다.

17. “수학이 궁금한 사람은 ChatGPT와 대화해보라”

Andrew:
수학에 관심은 있지만 스스로 “나는 수학 사람이 아니다”라고 생각하는 사람에게는 뭐라고 말하고 싶으신가요?

Ernest:
ChatGPT와 대화해보라고 말하고 싶습니다. 배우고 싶다면 정말 도움이 됩니다. 저도 연구 수준에서 새로운 개념을 배울 때 예전에는 Wikipedia를 봤습니다. 그런데 너무 압축적이고 어렵습니다. 이제는 ChatGPT에 묻습니다. 그러면 제가 모르는 부분에 맞춰 설명해줍니다. 후속 질문도 할 수 있고요.

자신의 수학 배경, 읽은 책, 배운 내용을 ChatGPT에게 설명한 뒤, “내 수준에서 이해할 수 있으면서도 열린 질문을 만들어줘”라고 요청할 수도 있습니다. 사람들은 아직 LLM이 좋은 질문을 만들 수 있다는 점을 충분히 이해하지 못합니다. 하지만 저는 가능하다고 생각합니다.

Ernest:
AI와 함께 수학 이야기를 하고, 문제를 만들고, 풀고, 변형해보는 과정은 혼자 방에 앉아 있어도 덜 외롭게 느껴집니다. 수학은 사실 매우 사회적인 활동입니다. AI는 그 사회성을 어느 정도 제공해줄 수 있습니다.

Andrew:
저는 장난감 같은 문제로 시작해도 좋다고 생각합니다. “욕조에 M&M 초콜릿이 몇 개나 들어갈까?” 같은 질문이요. 또는 “작년에 나는 몇 단어를 읽었을까?” 같은 질문도 좋습니다. 이런 질문에서 시작해 점점 더 복잡한 수학으로 들어갈 수 있습니다.

Andrew:
오늘 이야기 정말 좋았습니다. Sebastian, Ernest, 감사합니다.

Sebastian / Ernest:
초대해주셔서 감사합니다.

핵심 메시지 요약

이 에피소드의 핵심은 단순히 “AI가 수학을 잘한다”가 아닙니다. 더 큰 메시지는 다음과 같습니다.

AI는 불과 몇 년 만에 간단한 계산도 자주 틀리던 수준에서 IMO 금메달급 문제와 연구 수준 수학 문제를 다루는 단계로 올라왔습니다. 수학은 질문과 검증이 명확하기 때문에 AI의 추론 능력을 측정하기 좋은 벤치마크였고, 이 능력은 과학 전반으로 확산될 가능성이 큽니다.

하지만 AI가 강력해질수록 인간의 전문성은 더 중요해집니다. AI는 시간을 압축하고, 문헌을 연결하고, 실험과 계산을 도와주며, 검증을 가속할 수 있습니다. 그러나 어떤 문제가 중요한지 정하고, 결과를 깊이 이해하고, 책임지는 일은 여전히 인간의 몫입니다.

결론적으로 두 연구자는 AI가 수학자와 과학자를 대체하기보다는, 더 많은 사람이 더 깊고 어려운 문제에 도전할 수 있게 만드는 도구가 될 것이라고 봅니다.

전체 0

« 로먄 얌폴스키 - 왜 AGI와 초지능은 통제 불가능한가

목록보기 답글쓰기

글수정 글삭제

N OpenAI 연구원 세바스티앙 뷔벡 "이 흐름을 보면 1년 뒤에는 몇 주 동안 생각하는 시스템, 2년 뒤에는 몇 년치 연구를 압축할 수 있는 시스템이 나올 수도 있습니다."	08:18
N gpt-5.6 codex 로그에 등장	2026.04.28
N 로먄 얌폴스키 - 왜 AGI와 초지능은 통제 불가능한가	2026.04.28
N 전 Stability CEO "이륙(takeoff)은 지금 즈음에서 앞으로 몇 년 안에 일어날 것"	2026.04.28
N anthropic 잭 클라크: "2027년 4월까지 인공지능 시스템은 사람이 150시간 걸릴 작업을 처리할 수 있게 될 것" (1)	2026.04.27
N 신모델 내놓으셈 ㅠㅠ (2)	2026.04.26
N 영국정부 부총리 "영국의 AI 소버린 논의는 다소 정직하지 않다"	2026.04.26
N 구글 클라우드CEO "Gemini와 관련해서는 Google Cloud Next에서, 그리고 그 직후에도 새로운 발표들이 있을 것"	2026.04.26
N 수학교수 다니엘 리트 "가능할 때 노을을 즐겨"	2026.04.26
N 데미스 하사비스 "우리는 AGI로부터 단 한두 가지 기술적 돌파구만 떨어져 있을 뿐"	2026.04.25

N 술람아 이거 METR 80% 그래프 기준 어느 추세선이냐 빨강 노랑 보라 회색 그거 있잖아	01:50
N 일리야 셔츠케버는 요즘 뭐하고 지내는지 궁금	2026.04.27
N 경제적 충격을 주는 모델 내놓으셈	2026.04.27
N 다음 주 아니면 5월 초일 것이셈 5월 19일에 구글 IO 행사가 열리기 때문에 그 전에 발표될 것이셈!!	2026.04.25
N Gemini pro 다음버전 언제 출시 예상하셈 특붕쿤?	2026.04.25
N 2026년 말 데이터센터 속 천재들 시나리오대로 착실하게 가고 있으니 큰 건 맞다는 거셈 하지만 특붕이들의 기대치에는 여전히 미치지 못한다는 거셈 ㅜㅜ	2026.04.24
N 큰거온거셈?	2026.04.24
N 지수적 발전을 느끼지 못하겠다는 거셈... 이건 선형발전이셈 ㅜㅠ 5.5가 옴니모델인줄 알았는데 그런 것도 아니고 딱 0.1 수준의 발전이잖으셈 미소스 컴퓨팅 비용이나 사용성까지 고려하면 다를 수도 있지만 openai가 anthropic에 비해 뒤쳐지기 시작한 거 같은 느낌이 들기 시작했다는 거셈 심지어 api 가격은 5.4보다 2배나 더 오른 것도 실망이셈 한 달 뒤에 5.6 나온다는 거에 만족해야 하나봄 ㅜㅠ 특붕이의 욕심으로는 더 큰 도약을 기대했다는 거셈	2026.04.24
N spud는 미소스 수준이거나 더 나은 줄 알았다는 거셈.. opus 4.7 수준인거 보고 실망중이셈.. 선형충들의 1승인듯...... ㅜㅜ 그렉 브록만 인터뷰 보면 새로운 사전훈련 모델인만큼 이 모델 기반으로 빠르게 성능 개선시킬 수 있는 것 같긴 하셈 5.5 써보니 추론 속도는 훨씬 빨라져서 실사용성이 좋긴 하다는 거셈	2026.04.24
N 기대가 컸던 탓인지 실망이 너무 큼... 4.7도 그렇고 5.5도 그렇고.. 선형충의 마인드로 살아가는게 역시 맞는 것 같삼..	2026.04.24

구글 브레인 추론팀 창시자 "Game Over" (4)	2025.11.23
하사비스 : AGI까지 큰 돌파구 1~2개만 더 뚫으면 됨. (7)	2026.02.26
전 OpenAI GTM 잭 캐스 "트랜스포머로 AGI 달성 가능" (7)	2024.07.04
우리는 질문에 답해주는 챗봇을 원하는 게 아니셈 (4)	2025.11.21
최근 심상치않은 프론티어 연구소 2026 예측 (4)	2026.01.06
데리야 우누트마즈 "ASI 2028으로 타임라인 변경" (2)	2026.03.03
최근 카파시도그렇고 진짜 (1)	2026.03.10
앤트로픽 내부적으로는 6~12개월 이내 AGI 달성할 것으로 예상한다고 해 (8)	2026.03.31
전 구글 차이나 사장 리 카이푸 "AI는 2025년에 박사 학위 수준을 넘어설 것"	2024.07.29
로건 킬패트릭 "2025"	2024.08.06