인터뷰/예측

딥마인드 애덤 브라운 “지금 있는 것들을 계속 확장하고 다듬기만 해도 AGI에 도달할 것”

작성자
작성일
2026-06-08 20:03
조회
9






딥마인드 애덤 브라운 인터뷰/강연 상세 정리

주제: LLM은 수학과 물리학을 어떻게 바꾸고 있는가

애덤 브라운:

“오늘 이 자리에 오게 되어 정말 기쁩니다. 우리는 문명사적으로 굉장히 특별한 순간을 살고 있습니다. 인류는 모래를 정제해 실리콘을 만들고, 그 실리콘으로 반도체 칩을 만들고, 그 칩들을 모아 신경망을 만들고, 이제는 그 신경망이 ‘생각’하도록 훈련시키는 법을 알아냈습니다.

저는 지금까지 이론물리학 논문을 약 40편 썼습니다. 그런데 이제는 멈췄습니다. 손으로 이론물리 논문을 하나하나 쓰는 일이 너무 큰 ‘죄책감 드는 즐거움’처럼 느껴졌기 때문입니다. 제가 해야 할 일은 논문 한 편을 더 쓰는 것이 아니라, 산업적 규모로 지식을 쏟아낼 기계를 만드는 일에 기여하는 것이라고 느꼈습니다.”



1. 기존 과학 도구와 LLM의 차이

애덤 브라운:

“물론 물리학에서 컴퓨터 보조 도구는 오래전부터 있었습니다. 주판, 계산기, 컴퓨터 대수 시스템, 수치 시뮬레이션 등은 이미 과학 작업의 일부였습니다.

하지만 이번 것은 다릅니다. 기존 도구들은 특정 작업 하나를 도와주는 특수 목적 도구였습니다. 계산기는 계산을 대신해주지만, 문제를 이해하고, 전략을 세우고, 논문을 읽고, 증명을 구성하고, 해석까지 해주지는 않습니다.

LLM은 그런 도구가 아닙니다. 대형 언어모델은 이론물리학자인 제 일의 거의 모든 부분을 수행할 잠재력을 가집니다. 이것은 특수 목적 도구가 아니라 일반 지능의 기초가 될 수 있는 시스템입니다. 저는 대형 언어모델이 우리가 일반 지능을 구축할 기반이 될 것이라고 생각합니다.”



2. 대형 언어모델은 어떻게 만들어지는가

애덤 브라운:

“먼저 LLM이 무엇인지 짚고 넘어가야 합니다. 지금은 Gemini, ChatGPT, Claude 같은 모델들이 있고, 사람들은 그냥 웹사이트에 들어가 말을 걸면 됩니다. 그리고 그것들은 대답합니다. 사실 몇 년 전 이미 조용히 튜링 테스트를 통과했지만, 아무도 크게 축하하지 않았습니다.

LLM은 인간 뇌의 뉴런 구조에서 영감을 받은 인공 신경망입니다. 전통적인 컴퓨터 프로그램과는 다릅니다. 전통적인 프로그램은 사람이 규칙을 작성합니다. 하지만 신경망은 프로그래밍되는 것이 아니라 ‘길러집니다.’”

애덤 브라운:

“처음에는 인공 뉴런과 인공 시냅스가 거의 무작위 가중치로 연결되어 있습니다. 그 상태에서 말을 하라고 하면 완전히 말도 안 되는 단어들을 내놓습니다. 그런데 우리는 인터넷의 텍스트를 주고, 앞의 단어들을 보고 다음 단어를 예측하게 합니다.

맞히면 그 신경 경로를 강화하고, 틀리면 약화합니다. 이것을 엄청난 규모로 반복하면 모델은 다음 단어를 점점 더 잘 예측하게 됩니다. 처음 백만 단어 정도를 학습했을 때는 여전히 거의 헛소리를 합니다. 수천만, 수억, 수십억 단어를 학습하면 문법적으로 그럴듯한 문장을 만들기 시작합니다. 인터넷 전체 수준, 즉 수십조 단어를 읽으면 거의 모든 주제에 대해 지적으로 대화할 수 있게 됩니다.”

애덤 브라운:

“이 과정을 사전학습이라고 부릅니다. 그리고 그 다음에는 후학습, 즉 일종의 ‘마무리 교육’이 필요합니다. 사전학습 직후의 모델은 그저 다음 단어를 예측하도록 훈련된 존재입니다. 다소 무례하고, 사용자의 의도를 따르지 않을 수도 있습니다. 그래서 후학습을 통해 예의 바르게, 도움이 되게, 사용자에게 협조적으로 행동하도록 훈련합니다.”



3. 물리학자들이 AI 붐에 기여한 방식: 스케일링 법칙

애덤 브라운:

“그런데 물리학자가 왜 여기에 등장하느냐고 물을 수 있습니다. 물리학자들은 이 과정의 여러 단계에 관여해왔습니다. 특히 현대 LLM 붐을 촉발한 중요한 기여가 하나 있습니다. 바로 스케일링 법칙입니다.

물리학자들은 스케일링 법칙을 좋아합니다. 어떤 대상의 크기를 키우면 면적은 어떻게 변하고, 부피는 어떻게 변하고, 에너지는 어떻게 변하는지 보는 것이 물리학의 기본입니다.

LLM에서도 비슷한 질문을 던졌습니다. 더 큰 신경망을 만들고, 더 많은 계산량을 투입하면 성능은 얼마나 좋아지는가? 경험적으로 보니 로그-로그 그래프에서 거의 직선이 나왔습니다. 즉, 더 많은 계산량을 넣으면 예측 가능하게 성능이 좋아졌습니다.”

애덤 브라운:

“이 그래프는 벤처캐피털도 이해할 만큼 단순했습니다. 돈을 더 넣어 계산량을 늘리면 성능이 좋아진다는 뜻이었기 때문입니다. 이것이 현대 LLM 스케일링 시대를 열었습니다. 지난 6년 동안 우리는 신경망을 미친 듯이 키워왔습니다.”



4. LLM 발전의 세 가지 원천

애덤 브라운:

“지난 몇 년간의 발전은 단순히 칩이 빨라져서 일어난 것이 아닙니다. 무어의 법칙은 장기적으로 중요했지만, 최근 5년의 폭발적 진보를 설명하기에는 부족합니다.

첫째, 우리는 같은 종류의 칩을 훨씬 많이 사서 거대한 데이터센터에 모았습니다. 프런티어 AI 모델 훈련에 들어가는 플롭스는 2010년 이후 매년 약 4배씩 증가해왔습니다.

둘째, 훈련에 들어가는 돈도 빠르게 늘었습니다. 지난 10년 동안 훈련 비용은 연평균 약 2.7배씩 증가했습니다.

하지만 가장 중요한 것은 셋째, 알고리즘 발전입니다. 인간의 창의성과 엔지니어링이 신경망을 더 효율적으로 훈련하는 방법을 찾아낸 것이 가장 큰 원동력이었습니다. 우리는 아직도 많은 비효율을 제거하고 있고, 앞으로도 개선 여지는 많습니다.”



5. 5년 전의 LLM은 유치원생 수준이었다

애덤 브라운:

“이제 5년 전으로 돌아가 봅시다. 이 세계에서는 5년 전이 거의 석기시대입니다. 2019년으로 돌아가면, 과학자로서의 능력 기준에서 LLM은 유치원생보다 나을 것이 없었습니다. 그럴듯한 문장도 제대로 만들지 못했고, 아이디어를 연결하지도 못했습니다.

당시 우리는 벤치마크로 발전을 측정했습니다. 대표적인 것이 MATH라는 고등학교 수학 벤치마크였습니다. 인터넷에서 긁어온 고등학교 수학 문제들을 모델에게 풀게 한 것입니다.”

애덤 브라운:

“사람에게 먼저 풀려보니, 수학을 특별히 좋아하지 않는 컴퓨터과학 박사과정 학생은 약 40%를 맞혔고, 국제수학올림피아드 금메달을 세 번 받은 사람은 약 90%를 맞혔습니다. 즉, 사람에게도 꽤 어려운 벤치마크였습니다.

그런데 4년 전 LLM의 최첨단 성능은 6%였습니다. 거의 무작위 추측에 가까웠습니다. 계산을 못해서가 아니었습니다. 컴퓨터는 오래전부터 ‘77은 어떤 수의 11%인가?’ 같은 계산을 할 수 있었습니다. 문제는 자연어로 된 질문을 이해하고, 그것을 수학적 문제로 바꾸는 능력이 없었다는 점입니다.”



6. 예측시장은 2025년에 50%를 예상했지만, 현실은 훨씬 빨랐다

애덤 브라운:

“MATH 벤치마크를 만든 사람들은 예측시장도 만들었습니다. 사람들은 2021년 6%였던 모델 성능이 매년 조금씩 올라 2025년쯤 50%가 될 것이라고 예측했습니다.

그 예측을 본 벤치마크 제작자들은 거의 믿지 못했습니다. ‘2025년에 50%라니, 그건 너무 놀라운 일일 것 같다’는 반응이었습니다.

그런데 우리는 거의 곧바로 50%를 달성했습니다. Minerva라는 시스템으로 말입니다. 그리고 2024년 중반에는 Max Math라는 시스템으로 90%에 도달했습니다. 사실상 최고 인간 수준을 넘어선 것입니다.”

애덤 브라운:

“우리는 90%를 달성한 것을 축하하려고 90년대 롤러 디스코에 갔습니다. 그런데 이 분야의 잔혹한 점은, 그렇게 열심히 만든 특수 시스템이 6개월 뒤에는 그냥 일반 LLM에 의해 거의 완벽히 따라잡힌다는 것입니다. 다음 세대 모델이 나오면, 전 세대의 특수 목적 시스템은 순식간에 평범해집니다.

결국 MATH 벤치마크는 죽었습니다. 너무 어려워서 의미 있던 벤치마크가 너무 쉬워져서 더 이상 진보를 측정하지 못하게 된 것입니다.”



7. LLM은 인간 학생보다 약 4배 빠르게 성장하고 있다

애덤 브라운:

“우리는 유치원에서 초등학교, 고등학교 수준으로 올라가는 과정을 몇 년 만에 보았습니다. 대략적인 경험칙으로 말하면, 모델은 인간 학생보다 약 4배 빠르게 성장하고 있습니다. 1년이 지날 때마다 인간 교육 과정 기준으로 4년 정도 앞으로 나아가는 셈입니다.”



8. 모델을 똑똑하게 만든 간단하지만 강력한 기법들

애덤 브라운:

“그렇다면 어떤 기법들이 모델의 수학·추론 성능을 끌어올렸을까요? 많은 기법이 있지만, 제가 몇 가지를 설명하겠습니다. 핵심은 그 기법들이 생각보다 대단히 복잡하지 않다는 것입니다. 상당수는 ‘그냥 해볼 법한 것’입니다. 그런데 해보니 작동했습니다. 그래서 앞으로도 아직 많은 낮게 매달린 과일이 남아 있다고 생각합니다.”



8-1. 스케일: 쓴 교훈

애덤 브라운:

“가장 큰 이유는 스케일입니다. 더 큰 모델, 더 긴 훈련, 더 많은 계산량입니다. 리치 서튼은 이것을 ‘쓴 교훈’이라고 불렀습니다.

왜 쓰냐면, 인간 연구자는 영리하고 정교한 시스템을 설계하는 것을 좋아합니다. 그런데 다음 세대 모델을 더 크게 훈련하면, 그런 인간의 영리한 꼼수가 모델 스스로에게 흡수되어버립니다. 결국 스케일이 인간의 특수 설계를 씻어내는 것입니다.”



8-2. 더 좋은 데이터

애덤 브라운:

“또 하나는 더 많고 더 좋은 데이터입니다. 모델은 데이터를 통해 배웁니다. 더 좋은 문제, 더 좋은 풀이, 더 좋은 설명을 주면 성능이 올라갑니다.”



8-3. Chain of Thought: ‘차근차근 생각해라’

애덤 브라운:

“정말 낮게 매달린 과일 중 하나가 Chain of Thought입니다. 쉽게 말해, 문제를 묻기 전에 ‘조심해서 단계별로 생각해줘’라고 말하는 것입니다.

전통적인 컴퓨터 프로그램을 쓰던 사람에게는 미친 소리처럼 들립니다. 계산기나 Mathematica에게 ‘제발 조심해서 생각해줘’라고 말한다고 성능이 올라가지는 않습니다. 하지만 LLM은 다릅니다. 이것들은 우리가 젊었을 때 알던 전통적인 프로그램과는 매우 다른 외계적 지능입니다. 대화할 수 있고, 설득할 수 있고, 부탁할 수 있습니다. ‘단계별로 생각해라’고 하면 실제로 더 잘합니다.”

애덤 브라운:

“사람들은 곧바로 온갖 문구를 실험했습니다. 가장 좋은 문구는 ‘step by step’이었습니다. 반대로 가장 나쁜 문구 중 하나는 ‘자, 아이야, 할 수 있어. 생각하지 말고 그냥 해’ 같은 식이었습니다. 그런 문구는 성능을 약 20%포인트 떨어뜨렸습니다.”



8-4. 오래 생각하게 만들기

애덤 브라운:

“또 하나는 모델이 오래 생각하게 만드는 것입니다. 그냥 답을 뱉지 말고 수천 단어 동안 생각하게 훈련하는 것입니다. 2024년 말 Strawberry라고 불린 모델이 성능을 크게 끌어올렸는데, 핵심은 바로 이것이었습니다. 모델이 더 오래 생각하도록 강화학습을 시킨 것입니다.”



8-5. 여러 LLM끼리 대화시키기

애덤 브라운:

“최근 1년 동안 중요해진 기법은 여러 LLM 사이의 대화입니다. 어려운 문제를 풀게 하면 모델을 ‘베이비시팅’해야 할 때가 있습니다. ‘좋아, 지금까지 답을 검토해봐. 다시 시도해봐. 계속해봐.’라고 말해줘야 합니다.

사람들이 이 과정을 자동화했습니다. LLM이 LLM을 감독하게 한 것입니다. 더 나아가 여러 모델에게 서로 다른 역할을 줍니다. 하나는 창의적인 아이디어를 내고, 하나는 전체 계획을 세우고, 하나는 아이디어들을 통합하고, 하나는 회의적인 비판자 역할을 합니다. 이렇게 하면 성능이 크게 올라갑니다.”



9. 고등학교 수학 다음은 대학원 과학: GPQA

애덤 브라운:

“고등학교 수학은 끝났습니다. 이제 더 어려운 것으로 가봅시다. GPQA라는 벤치마크가 있습니다. 이것은 박사과정 1년 차 학생이 전공 지식을 제대로 갖췄는지 보는 시험에 가까운 문제들입니다.

전문 박사급 인간은 약 70%를 맞혔습니다. 문제는 물리학, 화학, 생물학 등에서 나옵니다. 저는 물리학자이기 때문에 물리 문제는 조용히 생각하면 풀 수 있을지 모릅니다. 하지만 화학 문제를 보여주면 저도 모릅니다. 그런 식으로 진짜 전문지식을 요구하는 벤치마크입니다.”

애덤 브라운:

“LLM은 2024년 초까지 거의 무작위 추측에 가까웠습니다. 그런데 2024년과 2025년 사이에 무작위 수준에서 전문가 인간 수준을 넘어섰고, 이제는 거의 만점에 도달했습니다. GPQA도 죽었습니다. 너무 쉬워져버렸습니다.”



10. ‘암기한 것 아니냐’는 의심에 대한 답

애덤 브라운:

“물론 여러분은 의심할 수 있습니다. ‘인터넷에 있는 문제와 답을 외운 것 아닌가?’라고 말입니다. 우리는 그렇게 생각하지 않습니다.

이를 확인하는 방법은 비슷하지만 새로운 문제를 만드는 것입니다. 기존 데이터셋과 같은 분포에서 나온 것처럼 보이지만 실제로는 인터넷에 없는 문제를 줍니다. 신뢰할 만한 대형 모델들은 기존 테스트셋과 새로 만든 보류 테스트셋 사이에서 성능 차이가 거의 없습니다. 그래서 우리는 이 모델들이 정말로 수학과 물리학을 배우고 있다고 생각합니다.”

애덤 브라운:

“저도 직접 개인 테스트셋을 만들었습니다. 스탠퍼드에서 제가 일반상대론이나 양자역학 수업에 냈던 대학원 시험 문제들입니다. 인터넷에 올라간 적이 없습니다. 제가 직접 채점했습니다. 2023년 말부터 18개월 사이에 모델들은 이 시험들에서 100% 정확도에 도달했습니다. 제 벤치마크도 슬프게도 죽었습니다.”



11. 국제수학올림피아드: ‘창의성은 못 할 것’이라는 장벽도 무너졌다

애덤 브라운:

“그 다음 무너진 것은 국제수학올림피아드였습니다. 1년 조금 전, 한 유명 컴퓨터과학자는 제게 말했습니다. ‘LLM은 결국 암기와 검색일 뿐이다. 본 적 없는 IMO 문제를 창의적으로 푸는 일은 절대 못 할 것이다.’

IMO는 고등학교 수학이지만, 알려진 우주에서 가장 어려운 고등학교 수학입니다. 세계에서 가장 똑똑한 18세들이 1~2년씩 훈련해 나가는 대회입니다. 문제는 여섯 개뿐이지만, 진짜 창의성이 필요합니다. 단순히 알고리즘을 적용하는 문제가 아닙니다.”

애덤 브라운:

“그런데 지난여름 우리는 그 장벽을 넘었습니다. 여섯 문제 중 다섯 문제를 정확히 풀었습니다. 금메달 점수였습니다. 이제 AI보다 IMO 문제를 잘 푸는 인간은 극소수뿐입니다.

더 기쁜 점은 풀이가 이해 불가능한 형식수학 덩어리가 아니었다는 것입니다. IMO 회장은 구글 딥마인드의 풀이가 명확하고, 정확하고, 대부분 따라가기 쉬웠다고 평가했습니다. 즉, 이 시스템은 어느 정도 인간과 비슷한 추상화와 설명 방식으로 답을 내놓고 있었습니다.”



12. 그래도 LLM은 이상하게 멍청할 때가 있다

애덤 브라운:

“물론 LLM은 매우 영리하지만, 가끔은 이상하게 멍청합니다. 고전적인 수수께끼가 있습니다. 아버지와 아들이 교통사고를 당하고, 아버지는 죽고, 아들은 병원으로 옮겨집니다. 외과의가 아이를 보고 ‘이 아이는 내 아들이라 수술할 수 없다’고 말합니다. 어떻게 된 일일까요?

정답은 외과의가 아이의 어머니라는 것입니다. 이 문제는 사람들이 외과의가 남자일 것이라고 무의식적으로 가정하는 편견을 드러내는 문제입니다. LLM은 이 문제를 잘 풉니다. 하지만 그 이유가 그리 인상적이지는 않습니다. 이 문제를 인터넷에서 수천 번 봤기 때문입니다.”

애덤 브라운:

“그런데 문제를 살짝 바꿔봅니다. 어머니와 아들이 교통사고를 당하고, 어머니가 죽습니다. 그리고 외과의는 괄호 안에 ‘아이의 아버지’라고 명시되어 있습니다. 그런데 외과의가 ‘이 아이는 내 아들이다’라고 말합니다. 어떻게 된 일일까요?

모델은 여전히 ‘외과의는 아이의 어머니’라고 답할 수 있습니다. 왜냐하면 표준 수수께끼 패턴으로 빨려 들어가기 때문입니다. 이것은 LLM 훈련 방식의 흔적입니다. 이것이 극복 불가능한 약점은 아니지만, 모델이 어떻게 학습되는지 보여주는 특징입니다.”



13. 새로운 수학 연구: 인간+LLM 센타우르 연구

애덤 브라운:

“지금까지 말한 것은 모두 답이 이미 알려진 문제였습니다. 누군가는 IMO 문제의 답을 알고 있었고, 벤치마크 문제도 정답이 있었습니다. 이제부터는 새로운 수학 연구 이야기입니다.

저희 그룹은 작년 말 전문 수학자들과 함께 새로운 수학 연구를 했습니다. 이것은 센타우르 스타일 연구였습니다. 센타우르는 반은 인간, 반은 인간이 아닌 신화적 존재입니다. 여기서 인간이 아닌 절반은 말이 아니라 LLM입니다. 즉, 인간 연구자와 대형 언어모델이 협력해 새로운 수학을 하는 방식입니다.”

애덤 브라운:

“이 연구 결과는 당시 LLM이 수학에서 해낸 가장 인상적인 성과 중 하나였다고 생각합니다. 한 공동저자는 스탠퍼드 교수이자 미국수학회 회장이었습니다. 그는 Gemini의 논증이 기존 증명을 재포장한 것이 아니라, 자신도 자랑스럽게 생각했을 법한 통찰이었다고 평가했습니다.

물론 완전히 자율적으로 된 것은 아니었습니다. LLM이 후보 증명을 제시하고, 인간 전문가가 그것을 검토하고, 좋은 부분과 나쁜 부분을 가려내고, 모델이 좋은 방향으로 집중하도록 유도했습니다. 하지만 최종 증명의 중요한 부분은 인간의 안내 아래 LLM이 구성했습니다.”



14. 지금 멈춰도 이미 과학은 바뀐다

애덤 브라운:

“이제 질문은 다음입니다. 앞으로 어떻게 될까요? 한 가능성은 여기서 멈추는 것입니다. 모델이 더 이상 발전하지 않고, 현재 수준에서 정체되는 시나리오입니다. 저는 그렇게 되지 않을 것이라고 생각하지만, 일단 그 가능성을 살펴봅시다.

현재 잘 안 되는 것은 이런 것입니다. 좋아하는 LLM에게 ‘새로운 양자중력 이론을 발명해줘’라고 말하면, 답은 나옵니다. 하지만 읽을 가치가 거의 없습니다. AI 슬롭입니다. 읽으면 지루하거나 정신이 이상해질 수는 있지만, 양자중력에 대해 깨달음을 주지는 않을 것입니다.”

애덤 브라운:

“현재 LLM의 약점은 네 가지입니다. 낮은 에이전시, 느린 학습, 약한 계획 능력, 약한 오류 수정 능력입니다. 이 네 가지 모두 지난 1년 동안 크게 좋아졌지만, 여전히 존재합니다.”



15. 지금도 이미 잘 되는 것들

애덤 브라운:

“하지만 이미 잘 되는 것들도 많습니다. 첫째, 비판하지 않는 튜터입니다. LLM은 교과서를 모두 읽었습니다. 표준 교과서에 있는 내용이라면 매우 잘 설명해줍니다. 단순히 정답을 알려주는 것이 아니라, 사용자의 오해를 디버깅해줍니다.

저도 물리학자로서 부끄럽지만, 이해해야 하는데 완전히 이해하지 못한 주제들이 있습니다. 새벽 3시에 그 주제를 이해하고 싶다면, 세계적 전문가를 깨워 화내지 않기를 바라야 합니다. 아니면 LLM에게 물어보면 됩니다. LLM은 항상 거기 있고, 판단하지 않습니다. 이것은 제 물리학 이해를 크게 가속하고 있습니다.”

애덤 브라운:

“둘째, 코딩 어시스턴트입니다. 사실 요즘은 ‘어시스턴트’라고 부르는 것도 모욕처럼 느껴질 정도입니다. 최근 6개월 동안 모델들은 자동완성 수준에서 전문가 코더 수준으로 올라갔습니다. 원하는 것을 말하면 10분, 1시간 후 완성된 파이썬 코드베이스를 가져오는 수준입니다.

코드는 점점 공짜가 되고 있습니다. 코드가 공짜가 되면, 예전에는 코딩 문제가 아니라고 생각했던 많은 물리학 문제들이 사실은 코딩 문제로 재구성될 수 있음을 발견하게 될 것입니다.”

애덤 브라운:

“셋째, 의미 기반 문헌 검색입니다. 논문을 주고 ‘이 아이디어가 문헌에 있나?’라고 물으면, 모델은 문헌 전체를 이해한 상태에서 답할 수 있습니다.

넷째, 브레인스토밍 파트너입니다. 매우 창의적입니다. 때로는 너무 창의적이고, 자신감이 지나치다는 문제가 있지만, 그래도 대단히 유용합니다.

요컨대 LLM은 빠르고, 넓고, 지치지 않고, 영리합니다. 인간 학생을 물리학자로 키우는 데는 수십 년이 걸립니다. LLM도 훈련 비용은 비싸지만, 한 번 훈련하면 수많은 인스턴스를 병렬로 실행할 수 있습니다.”



16. “지금 모델만으로도 물리학은 혁명적으로 바뀐다”

애덤 브라운:

“심지어 더 이상의 발전이 없더라도, 현재 모델만으로도 물리학은 엄청나게 바뀔 것입니다. 모든 반도체 공장이 내일 폭발하고 더 이상 모델을 훈련하지 못한다고 해도, 지금 있는 모델들만으로도 물리학 연구 방식은 혁명적으로 변할 것입니다.

하지만 저는 발전이 멈출 것이라고 생각하지 않습니다.”



17. 왜 앞으로도 발전이 계속될 것인가

애덤 브라운:

“바깥 관점에서 보면, 그래프의 선들이 계속 올라가고 있습니다. 물론 영원히 올라가야 한다는 법칙은 없습니다. 하지만 지금 당장 멈춰야 한다는 법칙도 없습니다. 왜 하필 지금 멈추겠습니까?

안쪽 관점에서 보면 더 설득력 있습니다. 알고리즘적으로 낮게 매달린 과일이 많이 남아 있습니다. 우리가 지금 LLM을 만드는 방식은 가까이서 보면 그렇게 인상적이지 않습니다. 그냥 명백해 보이는 것들을 하고 있는데, 그것이 꽤 잘 작동합니다. 아직 시도하지 않은 명백한 아이디어가 많고, 적절한 규모에서 시도하지 않은 아이디어도 많습니다. 그중 상당수는 작동할 것입니다.”

애덤 브라운:

“일부 비관론자들은 LLM은 패턴 매칭만 할 수 있고 새로운 아이디어를 만들 수 없다고 말합니다. 혹은 보간은 가능하지만 외삽은 불가능하다고 말합니다. 혹은 AGI에 도달하려면 근본적으로 새로운 아이디어가 필요하다고 말합니다.

하지만 샌프란시스코의 컨센서스는 그렇지 않습니다. 저도 그렇게 믿지 않습니다. 저는 우리가 이미 가진 아이디어와, 아마도 이미 가진 칩만으로도 AGI에 도달하기에 충분하다고 생각합니다. 새로운 아이디어와 새로운 칩이 나오기는 하겠지만, 지금 있는 것들을 계속 확장하고 다듬기만 해도 AGI에 도달할 것입니다.”



18. “어쩌면 모든 지능은 높은 수준의 패턴 매칭이다”

애덤 브라운:

“사람들은 LLM이 패턴 매칭이라고 말합니다. 그런데 우리가 지능의 본질에 대해 배운 것은, 어떤 의미에서 모든 것이 충분히 높은 추상 수준에서는 패턴 매칭이라는 점입니다. 커다란 돌파구처럼 보이는 것들도 충분히 추상적으로 보면 어떤 추상 공간에서의 패턴 매칭일 수 있습니다.

모델은 그냥 배우고 싶어 합니다. 우리는 왜 안 될지에 대한 이론적 이유를 많이 만들지만, 실제로는 계속 작동합니다.”



19. 2026년, AI 수학의 첫 ‘진짜 대형 돌파구’

애덤 브라운:

“제가 이 강연 슬라이드를 처음 만들 때는 ‘LLM이 그렇게 똑똑하다면 왜 아직 주요 돌파구를 만들지 못했는가?’라는 항목을 넣었습니다. 실제로 인간 학생이 모든 대학원 시험을 만점 받을 정도라면, 이미 뛰어난 연구 성과를 냈을 것으로 기대할 것입니다.

그런데 지난주 기준으로는 ‘LLM이 주요 돌파구를 만들지 못했다’고 말할 수 있었지만, 이제는 그렇지 않습니다. 2026년은 코드에서 미친 해였고, AI 수학에서도 미친 해였습니다.”

애덤 브라운:

“몇 주 전, 저는 LLM이 만든 첫 주요 수학 결과라고 볼 만한 결과가 나왔다고 생각합니다. 헝가리 수학자 에르되시가 좋아했던 유명한 문제 중 하나인 단위거리 추측과 관련된 결과입니다. OpenAI의 대형 언어모델이 거의 자율적으로 증명했고, 이후 다른 LLM들도 재현했습니다.

이것은 사람들이 별로 노력하지 않았던 사소한 문제가 아니었습니다. 많은 수학자들이 진지하게 시도했던 문제였습니다. 필즈상 수상자인 팀 가워스도 이것을 AI 수학의 이정표라고 평가했습니다. 인간이 이 논문을 Annals of Mathematics에 제출했다면, 그는 망설임 없이 게재를 추천했을 것이라고 했습니다.”

애덤 브라운:

“이것은 시작입니다. 마지막이 아닐 것입니다. 모델의 힘이 어떤 임계점을 넘으면, 처음에는 모델에게 특히 유리한 문제들을 풀 것입니다. 그리고 점점 덜 친화적인 문제들도 풀게 될 것입니다. 수문이 열릴 것입니다.”



20. 체스 컴퓨터와의 비유

애덤 브라운:

“이제 낙관적 시나리오를 보겠습니다. 제가 앞에서 보여준 상승 곡선은 사실 제가 손으로 그린 것이 아니었습니다. 체스 컴퓨터의 실력 향상 그래프에서 가져온 것입니다.

체스 컴퓨터는 네 단계를 거쳤습니다. 첫째, 장난감 시대입니다. 그럴듯한 수를 두는 것만으로도 놀랍던 시절입니다. 둘째, 도구 시대입니다. 엔드게임이나 오프닝 분석에 쓰였습니다. 셋째, 센타우르 시대입니다. 인간 그랜드마스터와 컴퓨터가 협력했을 때 가장 강했습니다. 넷째, 초인간 시대입니다. 이제는 그랜드마스터가 컴퓨터와 같이 앉아 있다면, 그냥 비켜서서 컴퓨터가 하게 두는 편이 낫습니다.”

애덤 브라운:

“수학과 물리학은 체스보다 훨씬 어렵습니다. 가능성의 공간도 훨씬 넓습니다. 그래서 체스보다 30년 늦게 이런 대화를 하고 있는 것입니다. 하지만 유사점은 분명합니다.

같은 전체 실력 수준에서 컴퓨터는 전술, 탐색, 속도에 강하고, 전략이나 취향에는 약합니다. 과학에서도 비슷합니다. 모델은 표준 보조정리들을 빠르게 적용하는 데 뛰어나지만, 전체 방향을 설정하는 데는 아직 약합니다. 물론 이것도 좋아지고 있습니다.”



21. AI 아인슈타인이 하나 가능하면, 수십억 명도 가능하다

애덤 브라운:

“프런티어 지능이 강해지는 것뿐 아니라, 특정 수준의 지능을 제공하는 비용도 엄청나게 낮아지고 있습니다. 이것은 매우 중요합니다.

AI 아인슈타인을 하나 만들 수 있다면, 그것을 수십억 개 만들 수 있습니다. 수십억 명의 초인간 AI 아인슈타인이 물리학을 연구하는 세계가 올 수 있습니다. 그렇게 되면 물리학의 황금시대가 열릴 것입니다.”



22. 앞으로 몇 년은 물리학과 수학의 황금시대

애덤 브라운:

“장기적으로 물리학이 어떻게 될지는 예측하기 어렵습니다. 사실 AI 발전은 미래를 더 예측하기 어렵게 만들고 있습니다. 하지만 앞으로 몇 년에 대해서는 말할 수 있습니다.

우리는 이 AI 도구들을 인간 물리학자, 인간 수학자, 인간 전문가들의 손에 쥐여줄 것입니다. 그리고 함께 새로운 르네상스를 만들 것입니다. 기록된 역사상 물리학자가 되기에 가장 흥미로운 시기, 수학자가 되기에 가장 흥미로운 시기가 올 것입니다.

제 경력 내내 저를 괴롭혀온 수많은 질문들이 앞으로 몇 년 안에 답을 얻을 것이라고 기대합니다. 감사합니다.”



핵심 주장 요약

애덤 브라운의 주장은 꽤 강합니다.
  1. LLM은 단순 보조도구가 아니라 일반지능의 기반이다. 계산기나 수치해석 프로그램과 달리, LLM은 과학자의 업무 전체를 잠재적으로 수행할 수 있다고 봅니다.
  2. 수학·과학 벤치마크는 빠르게 ‘죽고’ 있다. MATH, GPQA, 개인 대학원 시험, IMO 등에서 모델은 유치원생 수준에서 박사급·최상위 인간 수준으로 빠르게 올라갔습니다.
  3. 진보 속도는 인간 교육보다 훨씬 빠르다. 그는 대략 모델이 인간 학생보다 4배 빠르게 성장하고 있다고 표현합니다.
  4. 성능 향상의 핵심은 스케일, 데이터, 알고리즘, 테스트타임 컴퓨트다. 특히 Chain of Thought, 오래 생각하기, 여러 LLM의 토론, 강화학습이 중요하게 등장합니다.
  5. LLM은 이미 새로운 수학 연구에 기여하고 있다. 인간 수학자와 협업하는 센타우르 연구를 넘어, 주요 open problem 해결 사례까지 등장했다고 봅니다.
  6. AGI에 근본적으로 새로운 패러다임이 필요하지 않을 수 있다. 그는 현재의 LLM 기반 접근과 현재의 칩만으로도 충분히 AGI에 도달할 가능성이 있다고 주장합니다.
  7. AI 과학자는 체스 컴퓨터처럼 인간을 넘어설 수 있다. 처음에는 장난감, 그다음 도구, 그다음 인간+AI 협업, 결국 초인간 자율 과학자로 간다는 체스 비유를 제시합니다.
  8. AI 아인슈타인을 하나 만들 수 있다면 수십억 개 만들 수 있다. 이 점 때문에 과학은 단순히 조금 빨라지는 것이 아니라, 산업적 규모로 폭발할 수 있다고 봅니다.



한 줄로 압축하면

애덤 브라운은 LLM이 이미 수학·물리학에서 고등학생, 대학원생, IMO 금메달 수준을 지나 새로운 연구까지 시작했으며, 앞으로 몇 년 안에 인간 과학자와 협력하거나 인간을 넘어서는 AI 과학자들이 과학의 황금시대를 열 것이라고 주장합니다.
전체 0