OpenAI 댄 로버츠 "우리는 더 많은 수학과 과학의 돌파구를 보게 될 것"

작성자

작성일

2026-06-08 19:57

조회

OpenAI 연구원 Dan Roberts 인터뷰 상세 정리

주제: 강화학습, 추론 모델, 수학 발견, AI 과학자

1. 오프닝: AI가 수학 난제를 풀기 시작한 순간

Matt Turk:
최근 AI 업계에서 놀라운 일이 이어지고 있습니다. OpenAI, DeepMind, Anthropic이 유명한 미해결 수학 문제들, 특히 에르되시 문제 계열에서 성과를 냈습니다. 많은 사람들은 이것을 AI가 단순히 우리가 시킨 일을 수행하는 단계를 넘어, 자율적으로 깊은 과학적 발견을 하기 시작한 신호로 보고 있습니다.

오늘은 OpenAI의 핵심 AI 연구자 중 한 명인 Dan Roberts와 이야기해보겠습니다. 그는 이론물리학 배경을 갖고 있고, 특히 과학과 AI의 교차점에 깊은 관심을 갖고 있습니다. 오늘은 강화학습이 무엇인지, 왜 지금 AI에서 가장 중요한 패러다임이 되었는지, 그리고 AI와 과학의 미래가 어디로 가고 있는지 이야기해보겠습니다.

2. Dan Roberts의 역할: OpenAI에서 “강화학습의 기초”를 연구한다는 것

Matt Turk:
Dan, OpenAI에서 당신은 “Foundations of Reinforcement Learning” 팀을 이끌고 있습니다. 이 이름이 정확히 무슨 뜻인가요?

Dan Roberts:
제가 속한 더 큰 조직은 “Foundations”라고 부릅니다. 이름 그대로 우리는 강화학습의 과학적 기초를 연구합니다.

AI 업계에서 “오래전”이라고 하면 6개월 전, 길어야 1~2년 전 정도를 뜻하죠. OpenAI가 o1과 같은 추론 모델을 공개하기 전부터 내부적으로 우리는 이 현상을 연구하고 있었습니다.

OpenAI가 비교적 먼저, 그리고 대규모 자원을 투입해 이런 모델들을 스케일업했기 때문에 생긴 장점이 있습니다. 단순히 “모델이 작동하게 만드는 것”뿐 아니라, 왜 작동하는지 이해하는 팀을 둘 수 있었다는 점입니다.

우리가 묻는 질문은 이런 것들입니다.

Dan Roberts:
“강화학습은 사전학습과 비교해서 어떻게 스케일되는가? 강화학습의 스케일링 법칙은 어떤 모습인가? 이 훈련은 모델에게 무엇을 가르치고, 무엇은 가르치지 못하는가? 탐색이 필요한 프런티어 상황에서 강화학습이 실제로 무엇을 하고 있는가?”

OpenAI는 막대한 컴퓨팅 자원을 확보하고 있습니다. 그런데 핵심은 이 컴퓨팅을 지능으로 바꾸는 것입니다. 그러려면 생각하는 모델을 만들어야 합니다. 우리 팀은 그 과정의 비교적 초기 단계에서, 다음 모델 혹은 그다음 모델을 가능하게 하는 방식들을 연구합니다.

3. Dan Roberts의 배경: 이론물리학에서 AI로

Matt Turk:
당신은 원래 물리학자였습니다. 어떻게 OpenAI까지 오게 되었나요?

Dan Roberts:
저는 MIT에서 이론물리학 박사를 했고, 특히 양자중력과 양자정보의 교차점을 연구했습니다. 블랙홀, 양자 카오스, 블랙홀에 정보를 던지면 어떻게 되는지, 정보가 다시 나오는지 같은 질문에 관심이 많았습니다.

저는 “양자중력 이론을 어떻게 찾을 것인가”라는 근본적 질문에 끌렸습니다. 동시에 계산과 물리 법칙 사이의 관계에도 관심이 많았습니다.

Dan Roberts:
“모든 컴퓨터는 우주 안에 존재하고, 물리 법칙에 따라 움직입니다. 따라서 우리가 할 수 있는 계산 역시 물리 법칙에 의해 제한됩니다. 블랙홀은 특히 흥미로운데, 정보 처리와 관련된 어떤 한계들을 거의 포화하는 것처럼 보이기 때문입니다.”

2015년 DeepMind의 DQN Atari 논문, 2016년 AlphaGo를 보면서 저는 머신러닝과 딥러닝에 크게 흥미를 느꼈습니다. 딥러닝은 일종의 통계적 과학이고, 우리가 우주를 이해할 때 쓰는 틀과 비슷한 방식으로 다룰 수 있다고 느꼈습니다.

Dan Roberts:
“AI 시스템이 작동한다는 것은 굉장히 흥미로운 일입니다. 왜냐하면 그것들은 인간이 하는 일을 수행하는 단순한 예시이기 때문입니다. 그리고 그것이 우주를 이해하는 것과 같은 통계적 틀 안에 있다면, 우리는 ‘우주는 어떻게 작동하는가’와 ‘지능은 어떻게 작동하는가’를 연결해서 생각할 수 있습니다.”

이후 저는 Facebook AI Research, 즉 FAIR에 갔고, 이론물리학의 도구를 사용해 딥러닝을 이해하려 했습니다. 그 결과 공동 연구자와 함께 The Principles of Deep Learning Theory라는 책도 썼습니다.

Dan Roberts:
“기체를 이상기체 법칙 같은 단순한 열역학 법칙으로 설명할 수 있듯이, 깊은 신경망도 비슷한 방식으로 이해할 수 있지 않을까 생각했습니다.”

그 후 스타트업도 했고, Sequoia Capital에서 entrepreneur-in-residence로 있기도 했습니다. 하지만 약 2년 전, 또 다른 AI 회사를 창업할지 고민하다가 결국 제가 가장 흥미롭게 느낀 것은 AI 프런티어에서 벌어지는 과학적 진보 자체라는 결론을 내렸습니다.

그래서 OpenAI에 합류했습니다.

4. AI는 과학 문제를 얼마나 잘 풀고 있는가

Matt Turk:
AI가 어려운 과학 문제를 푸는 능력은 지금 어디쯤 와 있다고 보나요?

Dan Roberts:
저는 이 과정이 부드럽게 진행되고 있다고 봅니다. 어느 날 갑자기 “이전까지는 과학에 쓸모없었고, 오늘부터 완전한 과학자가 되었다”는 식의 뚜렷한 경계는 없을 것입니다.

다만 굳이 하나의 순간을 꼽자면, OpenAI의 o1 출시와 test-time compute, 즉 추론 패러다임의 등장을 말할 수 있습니다. 하지만 GPT-4에서도 이미 과학적 사고에 유용한 행동의 조짐은 있었습니다.

Dan Roberts:
“모델들은 특정 종류의 문제, 특히 수학적 진전에 적합한 문제들에서 매우 강합니다. 아직 어떤 분야에서든 완전히 자율적인 과학자는 아니지만, 그쪽으로 점진적으로 이동하고 있습니다.”

최근 며칠 사이 에르되시 문제와 관련해 OpenAI, DeepMind, Anthropic이 각각 발표를 했습니다. 특히 OpenAI와 DeepMind의 접근 방식은 매우 달랐습니다. 이 차이는 AI가 연구 과학자로 기능한다는 것이 무엇을 뜻하는지 보여주는 흥미로운 사례입니다.

5. OpenAI의 수학 성과: 모두가 참이라고 믿은 명제를 반박하다

Matt Turk:
OpenAI가 푼 문제에 대해 설명해주시겠습니까?

Dan Roberts:
그 추측은 모두가 참이라고 생각했지만 증명하지 못하던 것이었습니다. 그런데 ChatGPT가 할 수 있었던 흥미로운 일은, 그것이 거짓이라고 가정하는 것이었습니다.

Dan Roberts:
“주류의 믿음에 반하는 방향으로 가려면 정말 강한 확신이 필요합니다. 긴 계산 경로를 끝까지 밀고 가야 하기 때문입니다. 중간에 선택지가 굉장히 많고, 그중 하나라도 잘못되면 아무 진전도 없었다는 사실을 나중에야 알게 됩니다.”

이 문제를 풀려면 한 분야에 대한 이해만으로는 부족했습니다. 문제 자체가 흥미롭다는 것을 알아야 하고, 동시에 다른 분야, 특히 대수적 수론에 대한 전문성도 있어야 했습니다.

모델은 그 길을 아주 멀리 따라갔고, 결국 이 추측이 거짓임을 보였습니다. 중요한 점은 단순히 거짓이라는 것이 아니라, 그 반례가 수학의 다른 분야와 깊게 연결되어 있었다는 점입니다.

Dan Roberts:
“이 결과를 인간이 찾으려면, 해당 문제가 흥미롭다는 것을 알고, 전혀 다른 수학 분야에도 전문성이 있으며, 동시에 매우 반골적이고, 긴 경로를 끝까지 밀고 갈 수 있는 사람이 필요했을 것입니다.”

6. OpenAI와 DeepMind의 접근 차이: 비형식 수학 vs 형식 증명

Matt Turk:
OpenAI와 DeepMind의 접근 방식이 다르다고 했습니다. 비교해주시죠.

Dan Roberts:
DeepMind가 많이 연구한 접근 방식은 문제를 Lean 같은 형식 언어로 표현하는 것입니다. 자연어로 된 문제를 엄밀한 형식 명제로 바꾼 뒤, 그 언어 안에서 증명을 탐색합니다.

이 방식의 장점은 증명이 매우 엄밀하다는 것입니다. 숨은 가정이나 정의의 모호함이 있는지 사람이 일일이 확인하지 않아도 됩니다.

반면 OpenAI의 많은 결과는 비형식적 설정에서 나온 것입니다. 즉 문제를 영어와 수학 표현이 섞인 일반적인 인간 수학자의 언어로 주고, 모델이 그것을 이해한 뒤, 인간 수학자가 쓰는 것과 비슷한 방식으로 증명을 제시합니다.

Dan Roberts:
“OpenAI의 공개된 결과들은 대부분 비형식적 설정입니다. 우리는 언어 모델에게 test-time reasoning을 하도록 훈련했고, 수학은 그 능력을 평가하고 적용하는 주요 영역 중 하나입니다.”

이 방식은 인간 수학자의 실제 작업 방식에 가깝지만, 검증은 더 어렵습니다. Lean 같은 형식 언어에서는 자동 검증이 가능하지만, 비형식 증명은 사람이 확인해야 합니다.

7. 강화학습이란 무엇인가: 마리오 게임 비유

Matt Turk:
강화학습을 비전문가도 이해할 수 있게 설명해주시겠습니까?

Dan Roberts:
간단한 예로 게임을 들어보겠습니다. 저는 어릴 때 8비트 슈퍼 마리오를 했습니다.

게임을 배우는 방법에는 두 가지가 있습니다.

첫 번째 방법은 아버지가 게임을 몇 시간 동안 플레이하는 것을 옆에서 보기만 하는 것입니다. 당신은 버튼을 눌러보지 않습니다. 환경과 직접 상호작용하지 않습니다. 그저 전문가의 행동을 보고 따라 하려 합니다.

이것은 일종의 supervised learning, 즉 지도학습에 가깝습니다. 전문가 시연을 보고 그것을 모방하는 것입니다.

두 번째 방법은 직접 게임을 하는 것입니다. 처음에는 적에게 부딪혀 죽을 수도 있습니다. 하지만 다음에는 점프 버튼을 눌러봅니다. 행동을 취하고, 환경이 반응하고, 그 피드백을 통해 배웁니다.

Dan Roberts:
“강화학습의 기본 구조는 행동을 하고, 환경으로부터 피드백을 받고, 보상을 받는 것입니다.”

보상은 자주 주어질 수도 있고, 아주 늦게 주어질 수도 있습니다. 예를 들어 체스에서는 중간중간 내가 얼마나 잘하고 있는지 명확히 알기 어렵고, 마지막에 이겼는지 졌는지만 알 수 있습니다. 이런 것을 sparse reward, 희소 보상이라고 부릅니다.

8. 강화학습은 왜 강력한가

Matt Turk:
강화학습은 왜 그렇게 강력한가요?

Dan Roberts:
환경으로부터 피드백을 받을 수 있기 때문입니다. 올바르게 설계되어 있다면, 모델은 자신이 모르는 것을 스스로 배울 수 있습니다.

또 하나 중요한 점은, 학습이 자신에게 맞는 난이도에서 이루어진다는 것입니다.

Dan Roberts:
“덧셈을 배우고 싶은 사람에게 미적분 교과서를 던져주면 안 됩니다. 자기가 이해할 수 있는 수준에서 연습하고, 자기 선택이 맞았는지 틀렸는지 배울 수 있어야 합니다.”

강화학습에서는 내가 직접 행동하고, 그 행동의 결과를 경험하기 때문에 배움이 더 깊은 맥락 안에 자리 잡습니다.

9. 강화학습의 약점: 피드백이 너무 늦게 올 때

Matt Turk:
그렇다면 강화학습은 언제 잘 안 되나요?

Dan Roberts:
가장 어려운 경우는 환경에서 피드백을 거의 받지 못하는 상황입니다. 수많은 행동을 한 뒤 마지막에야 “좋았다” 또는 “나빴다”는 신호만 받는 경우입니다.

체스를 생각해보면, 여러 수를 둔 뒤 마지막에 이겼는지 졌는지만 알 수 있습니다. 연구 수준의 수학 문제도 비슷합니다. 며칠 동안 생각해야 하는 문제를 풀 때, 중간에 내가 잘 가고 있는지 알기 어렵습니다.

Dan Roberts:
“숲속에 혼자 숨어서 공책에 계산만 하고 있다면, 어떤 단계가 좋았고 어떤 단계가 나빴는지 알기 어렵습니다. 마지막에 답이 맞았는지 틀렸는지만 알면, 학습은 매우 어려워집니다.”

이것이 강화학습의 핵심 난점 중 하나입니다. 보상이 너무 늦게 오면, 어떤 행동이 성공에 기여했는지 알아내는 credit assignment가 어려워집니다.

10. LLM에서의 강화학습: RLHF

Matt Turk:
대형 언어모델에 강화학습이 처음 적용된 역사적 단계는 RLHF였다고 볼 수 있나요?

Dan Roberts:
넓게 보면 그렇습니다. 언어모델은 원래 인터넷의 다음 단어를 예측하도록 훈련됩니다. 그런데 이것을 사용자의 지시를 따르고, 친절하게 답하고, 챗봇 형식에 맞게 행동하도록 바꾸는 과정에서 RLHF가 사용되었습니다.

Matt Turk:
RLHF가 무엇인지 간단히 설명해주시죠.

Dan Roberts:
RLHF는 Reinforcement Learning from Human Feedback, 즉 인간 피드백 기반 강화학습입니다.

언어모델이 만든 두 개의 답변을 사람에게 보여주고, 어느 쪽이 더 나은지 고르게 합니다. 이런 비교 데이터를 사용해 보상 모델 또는 가치 함수를 훈련합니다. 이후 모델은 그 보상 모델이 선호하는 방향으로 강화학습됩니다.

Matt Turk:
처음에는 사람이 직접 평가하지만, 이후에는 보상 모델이 사람 평가의 대리 역할을 하는 것이군요.

Dan Roberts:
맞습니다. 훈련 중에 매번 사람에게 물어보면 지연 시간이 너무 큽니다. 그래서 인간 선호 데이터를 기반으로 “사람이라면 무엇을 더 좋다고 판단할지” 예측하는 모델을 만들고, 그것을 보상으로 사용합니다.

11. AlphaGo의 37수와 탐색·활용 문제

Matt Turk:
강화학습 역사에서 유명한 사례가 AlphaGo의 37수입니다. 모델이 어떻게 그런 새로운 전략을 찾도록 만들 수 있나요?

Dan Roberts:
바둑의 좋은 점은 자기 자신과 경기하는 self-play가 가능하다는 것입니다. 무작위 플레이에서 시작해 전문가 수준까지 올라갈 수 있습니다.

만약 최적 전략이 탐색을 요구한다면 탐색을 하고, 활용을 요구한다면 활용을 할 것입니다.

여기서 제가 대학원 시절 Noam Brown과 겪은 포커봇 이야기가 있습니다. Noam은 포커 AI를 만들고 있었고, MIT 포커봇 대회에 나가고 싶어 했습니다. 우리는 일종의 균형 전략을 사용했습니다. 이 전략은 코드에 버그가 없다면 기본적으로 질 수 없는 전략에 가까웠습니다.

대회에서는 다른 참가자들을 상대로 엄청나게 많은 돈을 따는 봇이 있었습니다. 그 봇은 상대방의 약점을 잘 이용했습니다. 그런데 최종 결승에서 우리 봇과 붙자 우리가 이겼습니다.

Dan Roberts:
“그 봇은 다른 사람들의 약점을 exploit하고 있었습니다. 반면 우리는 ‘지지 않는 전략’을 플레이하고 있었습니다. 결승처럼 일대일 상황에서는 결국 균형 전략이 이겼습니다.”

이 이야기는 exploration과 exploitation의 차이를 잘 보여줍니다. 어떤 상황에서는 남의 약점을 파고드는 것이 좋지만, 어떤 상황에서는 원칙적으로 가장 강건한 전략이 이깁니다.

12. 과학 발견에서 탐색과 활용

Matt Turk:
수학 난제나 과학 발견에서는 탐색이 매우 중요해 보입니다. 어떻게 작동하나요?

Dan Roberts:
수학 연구와 과학 연구에는 탐색과 활용이 모두 있습니다.

OpenAI의 unit distance 문제 사례는 매우 탐색적인 경우였습니다. 모델은 모두가 참이라고 믿던 것을 반대로 가정했고, 오랫동안 여러 길을 시도했습니다. 이것은 명백히 exploration입니다.

하지만 어떤 경우에는 이미 이해한 구조를 다른 문제에 적용하는 exploit 성격도 있습니다. 예를 들어 OpenAI 결과 이후, 인간 연구자들이 그 아이디어에서 영감을 얻어 다른 수학 문제를 반박한 사례가 있었습니다. 이것은 기존 아이디어를 활용한 것입니다.

Dan Roberts:
“과학 발견은 탐색과 활용의 상호작용입니다. 새로운 길을 찾아야 할 때도 있고, 이미 찾은 구조를 밀어붙여야 할 때도 있습니다.”

13. RL은 더 이상 케이크 위 체리가 아니라 케이크 자체다

Matt Turk:
예전에는 Yann LeCun이 “강화학습은 케이크 위의 체리”라고 표현한 적이 있습니다. 그런데 당신은 이제 RL이 케이크 자체가 되었다고 말한 적이 있죠.

Dan Roberts:
그 말은 약 1년 반 전에 한 것입니다. 공개 강연이었는데 많은 말을 할 수 없어서, 기존 밈을 뒤집어 표현했습니다.

강화학습은 정말 흥미롭습니다. 우리가 많은 컴퓨팅을 가지고 있을 때, 그것을 유용한 지능으로 바꾸고 싶습니다. RL은 그 방법 중 하나입니다.

Dan Roberts:
“우리는 그때 막 RL을 본격적으로 하기 시작했고, 이제는 훨씬 더 많이 하게 될 것입니다.”

14. 왜 이제 강화학습이 작동하기 시작했나

Matt Turk:
강화학습은 오래된 개념입니다. 왜 이제 와서 LLM에서 잘 작동하기 시작했나요?

Dan Roberts:
사람들이 “예전에는 RL이 작동하지 않았다”고 말할 때 정확히 무엇을 뜻하는지는 잘 모르겠습니다. 2016~2018년 무렵 DeepMind는 RL에 매우 집중했고, OpenAI도 Dota, Rubik’s Cube 같은 성과를 냈습니다.

그 후 언어모델이 등장했고, 가장 잘 작동하는 것은 사전학습을 스케일업하는 것이었습니다. 그래서 업계가 그쪽으로 이동했습니다.

하지만 중요한 것은, 충분히 강력한 사전학습 모델이 있으면 RL이 그 위에서 잘 작동하기 시작한다는 점입니다.

Dan Roberts:
“강력한 사전학습 모델이 있으면, 모델은 test-time compute를 사용해 생각하고, 예전에는 풀 수 없던 수학 문제를 풀기 시작할 수 있습니다.”

즉 현재 구조는 단순한 RL이 아니라, 대규모 사전학습 + RL + test-time reasoning의 결합입니다.

15. “RL은 1만 토큰당 1비트밖에 못 배운다”는 비판에 대해

Matt Turk:
올해 초 “RL은 1만 토큰당 1비트 미만의 유용한 정보만 만든다”는 분석이 화제가 되었습니다. Karpathy는 이것을 “빨대로 감독 신호를 빨아들이는 것”처럼 표현했습니다. 어떻게 보나요?

Dan Roberts:
DeepSeek 알고리즘 같은 공개된 예를 보면, 정답인지 아닌지가 사실상 1비트 정보처럼 보일 수 있습니다. 그래서 그런 논리가 어디서 나오는지는 이해합니다.

하지만 중요한 질문은 이것입니다.

Dan Roberts:
“이 방법이 다른 방법으로는 할 수 없는 일을 하고 있는가?”

더 많은 감독 신호를 주고 싶을 수는 있습니다. 하지만 어떻게 줄 것인가가 문제입니다. 실제로 이런 방법들은 모델 능력, 특히 코딩과 과학에서 큰 돌파구를 만들어냈습니다.

핵심은 모델이 test-time에 생각하도록 만드는 것입니다. RL은 그 능력을 끌어내는 데 중요한 역할을 합니다.

16. Rich Sutton의 “LLM은 진짜 지능이 아니다” 주장에 대한 반론

Matt Turk:
Rich Sutton은 LLM이 진짜 지능이 아니고, 순수 RL이 중요하다고 주장한 적이 있습니다. 당신은 어떻게 보나요?

Dan Roberts:
제가 옥스퍼드에 있을 때 술집에서 친구들과 논쟁한 적이 있습니다. 저는 물리학이 가장 근본적인 과학이라고 말했습니다. 모든 것은 물리 법칙을 따르니까요.

그러자 인지과학자인 친구는 우리가 세상을 인식하는 방식과 인지 편향을 말했고, 언어학자인 친구는 비트겐슈타인을 언급하며 모든 것은 언어를 거친다고 했습니다.

지금 돌이켜보면 그 언어학자 친구가 맞았던 것 같습니다.

Dan Roberts:
“AI의 경로는 언어가 핵심이라는 것을 보여줍니다. 인터넷에는 인간 지식, 과학, 수학, 사회적 작업의 총합이 언어로 표현되어 있습니다.”

언어모델은 이 거대한 인간 지식의 prior를 갖습니다. 그 위에 강화학습을 얹는 것이 현재로서는 매우 자연스럽고 강력한 경로입니다.

17. Bitter Lesson에 대한 반론: 스케일만으로는 충분하지 않다

Matt Turk:
Rich Sutton의 Bitter Lesson, 즉 결국 중요한 것은 스케일이라는 주장에 대해서는요?

Dan Roberts:
저는 약간 반대되는 견해를 갖고 있습니다. 중요한 것은 “스케일만 있으면 된다”가 아니라, 스케일을 이끌 좋은 아이디어가 필요하다는 것입니다.

예를 들어 사전학습만 계속 스케일했다면 지금만큼 멀리 오지 못했을 것입니다. 사전학습 위에 RL을 스케일하는 좋은 아이디어가 있었기 때문에 모델들이 훨씬 강력해졌습니다.

Dan Roberts:
“스케일은 중요하지만, 좋은 아이디어와 스케일 사이에는 깊은 상호작용이 있습니다.”

새로운 현상이 스케일에서 나타나고, 우리는 그것을 이해합니다. 그 이해가 다시 새로운 방향을 제시하고, 거기에 또 스케일을 적용합니다. 이런 반복이 진보를 만듭니다.

18. Chain of Thought와 test-time compute: 모델은 무엇을 하는가

Matt Turk:
사용자 입장에서 chain of thought는 마법처럼 보입니다. test-time compute 동안 모델은 실제로 무엇을 하나요?

Dan Roberts:
저는 모델이 우리가 보는 것과 비슷한 일을 한다고 생각합니다. 우리는 그것을 가볍게 요약하거나 다시 쓰기도 하지만, 기본적으로 모델은 토큰을 생성합니다. 그 토큰들이 일종의 진행 중인 사고 과정입니다.

수학 문제를 풀 때 사람이 공책에 메모를 적는 것과 비슷합니다.

Dan Roberts:
“모델은 계속 토큰을 생성합니다. 이 생성 과정은 매번 forward pass이고, 따라서 문제 하나에 훨씬 더 많은 계산량을 사용할 수 있게 됩니다.”

Noam Brown은 리만 가설 예를 자주 듭니다. 만약 모델에게 즉시 답하라고 하면, 답변 토큰 하나를 만들 때 한 번의 forward pass에 해당하는 계산량밖에 쓸 수 없습니다. 하지만 오래 생각할 수 있다면, 훨씬 더 많은 계산을 거친 최종 답을 낼 수 있습니다.

언어모델은 언어로 생각합니다. 그래서 token space, 즉 언어 공간에서 사고 과정을 만들어내는 것이 자연스럽습니다.

19. RL은 모델이 test-time에 생각하도록 만든다

Matt Turk:
그러면 test-time compute에서 모델이 한 방향으로 가다가 막히면 돌아오고, 다른 길을 시도하는 것이 RL과 관련 있나요?

Dan Roberts:
RL 훈련의 결과가 모델이 test-time에 생각할 수 있게 되는 것이라고 보는 편이 맞습니다.

현재 여러 AI 회사들이 reasoning effort 같은 조절 장치를 제공하는 것도 이 때문입니다. RL 훈련을 통해 모델은 최종 답을 내기 전에 많은 토큰을 생성하며 생각하도록 학습됩니다.

Dan Roberts:
“RL이 하는 일 중 하나는 모델이 만들어내는 사고 과정이 좋은 것이 되도록 하는 것입니다.”

20. 검증 가능한 보상과 검증 불가능한 영역

Matt Turk:
LLM이 특히 코딩과 수학에서 강한 이유는 정답 검증이 가능하기 때문이라는 말이 있습니다. verifiable reward란 무엇인가요?

Dan Roberts:
검증 가능한 보상은 원칙적으로 해킹할 수 없는 보상입니다.

예를 들어 수학 문제의 답이 정수라면, 모델의 답이 그 정수와 일치하는지 문자열 비교만으로 확인할 수 있습니다. 물론 이 추상화에는 여러 문제가 있지만, 기본적으로 정답 여부를 명확히 확인할 수 있습니다.

반면 창의적 글쓰기는 다릅니다. “이 글이 좋은가?”라는 질문은 취향과 맥락이 개입됩니다. 사람마다 답이 다를 수 있습니다.

Dan Roberts:
“검증 가능한 문제와 검증 불가능한 문제 사이에는 큰 차이가 있습니다.”

21. 법률, 컨설팅, 금융 같은 영역에서도 RL이 통할까

Matt Turk:
컨설팅, 금융, 법률처럼 보상이 명확하지 않은 분야에서도 RL이 효과적일 수 있을까요?

Dan Roberts:
OpenAI가 그런 분야에서 매우 훌륭한 제품을 만들 것이라고 생각합니다. 그리고 그 과정에서 어느 정도 RL이 역할을 할 것입니다.

다만 질문은 “어떻게 일반화할 것인가”입니다. 우리는 모델이 일반적으로 지능적이기를 원합니다. 그러려면 가능한 많은 것을 분포 안에 포함시키고, 동시에 분포 밖 상황에서도 견고하게 작동해야 합니다.

Dan Roberts:
“AI에서 일반화는 핵심 질문입니다. 그리고 현재의 여러 사례들은 이런 과정들이 실제로 일반화할 수 있음을 지지합니다.”

22. 물리학은 AI 시스템 이해에 무엇을 줄 수 있는가

Matt Turk:
당신은 물리학 배경을 갖고 있습니다. 물리학은 현재의 복잡한 AI 시스템을 이해하는 데 어떤 도움을 줄 수 있나요?

Dan Roberts:
저는 스케일링을 생각할 때, 작은 것에서 큰 것으로 가는 것이 아니라 큰 것에서 작은 것으로 가야 한다고 봅니다.

큰 AI 시스템에서 이상한 현상이 나타났다고 합시다. 작은 모델에서는 안 보였는데 큰 모델에서 갑자기 나타납니다. 사람들은 이것을 emergent behavior라고 부르거나, scaling law가 깨졌다고 말합니다.

하지만 저는 그렇게 보지 않습니다.

Dan Roberts:
“그건 우리가 무엇을 스케일하고 있었는지 충분히 이해하지 못했다는 뜻입니다.”

큰 모델에서 흥미로운 현상이 나타나면, 우리는 그 현상을 포함하면서도 더 작고 단순한 모델을 만들어야 합니다. 그렇게 해서 scaling sequence를 다시 부드럽게 만들어야 합니다. 그러면 그 현상을 이해한 것입니다.

이것은 이론물리학에서 자주 하는 일입니다. 표준모형 전체는 매우 복잡하지만, 전자기학을 연구할 때는 다른 것을 잊고 단순화할 수 있습니다. 힉스 현상을 연구할 때도 단순화된 버전을 사용할 수 있습니다.

Dan Roberts:
“중요한 것은 단순한 모델로 도망치는 것이 아닙니다. 내가 관심 있는 현상을 담을 만큼 충분히 단순한 모델을 찾는 것입니다.”

AI에서도 마찬가지입니다. 거대한 시스템에서 이상한 현상을 관찰한 뒤, 그것을 설명할 수 있는 작은 장난감 모델을 만들 수 있다면 우리는 이해에 가까워집니다.

23. AI에도 열역학 같은 이론이 생길 수 있을까

Matt Turk:
AI에도 열역학처럼, 모든 미시적 세부사항을 추적하지 않고도 행동을 예측하는 압축된 이론이 가능할까요?

Dan Roberts:
OpenAI의 Kaplan, McCandlish 등이 했던 scaling laws 연구가 그런 것의 한 버전입니다. 네트워크에 대해 아는 것이 파라미터 수와 데이터량 정도뿐이어도 최종 loss를 예측할 수 있습니다.

하지만 빠진 부분이 있습니다. 개별 weight와 bias에서 어떻게 그런 scaling law가 나오는지, 즉 통계역학에서 열역학으로 가는 연결에 해당하는 부분입니다.

Dan Roberts:
“미시적 설명에서 거시적 법칙이 어떻게 나오는가, 그것이 아직 빠진 조각입니다.”

또한 우리가 관심 있는 것은 최종 loss만이 아닙니다. 모델의 능력, 안전성, 일반화, 추론 방식 등 더 많은 것을 설명해야 합니다. 따라서 AI의 열역학은 아직 더 많이 개발되어야 합니다.

24. “아인슈타인 수준 AI까지 9년” 농담의 의미

Matt Turk:
당신은 작년에 농담처럼 “아인슈타인 수준 AI까지 9년”이라고 말했습니다. 지금은 어떻게 생각하나요?

Dan Roberts:
그 농담을 해체해보면 이렇습니다. 저는 AI 시스템이 자율적으로 수행할 수 있는 작업량의 doubling time을 가정하고, 아인슈타인이 일반상대성이론을 발견하는 데 약 8년을 썼다는 점을 기준으로 계산했습니다. 그러면 작년 기준으로 9년쯤 나온다는 식이었습니다.

하지만 저는 예측을 싫어합니다. 그리고 아마 그 전에 무언가가 깨질 것이라고 생각합니다.

Dan Roberts:
“우리는 어떤 시스템을 8년 동안 그냥 생각하게 놔두지는 않을 것입니다. 8년 뒤의 시스템은 훨씬 더 강력해져 있을 것이기 때문입니다.”

즉 모델 하나가 오랫동안 생각하는 시간과, 모델 자체가 개선되는 시간 사이의 상호작용이 있습니다. 어느 순간 이 둘이 교차하면 기존의 단순한 스케일링 가정은 깨질 수 있습니다.

25. AI가 진짜 과학을 하고 있는가

Matt Turk:
그렇다면 무엇이 당신에게 AI가 진짜 독창적 과학을 하고 있다고 확신하게 하나요?

Dan Roberts:
저는 이미 확신합니다. OpenAI의 unit distance 문제는 좋은 사례입니다.

모델은 주류와 반대되는 입장을 취했고, 오랜 시간 생각했으며, 여러 선택지를 탐색했고, 서로 떨어진 수학 분야들을 연결했습니다.

Dan Roberts:
“인간 중에서 이 문제를 풀 정확한 기술 조합을 가진 사람을 찾기는 매우 어려웠을 것입니다. 모델이 그런 조합을 가져와 문제를 해결했다는 것은 큰 일입니다.”

물론 아직 모델들이 모든 과학적 과정에 필요한 감각을 갖고 있는 것은 아닙니다. 예를 들어 “무엇이 올바른 질문인가”를 찾는 일, 즉 연구 취향과 문제 선택은 아직 어렵습니다. 하지만 이미 독창적 과학 발견의 중요한 부분을 수행하고 있다고 봅니다.

26. AI가 AI 연구를 자동화하는 시점

Matt Turk:
AI가 AI 연구 자체를 자동화하는 것은 얼마나 멀리 있다고 보나요?

Dan Roberts:
이 역시 부드러운 과정이라고 봅니다. 이미 일부는 하고 있습니다. 앞으로 더 많이 하게 될 것입니다.

지금도 사람이 몇 주 걸릴 코딩 작업을 모델이 매우 효율적으로 할 수 있습니다. 수학 발견에서 보았던 것처럼, 엔지니어링에서도 모델들이 점점 더 중심적 역할을 하게 될 것입니다.

Dan Roberts:
“강한 버전의 AI 연구 자동화를 상상하는 사람들도 있지만, 저는 날카로운 phase transition보다는 점점 더 많은 부분을 모델이 수행하는 흐름을 예상합니다.”

다만 인간이 여전히 매우 유용해 보이는 과학적 사고의 영역도 있습니다. 구체적으로 언제, 어떻게 모델이 그것을 대체할지 예측하는 것은 어렵습니다.

Dan Roberts:
“모델이 어떤 일을 못 할 것이라고 기록에 남기는 것은 위험합니다. 거의 반드시 틀릴 것이기 때문입니다.”

27. 앞으로 6개월: 더 많은 수학·과학 돌파가 나올 것

Matt Turk:
가까운 미래에 대해서는 어떻게 보나요?

Dan Roberts:
아주 먼 예측은 어렵지만, 다음 6개월 정도에 대해서라면 말할 수 있습니다.

Dan Roberts:
“우리는 더 많은 수학과 과학의 돌파구를 보게 될 것입니다. 그리고 당연히 이런 능력은 AI 자체에도 적용될 것입니다. 모델들은 훨씬 더 강력해질 것입니다.”

AI의 과학을 물리학처럼 수행할 수도 있습니다. AI 시스템을 관찰하고, 단순 모델을 만들고, 법칙을 찾아가는 방식입니다.

그보다 더 흥미로운 점은, 우리가 오랫동안 풀지 못했던 과학의 근본 질문들에 실제로 답할 수 있게 될지도 모른다는 것입니다.

Dan Roberts:
“저는 우리가 관심 갖는 과학 분야의 근본 질문들에 실제로 답할 수 있게 될 것이라는 점에 정말 흥분합니다. 그 답은 모델의 도움으로 나오거나, 어쩌면 모델이 주도해서 나오게 될 것입니다.”

핵심 요약

이 인터뷰의 핵심은 다음과 같습니다.

Dan Roberts는 현재 AI 발전의 중심을 “강화학습 + test-time compute + 강력한 사전학습 모델”의 결합으로 봅니다.
단순히 인터넷을 예측하는 모델이 아니라, RL을 통해 스스로 생각하고, 긴 계산 경로를 탐색하며, 수학과 과학 문제를 풀 수 있는 모델로 바뀌고 있다는 것입니다.

특히 OpenAI의 수학 성과는 단순한 계산 능력보다 더 중요한 것을 보여줍니다. 모델은 모두가 참이라고 믿던 추측을 반대로 가정했고, 긴 탐색을 견뎠으며, 다른 수학 분야의 지식을 연결해 반례를 찾았습니다. Roberts는 이것을 AI가 이미 진짜 독창적 과학 발견의 일부를 수행하고 있다는 증거로 봅니다.

또한 그는 “스케일만 중요하다”는 견해에는 부분적으로 반대합니다. 스케일은 중요하지만, 좋은 아이디어가 스케일을 이끌어야 한다고 말합니다. 사전학습만 키우는 것으로는 충분하지 않았고, RL과 추론을 결합한 것이 현재의 도약을 만들었다는 것입니다.

마지막으로 그는 AI 연구 자동화가 갑작스러운 단절이 아니라 점진적으로 진행될 것이라고 봅니다. 이미 코딩, 수학, 과학의 일부 작업은 모델이 수행하고 있으며, 앞으로 6개월 안에도 더 많은 과학적 돌파가 나올 가능성이 높다고 말합니다.

전체 0

« 데미스 하사비스 "사회가 이 말을 들어야 한다고 생각했다"

제프리 힌튼 "2023년 이후 AI 발전은 예상보다 빨랐다" »

목록보기 답글쓰기

글수정 글삭제