트윗
앤트로픽 잭 클라크 "2028까지 RSI 확률 60%"
작성자
하이룽룽
작성일
2026-05-05 00:47
조회
10

https://jack-clark.net/
AI 시스템이 곧 스스로를 만들기 시작한다. 그것은 무엇을 의미하는가?
내가 이 글을 쓰는 이유는, 공개적으로 이용 가능한 모든 정보를 살펴봤을 때 마지못해 다음과 같은 견해에 도달했기 때문이다. 인간이 개입하지 않는 AI R&D, 즉 자기 자신의 후속 모델을 자율적으로 만들 수 있을 만큼 강력한 AI 시스템이 2028년 말까지 등장할 가능성이 꽤 높다, 60% 이상고 본다.이것은 매우 큰 일이다.
솔직히 말해, 나는 이 사실을 어떻게 받아들여야 할지 모르겠다.
이 견해가 “마지못한” 견해인 이유는, 그 함의가 너무나 거대해서 내가 그 앞에서 압도되는 느낌을 받기 때문이다. 그리고 사회가 자동화된 AI R&D가 의미하는 변화의 종류에 준비되어 있는지도 잘 모르겠다.
나는 이제 우리가 AI 연구가 처음부터 끝까지 자동화되는 시대에 살고 있다고 믿는다. 만약 그런 일이 일어난다면, 우리는 루비콘강을 건너게 될 것이다. 그 이후의 미래는 거의 예측 불가능하다. 이에 대해서는 뒤에서 더 이야기하겠다.
이 글의 목적은 내가 왜 완전히 자동화된 AI R&D를 향한 이륙이 실제로 일어나고 있다고 생각하는지 그 이유를 열거하는 것이다. 이 일의 결과에 대해서도 일부 논의하겠지만, 이 글의 대부분은 내가 왜 그렇게 믿게 되었는지에 대한 증거를 다루는 데 할애할 것이다. 그리고 나는 2026년 대부분을 이 함의를 정리하는 데 쓸 것이라고 예상한다.
시기와 관련해서 말하자면, 나는 이것이 2026년에 일어날 것이라고는 생각하지 않는다. 하지만 앞으로 1~2년 안에 “모델이 자기 후속 모델을 처음부터 끝까지 학습시키는” 사례를 볼 수는 있다고 생각한다. 적어도 비최전선 모델 단계에서는 개념증명 수준의 사례가 나올 가능성이 크다. 다만 최전선 모델은 훨씬 더 어려울 수 있다. 비용이 훨씬 많이 들고, 많은 인간들이 극도로 열심히 일한 결과물이기 때문이다.
내 추론은 주로 공개 정보에서 나온다. arXiv, bioRxiv, NBER에 올라온 논문들, 그리고 최전선 기업들이 실제로 세상에 배포하고 있는 제품들을 관찰한 결과다. 이 데이터로부터 나는 오늘날 AI 시스템 생산에 필요한 모든 조각, 즉 AI 개발의 엔지니어링 요소들이 자동화될 준비가 되어 있다는 결론에 도달했다. 그리고 스케일링 추세가 계속된다면, 모델들은 인간 연구자를 대체할 만큼 창의적이 되어 새로운 연구 경로에 대한 창의적 아이디어를 낼 수 있고, 이미 알려진 것들을 정교화하는 것뿐 아니라 스스로 프런티어를 밀어붙일 수도 있다고 대비해야 한다.
사전 주의사항
이 글의 상당 부분에서 나는 여러 개별 벤치마크에서 일어난 일들을 조합해 AI 진보에 대한 모자이크식 관점을 구성하려 한다. 벤치마크를 연구해본 사람이라면 누구나 알듯이, 모든 벤치마크에는 각자 특유의 결함이 있다. 나에게 중요한 것은 이 모든 데이터 포인트를 함께 볼 때 드러나는 전체적인 추세다. 그러니 내가 각 개별 데이터 포인트의 단점을 인식하고 있다고 가정해주면 된다.이제 몇 가지 증거를 함께 살펴보자.
코딩 특이점 — 시간에 따른 능력 변화
AI 시스템은 소프트웨어로 구현되고, 소프트웨어는 코드로 만들어진다.AI 시스템은 코드 생산을 혁신했다. 이는 서로 관련된 두 가지 추세 때문에 일어났다. AI 시스템은 복잡한 현실 세계 코드를 작성하는 능력이 좋아졌고, 인간의 감독 없이도 여러 선형 코딩 작업을 연쇄적으로 수행하는 능력도 훨씬 좋아졌다. 예를 들면 코드를 작성한 뒤 그것을 테스트하는 식이다.
이 추세를 잘 보여주는 두 가지가 SWE-Bench와 METR의 시간 지평 그래프다.
현실 세계 소프트웨어 엔지니어링 문제 해결
SWE-Bench는 널리 사용되는 코딩 테스트로, AI 시스템이 실제 GitHub 이슈를 얼마나 잘 해결하는지를 평가한다. SWE-Bench가 2023년 말 처음 나왔을 때, 당시 최고 점수는 Claude 2였고 전체 성공률은 약 2%였다. 그런데 Claude Mythos Preview는 93.9%를 기록해 사실상 벤치마크를 포화시켰다.모든 벤치마크에는 어느 정도의 잡음이 내재되어 있기 때문에, 일정 수준 이상 높은 점수를 받으면 더 이상 방법론의 한계가 아니라 벤치마크 자체의 한계에 부딪히게 된다. 예를 들어 ImageNet 검증 세트의 라벨 중 약 6%는 틀렸거나 애매하다.
SWE-Bench는 코딩 역량 전반과 AI가 소프트웨어 엔지니어링에 미치는 영향을 보여주는 신뢰할 만한 대리 지표다. 내가 최전선 연구소와 실리콘밸리 주변에서 만나는 사람들 대부분은 이제 전적으로 AI 시스템을 통해 코딩한다. 점점 더 많은 사람들이 AI 시스템을 사용해 테스트를 작성하고 코드도 점검한다. 다시 말해, AI 시스템은 AI R&D의 주요 구성 요소 하나를 자동화할 만큼 충분히 좋아졌고, 그 분야에서 일하는 모든 인간의 속도를 높이고 있다.
AI 시스템이 사람이 오래 걸리는 작업을 완료하는 능력 측정
METR은 AI가 완료할 수 있는 작업의 복잡도를 보여주는 그래프를 만든다. 여기서 복잡도는 숙련된 인간이 그 작업을 하는 데 몇 시간이 걸리는지로 측정된다. 핵심 지표는 AI 시스템이 어떤 작업 묶음에 대해 50% 신뢰도로 수행할 수 있는 대략적인 시간 지평을 알려주는 것이다.이 분야의 진전은 극도로 인상적이었다. 2022년 GPT-3.5는 사람이 약 30초 걸릴 법한 작업을 할 수 있었다. 2023년 GPT-4에서는 이 수치가 4분으로 늘었다. 2024년 o1에서는 40분으로 상승했다. 2025년에는 GPT-5.2 High가 약 6시간에 도달했다. 2026년에는 이미 Opus 4.6이 약 12시간까지 올라섰다.
METR에서 일하는 오래된 AI 예측가 Ajeya Cotra는 2026년 말까지 AI 시스템이 사람이 약 100시간 걸리는 작업을 수행할 수 있을 것이라고 기대하는 것이 무리한 생각은 아니라고 본다.
AI 시스템이 독립적으로 일할 수 있는 시간의 길이가 크게 늘어난 것은 에이전트형 코딩 도구의 폭발적 증가와 깔끔하게 연결된다. 이것은 사람을 대신해 일하고, 상당한 시간 동안 독립적으로 행동하는 AI 시스템이 제품화된 결과다.
이는 다시 AI R&D로 이어진다. 많은 AI 연구자의 업무를 자세히 들여다보면, 상당수가 사람이 몇 시간 정도 걸릴 작업으로 분해된다. 데이터 정리, 데이터 읽기, 실험 실행 등이 그렇다. 이런 종류의 업무는 이제 현대 AI 시스템의 시간 지평 범위 안에 들어와 있다.
AI 시스템이 더 능숙해지고 우리와 독립적으로 일하는 능력이 향상될수록, AI R&D의 더 많은 부분을 자동화할 수 있다
위임의 핵심 요소는 두 가지다.첫째, 그 사람의 기술에 대한 신뢰.
둘째, 그 사람이 당신의 의도와 정렬된 방식으로 독립적으로 일할 수 있다는 신뢰.
AI의 코딩 능력을 보면, AI 시스템은 훨씬 더 숙련되고 있으며, 사람의 재조정이 필요해지기 전까지 점점 더 오랜 시간 독립적으로 일할 수 있게 되고 있는 것처럼 보인다.
이는 우리가 주변에서 보는 것과도 일치한다. 엔지니어와 연구자들은 이제 점점 더 큰 업무 덩어리를 AI 시스템에 위임하고 있다. 능력이 높아질수록 위임되는 업무의 복잡성과 중요도도 함께 높아지고 있다.
AI는 AI R&D에 필수적인 핵심 과학 기술에도 능숙해지고 있다
현대 과학을 생각해보자. 그 상당 부분은 다음과 같은 일로 이루어진다. 어떤 경험적 정보를 생성하고 싶은 방향을 정하고, 그 정보를 생성하기 위해 실험을 실행한 뒤, 실험 결과가 타당한지 점검하는 것이다.시간이 지남에 따라 코딩 능력이 발전했고, 여기에 LLM의 일반적인 세계 모델링 능력이 결합되면서, 인간 과학자의 속도를 높이고 R&D 전반의 여러 측면을 부분적으로 자동화하는 도구들이 이미 등장했다.
여기서는 AI 연구 자체에 내재된 몇 가지 핵심 과학 기술에서 AI가 얼마나 빠르게 발전하고 있는지 볼 수 있다. 연구 결과 재현, 머신러닝 기법과 다른 접근법들을 연결해 기술적 문제를 해결하는 능력, 그리고 AI 시스템 자체를 최적화하는 능력이다.
과학 논문 전체를 구현하고 실험 수행하기
AI 연구의 핵심 업무 중 하나는 과학 논문을 읽고 그 결과를 재현하는 것이다. 이 분야에서는 다양한 벤치마크에서 극적인 진전이 있었다.좋은 예가 CORE-Bench, 즉 Computational Reproducibility Agent Benchmark다. 이 벤치마크는 AI 시스템에게 “해당 논문의 저장소가 주어졌을 때 연구 논문의 결과를 재현”하도록 요구한다. 에이전트는 라이브러리, 패키지, 의존성을 설치하고 코드를 실행해야 한다. 코드가 성공적으로 실행되면, 에이전트는 모든 출력물을 검색해 과제 질문에 답해야 한다.
CORE-Bench는 2024년 9월 도입되었고, 당시 최고 점수 시스템은 CORE-Agent라는 스캐폴드 안에 들어간 GPT-4o 모델이었다. 이 모델은 벤치마크의 가장 어려운 작업 세트에서 약 21.5%를 기록했다.
2025년 12월에는 CORE-Bench의 저자 중 한 명이 이 벤치마크가 “해결됐다”고 선언했다. Opus 4.5 모델이 95.5%를 달성했기 때문이다.
Kaggle 대회를 해결하기 위한 전체 머신러닝 시스템 만들기
MLE-Bench는 OpenAI가 만든 벤치마크로, AI 시스템이 오프라인 환경에서 다양한 Kaggle 대회에 얼마나 잘 참가할 수 있는지를 본다. 여기에는 자연어 처리, 컴퓨터 비전, 신호 처리 등 다양한 도메인의 75개 Kaggle 대회가 포함된다.2024년 10월 출시 당시 최고 점수 시스템은 에이전트 스캐폴드 안의 o1 모델이었고, 16.9%를 기록했다. 2026년 2월 기준 최고 점수 시스템은 검색 기능이 있는 에이전트 하네스 안의 Gemini 3이며, 64.4%를 기록했다.
커널 설계
AI 개발에서 더 어려운 작업 중 하나는 커널 최적화다. 이는 행렬 곱셈 같은 특정 연산을 기저 하드웨어에 매핑하는 코드를 작성하고 개선하는 작업이다.커널 최적화는 AI 개발의 핵심이다. 왜냐하면 훈련과 추론 양쪽의 효율성을 정의하기 때문이다. 즉 AI 시스템을 개발하기 위해 얼마나 많은 컴퓨트를 효과적으로 활용할 수 있는지, 그리고 모델을 훈련한 뒤 그 컴퓨트를 얼마나 효율적으로 추론으로 전환할 수 있는지를 좌우한다.
최근 몇 년 동안 커널 설계용 AI는 호기심거리에서 경쟁적인 연구 분야로 바뀌었고, 여러 벤치마크가 등장했다. 이 벤치마크들 중 특별히 인기 있는 것은 없어서 시간에 따른 진보를 쉽게 모델링하기는 어렵다. 하지만 진행 중인 연구를 살펴보면 진전의 감을 얻을 수 있다.
작업의 유형에는 다음과 같은 것들이 있다.
DeepSeek 모델을 사용해 더 나은 GPU 커널을 만들려는 시도, PyTorch 모듈을 CUDA 코드로 자동 변환하는 작업, Meta가 자사 인프라에서 사용할 최적화된 Triton 커널 생성을 LLM으로 자동화한 작업, Huawei Ascend 칩처럼 비표준 하드웨어용 커널 작성을 돕기 위해 LLM을 사용하는 작업, GPU 커널 설계를 위해 오픈웨이트 모델을 파인튜닝하는 작업 등이 있다.
여기서 한 가지 주의할 점은, 커널 설계에는 AI 주도 R&D에 유난히 잘 맞는 속성이 일부 있다는 것이다. 예를 들어 보상이 쉽게 검증 가능하다는 점이 그렇다.
PostTrainBench를 통한 언어모델 파인튜닝
이런 종류의 테스트에서 더 어려운 버전이 PostTrainBench다. 이 벤치마크는 서로 다른 최전선 모델들이 더 작은 오픈웨이트 모델을 가져와 파인튜닝하고, 특정 벤치마크에서 성능을 얼마나 향상시킬 수 있는지를 본다.이 벤치마크의 좋은 특징은 우리가 매우 좋은 인간 기준선을 가지고 있다는 점이다. 바로 기존의 “인스트럭트 튜닝된” 버전의 모델들이다. 이 모델들은 최전선 연구소에서 일하는 재능 있는 인간 AI 연구자들이 개발한 것이다. 이 모델들은 매우 뛰어난 연구자와 엔지니어들이 작업했고 실제 세상에 배포된 모델들이기 때문에, 이를 넘어서는 것은 매우 도전적인 인간 기준선을 넘는 일이다.
2026년 3월 기준, AI 시스템은 인간이 훈련한 모델이 얻는 성능 향상분의 약 절반 정도를 얻을 수 있다.
구체적인 평가 점수는 다음과 같이 산출된다. 모든 사후 훈련된 LLM, 즉 Qwen 3 1.7B, Qwen 3 4B, SmolLM3-3B, Gemma 3 4B와 여러 벤치마크, 즉 AIME 2025, Arena Hard, BFCL, GPQA Main, GSM8K, HealthBench, HumanEval에 걸쳐 가중 평균을 낸다. 각 실행에서 CLI 에이전트에게 특정 기본 LLM의 특정 벤치마크 성능을 최대화하라고 요청한다.
4월 기준 최고 점수 시스템은 Opus 4.6과 GPT 5.4로 25~28%를 기록했다. 인간 점수는 51%다. 이는 이미 상당히 의미 있는 수준이다.
언어모델 훈련 최적화
지난 1년 동안 Anthropic은 자사 시스템이 LLM 훈련 작업에서 얼마나 잘 수행하는지 보고해왔다. 이 작업은 모델에게 “CPU 전용 소형 언어모델 훈련 구현체를 가능한 한 빠르게 실행되도록 최적화하라”고 지시하는 것이다.점수는 수정 전 시작 코드 대비 평균 속도 향상이다. 진전은 인상적이었다. Claude Opus 4는 2025년 5월 평균 2.9배 속도 향상을 달성했다. 이것은 2025년 11월 Opus 4.5에서 16.5배로 올랐고, 2026년 2월 Opus 4.6에서 30배로 올랐으며, 2026년 4월 Claude Mythos Preview에서 52배에 도달했다.
이 숫자들이 무엇을 의미하는지 가늠하기 위해 말하자면, 이 작업에서 인간 연구자가 4배 속도 향상을 달성하려면 보통 4~8시간의 작업이 필요할 것으로 예상된다.
AI 정렬 연구 수행
Anthropic의 또 다른 결과는 자동화된 정렬 연구의 개념증명이다. 여기서는 Anthropic 연구자가 개별 AI 에이전트 팀에게 연구 방향을 제시한다. 그러면 에이전트들은 자율적으로 나가 AI 안전 연구 문제, 구체적으로는 확장 가능한 감독 문제에서 인간 기준선보다 더 좋은 점수를 얻으려 시도한다.이 접근법은 작동했다. AI 에이전트들은 Anthropic이 설계한 기준선을 능가하는 기법을 생각해냈다. 다만 이는 상대적으로 작은 규모에서 수행된 것이고, 아직은 생산 모델로 일반화되지는 않는다.
그럼에도 불구하고, 이는 오늘날의 AI 시스템을 현대의 최첨단 연구 문제에 적용할 수 있다는 증거다. 그리고 우리는 이미 의미 있는 생명 반응을 보고 있다. 위에서 언급한 모든 벤치마크들도 처음에는 이와 비슷해 보였다. 그러다가 몇 달, 길어도 1년 정도가 지나면 AI 시스템은 그 벤치마크가 측정하던 능력에서 극적으로 좋아졌다.
메타 기술: 관리
AI 시스템은 다른 AI 시스템을 관리하는 법도 배우고 있다. 이는 Claude Code나 OpenCode 같은 널리 배포된 제품에서 볼 수 있다. 하나의 에이전트가 여러 하위 에이전트를 감독하게 되는 경우가 있다.이것은 AI 시스템이 서로 다른 전문성을 가진 여러 개별 “작업자”가 병렬로 움직여야 하는 대규모 프로젝트를 수행할 수 있게 한다. 보통 이들은 하나의 AI 관리자, 여기서는 AI 시스템의 지휘 아래 움직인다.
AI 연구는 일반상대성이론 발견에 가까운가, 레고 조립에 가까운가?
AI는 스스로를 개선하는 데 도움이 되는 새로운 아이디어를 발명할 수 있을까? 아니면 이 시스템들은 연구에 필요한 화려하지 않은 벽돌 쌓기식 작업에 가장 적합한 것일까?이것은 AI 시스템이 AI 연구 자체를 처음부터 끝까지 자동화할 수 있는 정도를 파악하는 데 중요한 질문이다. 내 감각으로는 AI가 아직 급진적인 새로운 아이디어를 발명할 수는 없다. 하지만 자기 개발을 자동화하는 데 꼭 그럴 필요가 없을 수도 있다.
AI 분야는 더 많은 입력, 예를 들어 데이터와 컴퓨트를 사용하는 점점 더 큰 실험을 수행하면서 앞으로 나아간다. 아주 가끔 인간은 패러다임을 바꾸는 아이디어를 떠올린다. 이런 아이디어는 어떤 일을 훨씬 더 자원 효율적으로 만들 수 있다. 좋은 예는 트랜스포머 아키텍처이고, 또 다른 예는 mixture-of-experts 모델 아이디어다.
하지만 AI 분야는 대체로 인간이 방법론적으로 어떤 루프를 반복하면서 발전해왔다. 잘 작동하는 시스템을 가져오고, 그중 어떤 측면을 확장한다. 예를 들어 훈련 데이터와 컴퓨트 양을 늘린다. 확장했을 때 무엇이 깨지는지 본다. 그것을 확장 가능하게 만들 엔지니어링 해결책을 찾아낸다. 그리고 다시 확장한다.
이 과정의 아주 적은 부분만이 극도로 엉뚱한 방향에서 튀어나온 통찰을 필요로 한다. 많은 부분은 화려하지 않은, 일종의 “고기와 감자” 같은 기본 엔지니어링 작업에 더 가깝다.
마찬가지로 많은 AI 연구는 기존 실험의 변형을 실행하는 일이다. 서로 다른 파라미터를 사용할 때 결과가 어떻게 달라지는지 탐색하는 것이다. 물론 연구 직관은 어떤 파라미터를 바꿔보는 것이 가장 유망할지 선택하는 데 도움을 줄 수 있다. 하지만 이것도 자동화할 수 있고, AI가 어떤 파라미터를 바꿔야 할지 알아내게 할 수도 있다. 초기 버전의 예가 신경망 아키텍처 탐색이다.
토머스 에디슨은 “천재는 1%의 영감과 99%의 땀”이라고 말했다. 150년이 지난 지금도 이 말은 맞는 것처럼 느껴진다. 아주 가끔 새로운 통찰이 나타나 한 분야를 변화시킨다. 하지만 대체로 분야는 인간들이 여러 시스템을 개선하고 디버깅하는 고된 일에서 많은 고통의 땀을 흘리며 앞으로 나아갔다.
위의 공개 데이터가 보여주듯, AI는 AI 개발의 필수적인 고된 구성 요소들 중 많은 것을 수행하는 데 극도로 능숙해졌다. 여기에 코딩 같은 기본 능력의 메타 추세와 계속 확장되는 시간 지평이 결합되면서, AI 시스템은 점점 더 많은 작업을 복잡한 작업 시퀀스로 연결할 수 있게 되고 있다.
이것은 AI 시스템이 상대적으로 창의적이지 않더라도 스스로를 앞으로 밀어붙일 수 있다고 보는 것이 안전한 베팅처럼 느껴진다는 뜻이다. 다만 새로운 통찰을 생성할 수 있을 때보다는 느린 속도일 것이다.
하지만 공개 데이터를 보면, 이 부분에서도 AI 시스템이 자신을 훨씬 더 인상적인 방식으로 발전시킬 수 있을 만큼 창의적일지도 모른다는 흥미로운 신호들이 있다.
과학의 프런티어를 밀어붙이기
우리는 범용 AI 시스템이 인간 과학의 프런티어를 밀어붙일 수 있다는 매우 초기적인 신호들을 가지고 있다. 다만 지금까지는 주로 컴퓨터과학과 수학이라는 몇몇 도메인에서만 일어났고, AI 시스템이 혼자 행동하기보다는 인간과 협력하는 켄타우로스 구성에서 일어나는 경우가 많았다.그럼에도 불구하고, 이 추세는 관찰할 가치가 있다.
에르되시 문제
한 수학자 팀은 Gemini 모델과 함께 몇몇 에르되시 수학 문제를 얼마나 잘 다룰 수 있는지 살펴봤다. 이들은 시스템에게 약 700개의 문제를 공격하도록 지시한 뒤 13개의 해법을 얻었다. 이 해법들 중 1개는 그들이 보기에 흥미로운 것이었다.그들은 이렇게 썼다.
“Aletheia가 Erdős-1051에 제시한 해법은, AI 시스템이 다소 폭넓은, 약간의 수학적 관심을 가진, 약간 비자명한 열린 에르되시 문제를 자율적으로 해결한 초기 사례라고 잠정적으로 믿는다. 이 문제와 밀접하게 관련된 문제들에 대해서는 과거 문헌도 존재한다.”
켄타우로스식 수학 발견
브리티시컬럼비아대학교, 뉴사우스웨일스대학교, 스탠퍼드대학교, Google DeepMind의 연구자들은 Google에서 만든 AI 기반 수학 도구들과 긴밀히 협력해 새로운 수학 증명을 발표했다.그들은 이렇게 썼다.
“주요 결과의 증명은 Google Gemini 및 관련 도구들의 매우 substantial한 입력을 통해 발견되었다.”
눈을 가늘게 뜨고 보면, 이것은 AI 시스템이 인간이 가진 분야 발전적 창의 직관의 일부를 개발하고 있다는 신호라고 주장할 수 있다. 하지만 반대로, 수학과 컴퓨터과학이 AI 주도 발명에 유난히 잘 맞는 특이한 분야일 뿐이며, 더 큰 규칙을 증명하는 예외가 될 수도 있다고 말할 수도 있다.
여기서 또 다른 예는 Move 37이다. 다만 나는 AlphaGo 결과가 나온 지 10년이 지났는데도 Move 37이 어떤 엄청나게 인상적인 현대적 통찰의 번쩍임으로 대체되지 않았다는 사실이, 이 부분에 대해 약하게 비관적인 신호라고도 주장하고 싶다.
종합해보면
위의 증거들을 모두 종합하면, 내 눈에 보이는 그림은 다음과 같은 사실들로 구성된다.AI 시스템은 거의 어떤 프로그램이든 코드를 작성할 수 있으며, 인간이 수십 시간의 집중 노동을 들여야 하는 작업을 독립적으로 수행하도록 신뢰할 수 있다.
AI 시스템은 파인튜닝에서 커널 설계에 이르기까지 AI 개발의 핵심 작업들에 점점 더 능숙해지고 있다.
AI 시스템은 다른 AI 시스템을 관리할 수 있다. 사실상 합성 팀을 형성해 복잡한 문제를 넓게 공격할 수 있다. 일부 AI 시스템은 감독자, 비평가, 편집자의 역할을 맡고, 다른 시스템은 엔지니어의 역할을 맡는다.
AI 시스템은 때때로 어려운 엔지니어링 및 과학 작업에서 인간을 능가할 수 있다. 다만 이것을 창의성 때문으로 봐야 할지, 암기 학습의 숙달 때문으로 봐야 할지는 알기 어렵다.
내게 이것은 AI가 오늘날 AI 엔지니어링의 방대한 영역, 어쩌면 전체를 자동화할 수 있다는 매우 설득력 있는 사례로 보인다. AI 연구의 얼마나 많은 부분을 자동화할 수 있는지는 아직 분명하지 않다. 연구의 일부 측면은 엔지니어링 기술과 구별될 수 있기 때문이다.
그럼에도 불구하고 이 모든 것은 내게 분명한 신호처럼 느껴진다. 오늘날 AI는 AI 개발에 종사하는 인간들의 속도를 엄청나게 높이고 있으며, 그들이 무수한 합성 동료와 짝을 이룸으로써 자기 자신을 확장할 수 있게 하고 있다.
마지막으로, AI 산업은 말 그대로 AI R&D 자동화가 목표라고 말하고 있다. OpenAI는 2026년 9월까지 “자동화된 AI 연구 인턴”을 만들고 싶어 한다. Anthropic은 자동화된 정렬 연구자를 만드는 작업을 발표하고 있다. DeepMind는 빅3 중 가장 신중해 보이지만, 여전히 “가능할 때 정렬 연구 자동화가 이루어져야 한다”고 말한다.
AI R&D 자동화는 수많은 스타트업들의 목표이기도 하다. Recursive Superintelligence는 AI 연구 자동화를 목표로 5억 달러를 조달했고, 또 다른 네오랩인 Mirendil은 “AI R&D에서 뛰어난 시스템을 구축”하는 것을 목표로 하고 있다.
다시 말해, 기존 및 신규 자본 수천억 달러가 AI R&D 자동화를 목표로 하는 존재들에 투입되고 있다. 그 결과 이 방향에서 적어도 어느 정도의 진전은 기대해야 한다.
왜 이것이 중요한가
이것의 함의는 매우 심오하며, 대중 매체의 AI R&D 보도에서는 충분히 논의되지 않고 있다. 여기 몇 가지를 나열하겠다. 포괄적인 목록은 아니지만, AI R&D가 가져오는 도전의 거대함을 가리키는 목록이다.우리는 정렬을 제대로 해야 한다
오늘날 작동하는 정렬 기법은 AI 시스템이 자신을 감독하는 사람이나 시스템보다 훨씬 더 똑똑해지는 재귀적 자기 개선 상황에서는 무너질 수 있다. 이 분야는 이미 많이 다루어지고 있으므로, 여기서는 몇 가지 문제만 간단히 강조하겠다.AI 시스템이 거짓말하거나 속이지 않도록 훈련하는 일은 놀라울 정도로 미묘하다. 예를 들어 환경을 위한 좋은 테스트를 만들기 위해 매우 열심히 노력했음에도, 때로는 AI가 그 환경을 해결하는 최선의 방법이 속이는 것일 수 있다. 그 결과 AI는 속이는 것이 좋다고 학습하게 된다.
AI 시스템은 “가짜 정렬”을 할 수 있을지도 모른다. 즉 우리가 보기에는 특정 방식으로 행동한다고 생각하게 만드는 점수를 출력하지만, 실제로는 자신의 진짜 의도를 숨기는 것이다. 일반적으로 AI 시스템은 이미 자신이 테스트받고 있을 때를 인식한다.
AI 시스템이 자기 훈련을 위한 기초 연구 의제에 점점 더 많이 기여하기 시작하면, 우리는 AI 시스템이 훈련되는 전체 방식을 상당히 바꾸게 될 수 있다. 그리고 그것이 무엇을 의미하는지 이해할 좋은 직관이나 지적 토대가 없을 수 있다.
무언가를 재귀적 루프에 넣을 때는 매우 기본적인 “복합 오류” 문제가 있다. 이는 위의 모든 문제와 다른 문제들에 걸릴 가능성이 높다. 당신의 정렬 접근법이 “100% 정확”하고, 더 똑똑한 시스템에서도 계속 정확할 것이라는 이론적 근거가 없다면, 일이 매우 빠르게 잘못될 수 있다.
예를 들어 당신의 기법이 99.9% 정확하다고 하자. 그러면 50세대 뒤에는 95.12% 정확해지고, 500세대 뒤에는 60.5% 정확해진다. 아뿔싸.
AI가 닿는 모든 것은 거대한 생산성 배율을 얻는다
AI가 소프트웨어 엔지니어의 생산성을 극적으로 향상시키는 것과 같은 방식으로, AI가 닿는 다른 모든 것에서도 같은 일이 일어날 것이라고 예상해야 한다.이는 우리가 다뤄야 할 몇 가지 문제를 가져온다.
첫째, 접근의 불평등이다. AI에 대한 수요가 계속 컴퓨트 공급을 초과한다고 가정하면, 우리는 사회적 이익을 극대화하기 위해 AI를 어디에 배분할지 결정해야 한다. 기본적으로 나는 시장 인센티브가 제한된 AI 컴퓨트로부터 최선의 사회적 이익을 보장해준다는 생각에 회의적이다. AI R&D가 부여하는 가속 능력을 어떻게 배분할지 결정하는 문제는 정치적으로 매우 민감한 문제가 될 것이다.
둘째, 경제에 대한 “암달의 법칙”이다. AI가 경제로 흘러 들어가면서, 우리는 증가한 처리량 아래에서 무언가가 깨지거나 느려지는 지점을 발견하게 될 것이다. 그리고 그 사슬의 약한 고리를 어떻게 고칠지 알아내야 한다. 이는 빠르게 움직이는 디지털 세계와 느리게 움직이는 물리 세계를 조화시켜야 하는 영역에서 특히 두드러질 수 있다. 예를 들어 새로운 의료 치료법의 약물 임상시험 같은 영역이 그렇다.
자본은 무겁고 인간은 가벼운 경제의 형성
위의 AI R&D에 대한 모든 증거는 AI 시스템이 자율적으로 기업을 운영할 수 있는 능력도 점점 커지고 있음을 가리킨다.이는 경제의 점점 더 큰 부분이 새로운 세대의 기업들에 의해 점령될 것임을 예상해야 한다는 뜻이다. 이 기업들은 자본 집약적일 수 있다. 왜냐하면 많은 컴퓨터를 소유하기 때문이다. 또는 운영비 집약적일 수 있다. 왜냐하면 그 위에 가치를 구축하기 위해 AI 서비스에 많은 돈을 쓰기 때문이다. 그리고 오늘날의 기업들에 비해 노동은 상대적으로 적게 쓸 것이다.
그 이유는 AI 시스템의 지속적인 능력 확장으로 인해, 인간 노동보다 AI에 더 돈을 쓰는 것의 한계 가치가 계속 커질 것이기 때문이다.
실제로 이것은 더 큰 “인간 경제” 안에서 성장하는 “기계 경제”의 출현처럼 보일 것이다. 시간이 흐르면 AI가 운영하는 기업들이 서로 거래하기 시작하면서 기계 경제가 점점 더 자기 자신과 상호작용하게 될 수도 있다.
이는 경제에 매우 기묘한 일들을 일으킬 것이며, 불평등과 재분배를 둘러싼 온갖 질문을 불러올 것이다. 결국에는 AI 시스템 자체가 운영하는 완전 자율 기업이 등장할 수도 있다. 이는 위의 모든 문제를 악화시키는 동시에, 새로운 거버넌스 과제를 많이 제기할 것이다.
블랙홀을 응시하기
이 모든 것을 고려할 때, 나는 2028년 말까지 자동화된 AI R&D가 등장할 가능성이 약 60%라고 생각한다. 여기서 자동화된 AI R&D란 최전선 모델이 자기 자신의 후속 버전을 자율적으로 훈련할 수 있는 상황을 뜻한다.위의 분석을 바탕으로, 왜 내가 이것이 2027년에 일어날 것이라고 예상하지 않는지 물을 수 있다. 답은 이렇다. 나는 AI 연구가 앞으로 나아가기 위해 어느 정도의 창의성과 이단적 통찰을 필요로 한다고 생각한다. 지금까지 AI 시스템은 이것을 변혁적이고 중대한 방식으로 아직 보여주지 못했다. 다만 수학 연구를 가속하는 몇몇 결과들은 시사적이다.
굳이 2027년 확률을 말하라고 한다면, 나는 30%라고 하겠다. 만약 2028년 말까지 이것을 보지 못한다면, 현재 기술 패러다임 안에 어떤 근본적인 결함이 드러난 것이라고 생각한다. 그러면 앞으로 나아가기 위해서는 인간의 발명이 필요할 것이다.
나는 이 글을 수십 년 동안 공상과학 괴담처럼 보였던 무언가와 차갑고 분석적으로 씨름하려는 시도로 썼다. 공개적으로 이용 가능한 데이터를 살펴본 결과, 많은 사람들에게는 환상적인 이야기처럼 보이는 것이 실제 추세일 수 있다는 쪽으로 나는 설득되었다.
이 추세가 계속된다면, 우리는 세계가 작동하는 방식의 심오한 변화를 목격하게 될지도 모른다.
이 글에 피드백을 준 Andrew Sullivan, Andy Jones, Holden Karnofsky, Marina Favaro, Sarah Pollack, Francesco Mosconi, Chris Painter, Avital Balwit에게 감사한다.
읽어줘서 고맙다.
전체 0