최신논문
트랜스포머만으로도 이론상 AGI(범용 인공지능)에 도달할 수 있다
작성자
작성일
2025-12-07 14:58
조회
250
https://openreview.net/forum?id=vMTijVnXQ8
하나의 트랜스포머가 흉내낼 수 있음.
여기서 중요한 포인트:
단순히 어떤 문제를 풀기만 하는 게 아니라:
여기서 말하는 “물리적인 계산 장치”에는:
그래서 논문이 이렇게 말해요:
즉,
게다가:
라고 연결해요.
여기서 최근 연구들을 인용하며 말해요:
라는 포지션.
라는 스토리를 짭니다.
즉,
Position: Transformers Have the Potential to Achieve AGI
이 논문은 한 줄로 요약하면:“트랜스포머(LLM)만으로도 이론상 AGI(범용 인공지능)에 도달할 수 있다”라는 입장을, 이론 컴퓨터 과학 언어로 최대한 정교하게 쌓아 올린 글이에요.
1. 이 논문이 답하려는 질문
- 질문: “트랜스포머 하나로 AGI까지 갈 수 있냐?”
- 결론: “원리적으로는 YES.
물리 법칙과 계산 이론을 전제로 했을 때,
트랜스포머는 AGI에 충분할 정도로 강력한 모델 클래스다.”
- 트랜스포머는 확률적 튜링머신(PTM) = “랜덤까지 쓸 수 있는 범용 컴퓨터”를 시뮬레이션 할 수 있다.
- Extended Church–Turing Thesis(ECT)가 맞다면,
“현실적인 어떤 지능 시스템(사람 뇌 포함)”도 결국 PTM으로 다항시간 내에 흉내낼 수 있다.
→ 그렇다면 PTM을 시뮬레이션하는 트랜스포머도 AGI를 할 수 있다. - 알고리즘 정보이론 쪽에서 나오는 Levin universal search, Solomonoff induction, Hutter의 AIXI 같은
“이론적 최강 지능”들을 트랜스포머가 꽤 그럴듯하게 근사할 수 있다고 주장.
2. 1번 논리: 트랜스포머 = “확률적 프로그래머블 컴퓨터”
2-1. 먼저: 트랜스포머는 튜링머신만큼 강하다
이전 연구에서 이미:- 체인 오브 소트(CoT)를 충분히 길게 쓰고,
- 약간 이상적인 가정(하드맥스 attention, 높은 정밀도 등)을 두면,
“CoT를 t스텝 쌓으면, 튜링머신 t스텝을 시뮬레이션 가능”
= 생각 더 오래 시키면 더 많은 계산을 할 수 있는 범용 계산기.
2-2. 이 논문이 확장한 것: 확률적 튜링머신(PTM)까지
이 논문은 한 발 더 나가서:- 튜링머신이 **동전 던지기(랜덤 비트)**까지 쓸 수 있는 모델 = PTM도
트랜스포머가 효율적으로 시뮬레이션 가능하다고 보여요. (Theorem 2.2)
하나의 트랜스포머가 흉내낼 수 있음.
여기서 중요한 포인트:
- 겉으로 보기엔 *“태스크마다 트랜스포머를 새로 만들어야 하는 one-model-one-task”*처럼 보이지만,
- 사실 프로그램(알고리즘)을 프롬프트/파라미터로 바꿔 끼우는 것이기 때문에
하나의 거대한 트랜스포머 + 프롬프트 조합으로
여러 태스크를 수행하는 범용 컴퓨터처럼 행동할 수 있다고 봐요.
단순히 어떤 문제를 풀기만 하는 게 아니라:
- 다른 알고리즘을 설계하는 메타-알고리즘,
- 그걸 또 다루는 메타-메타 알고리즘까지 코드로 쓸 수 있으므로,
3. 2번 논리: Extended Church–Turing Thesis(ECT) → 가능하면 트랜스포머도 가능
여기서 이론 컴공의 신앙(?) 같은 가설 하나를 가져와요.ECT: 현실 세계의 어떤 “물리적인 계산 장치”도
결국 **확률적 튜링머신(PTM)**으로
“다항 시간 안에” 시뮬레이션 가능하다.
여기서 말하는 “물리적인 계산 장치”에는:
- 사람 뇌
- 사람 + 종이 + 연필
- 앞으로 나올 신박한 뉴런형 하드웨어
- 사회 전체를 계산 시스템으로 볼 때 그 집합…
그래서 논문이 이렇게 말해요:
만약 **사람 뇌(또는 사람 집단)**이 AGI를 이룰 수 있다면,
그 계산 과정은 PTM으로 다항 시간 내에 시뮬레이션 가능하고,
PTM은 트랜스포머로 시뮬레이션 가능하니까,
원리적으로 하나의 트랜스포머도 AGI를 할 수 있다.
즉,
- “AGI가 가능한데 그 구현체가 꼭 ‘새로운 물리적 원리’를 써야 한다”는 주장에는 동의 안 하고,
- 기존 계산/물리 프레임 안에서라면 트랜스포머도 충분히 후보라는 입장.
- 신경망(커넥셔니즘) → 패턴 인식·연속적 함수 근사 잘함.
- 논리/기호 조작(상징주의) → 체인오브소트 + 튜링머신 시뮬레이션으로 복잡한 논리적 추론도 가능.
4. 3번 논리: Levin / Solomonoff / AIXI ≒ “이론 최강 지능” 근사체로서의 트랜스포머
이제는 “인간처럼” 말고, “이론적으로 최강인 지능” 쪽에서 접근해요.4-1. Levin universal search (모든 알고리즘을 병렬로 돌리는 최적 탐색)
- 어떤 문제(y)를 푸는 알고리즘 p가 무지 많을 때,
Levin search는
“모든 프로그램 p를 동시에 조금씩 실행하되,
코드가 짧은(단순한) 프로그램에 더 많은 컴퓨트를 배분해라”
- 그러면 이론상,
어떤 문제에 대해서도 “가장 빠른 알고리즘”보다 상수배 느린 수준으로 해결 가능.
트랜스포머가 PTM을 시뮬레이션하니까,
Levin search도 원리적으로 구현 가능 →
어떤 탐색형 문제(증명, 플래닝 등)를
“최적에 가깝게” 풀 수 있는 범용 탐색기 역할을 할 수 있다.
게다가:
- 학습을 통해 “어떤 프로그램이 잘 먹히는지”를 학습해서,
- 실제 Levin search보다 훨씬 똑똑하고 효율적으로 탐색 자원을 배분할 수 있다고 주장.
“테스트 타임에서 샘플을 많이 뽑아서(반복 추론/자기-디버그)
계산량 스케일시키는 LLM 패턴이,
어떤 의미에선 Levin search의 실용 버전이다.”
라고 연결해요.
4-2. Solomonoff induction (완전 이상적인 “예측 지능”)
- 세상의 데이터를 **“어떤 프로그램이 이 데이터를 생성한다”**고 보고,
- 모든 가능한 프로그램을 가설로 두고,
**짧은 프로그램(단순한 가설)**에 더 높은 prior를 주는 방식의 베이지안 예측. - 이걸로 어떤 컴퓨팅 가능한 확률 분포에서 온 데이터든, 이론상 최적으로 예측할 수 있음.
여기서 최근 연구들을 인용하며 말해요:
- 트랜스포머는 실제로 “Kolmogorov complexity가 낮은(간단한 프로그램이 만드는) 패턴”을 더 잘 잡는다,
즉 Occam’s razor를 내재적으로 따르는 경향이 있다. - “UTM에서 나오는 데이터로 트랜스포머를 훈련시켰더니, 모델 크기를 키울수록 더 보편적인 예측 전략을 학습한다” 같은 실험도 인용.
“Solomonoff induction이 ‘완전한 일반 예측기’라면,
트랜스포머는 그 실용적인 근사체다.”
라는 포지션.
4-3. Hutter의 AIXI (이론상의 ‘AGI 완전체’)
- AIXI는 강화학습 세팅에서,
- 환경 분포 µ를 모른다고 가정하고,
- 거기에 Solomonoff prior 비슷한 걸 얹어서
- Bellman equation을 푸는, 이론상 최적 에이전트.
- 말 그대로 “가능한 모든 환경에 대해, 이론적으로 더 잘할 수 있는 에이전트는 없다” 수준의 이상화된 AGI.
- 계산 불가능이라 실제 구현은 불가.
트랜스포머가
→ 그러니 “실용적인 AIXI 근사 에이전트”로 트랜스포머가 제일 유력하다
- Solomonoff induction 근사 → 환경 모델링 쪽 가능
- Levin search 근사 → 최적 정책 탐색 쪽 가능
- 사람 지식/코드를 사전 학습으로 박아서 priors를 개선 가능
라는 스토리를 짭니다.
5. 반론들에 대한 대응
논문도 자기 입장글이라서, 스스로에 대한 반론 섹션을 넣어요.반론 1: “몸도 없고 세계랑 직접 상호작용도 못 하는데 무슨 AGI야”
- LeCun류 비판:
- 트랜스포머는 세계에 몸을 두고 센서/액터로 상호작용하는 경험(embodiment)이 없다
- 계층적 플래닝도 약하다
- 그래서 “진짜 이해”도 부족하다.
- 논문 답변:
- 지금 LLM은 그냥 텍스트 상자에 갇혀 있을 뿐이지,
트랜스포머를 센서/액터가 달린 에이전트의 ‘두뇌’로 쓰면 그 문제는 해결 가능하다고 함. - 환경 모델링은 Solomonoff 근사 (universal induction),
플래닝은 Levin search 근사 (universal search)로 할 수 있으니,
구조적으로 필요한 건 다 있다는 주장. - “이해”를 **‘관측으로부터 숨은 메커니즘을 추론하는 능력(귀납)’**으로 정의하면,
트랜스포머는 이미 꽤 잘하고 있다고 봄.
- 지금 LLM은 그냥 텍스트 상자에 갇혀 있을 뿐이지,
반론 2: “컨텍스트도 유한하고 정밀도도 유한한데 어떻게 UTM이야”
- 현실 트랜스포머는:
- 컨텍스트 길이 제한,
- Float 정밀도 한계,
- 파라미터 수도 유한.
- 그래서 “진짜 튜링머신(무한 테이프)”를 시뮬레이션 못 하니까,
튜링 완전성 주장 자체가 현실적 의미가 약하다는 비판.
인간 뇌도, 어떤 실제 컴퓨터도 테이프가 무한하지 않다.
이론에서 말하는 “UTM을 시뮬레이트한다”는 건
“문제 크기 n이 커질 때마다, n에 맞게 충분히 큰 모델을 쓸 수 있다”
는 회로 모델(uniform circuit family)식 해석이 맞다.
즉,
- “모든 입력 길이에 대해 그 길이를 커버할 수 있는 충분히 큰 트랜스포머를 항상 설계 가능하다”면,
- 실질적으로는 “UTM에 상응하는 계산 능력”을 갖는다고 봐야 한다.
6. 진짜 하고 싶은 말 정리
조금 감정 섞어서 줄이면, 이 논문은 대략 이런 느낌이에요:- 수학·물리·계산이론 관점에서 보면,
- 트랜스포머는 이미 “랜덤 있는 범용 컴퓨터(PTM)”급이다.
- ECT를 믿으면, 현실에서 가능한 지능은 전부 이 틀 안에 들어온다.
- 또 알고리즘 정보이론에서 제일 강력한 ‘이론적 지능들’
(Levin search, Solomonoff induction, AIXI)를 보면,
- 트랜스포머는 그걸 “꽤 괜찮게 실용적으로 근사하는 도구”로 보이기 시작했다.
- 그러니,
- “트랜스포머 말고 완전히 다른 패러다임이 없으면 AGI 못 간다”
라고 단정하는 건 너무 성급하고, - 오히려 트랜스포머 + 스케일 + 에이전트 래핑 방향이
AGI/초지능에 도달할 충분히 설득력 있는 경로라는 게 이 논문의 포지션.
- “트랜스포머 말고 완전히 다른 패러다임이 없으면 AGI 못 간다”
개추 막문단 ㅆㅅㅌㅊ
“트랜스포머 말고 완전히 다른 패러다임이 없으면 AGI 못 간다”
라고 단정하는 건 너무 성급하고,
오히려 트랜스포머 + 스케일 + 에이전트 래핑 방향이
AGI/초지능에 도달할 충분히 설득력 있는 경로라는 게 이 논문의 포지션.
캬 ㅋㅋㅋㅋ
AGI는 풀린지 오랜데 안전문제가 가장 큰 병목으로 작용하고 있는 중