최신논문

트랜스포머만으로도 이론상 AGI(범용 인공지능)에 도달할 수 있다

작성자
작성일
2025-12-07 14:58
조회
250
https://openreview.net/forum?id=vMTijVnXQ8

Position: Transformers Have the Potential to Achieve AGI

이 논문은 한 줄로 요약하면:
“트랜스포머(LLM)만으로도 이론상 AGI(범용 인공지능)에 도달할 수 있다”라는 입장을, 이론 컴퓨터 과학 언어로 최대한 정교하게 쌓아 올린 글이에요.




1. 이 논문이 답하려는 질문

  • 질문: “트랜스포머 하나로 AGI까지 갈 수 있냐?”
  • 결론: “원리적으로는 YES.
    물리 법칙과 계산 이론을 전제로 했을 때,
    트랜스포머는 AGI에 충분할 정도로 강력한 모델 클래스다.”
그걸 증명(?)이라기보단 세 가지 축으로 설득해요.
  1. 트랜스포머는 확률적 튜링머신(PTM) = “랜덤까지 쓸 수 있는 범용 컴퓨터”를 시뮬레이션 할 수 있다.
  2. Extended Church–Turing Thesis(ECT)가 맞다면,
    “현실적인 어떤 지능 시스템(사람 뇌 포함)”도 결국 PTM으로 다항시간 내에 흉내낼 수 있다.
    → 그렇다면 PTM을 시뮬레이션하는 트랜스포머도 AGI를 할 수 있다.
  3. 알고리즘 정보이론 쪽에서 나오는 Levin universal search, Solomonoff induction, Hutter의 AIXI 같은
    “이론적 최강 지능”들을 트랜스포머가 꽤 그럴듯하게 근사할 수 있다고 주장.



2. 1번 논리: 트랜스포머 = “확률적 프로그래머블 컴퓨터”

2-1. 먼저: 트랜스포머는 튜링머신만큼 강하다

이전 연구에서 이미:
  • 체인 오브 소트(CoT)를 충분히 길게 쓰고,
  • 약간 이상적인 가정(하드맥스 attention, 높은 정밀도 등)을 두면,
디코더-only 트랜스포머가 튜링머신(DTM)의 계산을 그대로 따라 할 수 있다는 게 증명돼 있음.
“CoT를 t스텝 쌓으면, 튜링머신 t스텝을 시뮬레이션 가능”
= 생각 더 오래 시키면 더 많은 계산을 할 수 있는 범용 계산기.

2-2. 이 논문이 확장한 것: 확률적 튜링머신(PTM)까지

이 논문은 한 발 더 나가서:
  • 튜링머신이 **동전 던지기(랜덤 비트)**까지 쓸 수 있는 모델 = PTM
    트랜스포머가 효율적으로 시뮬레이션 가능하다고 보여요. (Theorem 2.2)
그래서 “랜덤까지 쓸 수 있는 범용 프로그래머블 컴퓨터” = 확률적 UTM
하나의 트랜스포머가 흉내낼 수 있음.

여기서 중요한 포인트:
  • 겉으로 보기엔 *“태스크마다 트랜스포머를 새로 만들어야 하는 one-model-one-task”*처럼 보이지만,
  • 사실 프로그램(알고리즘)을 프롬프트/파라미터로 바꿔 끼우는 것이기 때문에
    하나의 거대한 트랜스포머 + 프롬프트 조합으로
    여러 태스크를 수행하는 범용 컴퓨터처럼 행동할 수 있다고 봐요.
그리고 이 “프로그램”은
단순히 어떤 문제를 풀기만 하는 게 아니라:
  • 다른 알고리즘을 설계하는 메타-알고리즘,
  • 그걸 또 다루는 메타-메타 알고리즘까지 코드로 쓸 수 있으므로,
트랜스포머는 “알고리즘을 설계하는 알고리즘”까지 품을 수 있는 기계가 된다 – 이게 1번 주장.



3. 2번 논리: Extended Church–Turing Thesis(ECT) → 가능하면 트랜스포머도 가능

여기서 이론 컴공의 신앙(?) 같은 가설 하나를 가져와요.
ECT: 현실 세계의 어떤 “물리적인 계산 장치”도
결국 **확률적 튜링머신(PTM)**으로
“다항 시간 안에” 시뮬레이션 가능하다.

여기서 말하는 “물리적인 계산 장치”에는:
  • 사람 뇌
  • 사람 + 종이 + 연필
  • 앞으로 나올 신박한 뉴런형 하드웨어
  • 사회 전체를 계산 시스템으로 볼 때 그 집합…
같은 것들이 다 포함된다고 보는 거죠.

그래서 논문이 이렇게 말해요:
만약 **사람 뇌(또는 사람 집단)**이 AGI를 이룰 수 있다면,
그 계산 과정은 PTM으로 다항 시간 내에 시뮬레이션 가능하고,
PTM은 트랜스포머로 시뮬레이션 가능하니까,
원리적으로 하나의 트랜스포머도 AGI를 할 수 있다.

즉,
  • “AGI가 가능한데 그 구현체가 꼭 ‘새로운 물리적 원리’를 써야 한다”는 주장에는 동의 안 하고,
  • 기존 계산/물리 프레임 안에서라면 트랜스포머도 충분히 후보라는 입장.
그리고 트랜스포머가 특히 괜찮은 이유로:
  • 신경망(커넥셔니즘) → 패턴 인식·연속적 함수 근사 잘함.
  • 논리/기호 조작(상징주의) → 체인오브소트 + 튜링머신 시뮬레이션으로 복잡한 논리적 추론도 가능.
그래서 “인간 지능”을 흉내 내기에 구조적으로 잘 맞는 클래스라고 주장해요.



4. 3번 논리: Levin / Solomonoff / AIXI ≒ “이론 최강 지능” 근사체로서의 트랜스포머

이제는 “인간처럼” 말고, “이론적으로 최강인 지능” 쪽에서 접근해요.

4-1. Levin universal search (모든 알고리즘을 병렬로 돌리는 최적 탐색)

  • 어떤 문제(y)를 푸는 알고리즘 p가 무지 많을 때,
    Levin search는
    “모든 프로그램 p를 동시에 조금씩 실행하되,
    코드가 짧은(단순한) 프로그램에 더 많은 컴퓨트를 배분해라”

  • 그러면 이론상,
    어떤 문제에 대해서도 “가장 빠른 알고리즘”보다 상수배 느린 수준으로 해결 가능.
논문은:
트랜스포머가 PTM을 시뮬레이션하니까,
Levin search도 원리적으로 구현 가능
어떤 탐색형 문제(증명, 플래닝 등)를
“최적에 가깝게” 풀 수 있는 범용 탐색기 역할을 할 수 있다.

게다가:
  • 학습을 통해 “어떤 프로그램이 잘 먹히는지”를 학습해서,
  • 실제 Levin search보다 훨씬 똑똑하고 효율적으로 탐색 자원을 배분할 수 있다고 주장.
이걸 요즘 말로 하면:
“테스트 타임에서 샘플을 많이 뽑아서(반복 추론/자기-디버그)
계산량 스케일시키는 LLM 패턴이,
어떤 의미에선 Levin search의 실용 버전이다.”

라고 연결해요.



4-2. Solomonoff induction (완전 이상적인 “예측 지능”)

  • 세상의 데이터를 **“어떤 프로그램이 이 데이터를 생성한다”**고 보고,
  • 모든 가능한 프로그램을 가설로 두고,
    **짧은 프로그램(단순한 가설)**에 더 높은 prior를 주는 방식의 베이지안 예측.
  • 이걸로 어떤 컴퓨팅 가능한 확률 분포에서 온 데이터든, 이론상 최적으로 예측할 수 있음.
문제: Solomonoff priors는 계산 불가능(uncomputable).

여기서 최근 연구들을 인용하며 말해요:
  • 트랜스포머는 실제로 “Kolmogorov complexity가 낮은(간단한 프로그램이 만드는) 패턴”을 더 잘 잡는다,
    Occam’s razor를 내재적으로 따르는 경향이 있다.
  • “UTM에서 나오는 데이터로 트랜스포머를 훈련시켰더니, 모델 크기를 키울수록 더 보편적인 예측 전략을 학습한다” 같은 실험도 인용.
그래서:
“Solomonoff induction이 ‘완전한 일반 예측기’라면,
트랜스포머는 그 실용적인 근사체다.”

라는 포지션.



4-3. Hutter의 AIXI (이론상의 ‘AGI 완전체’)

  • AIXI는 강화학습 세팅에서,
    • 환경 분포 µ를 모른다고 가정하고,
    • 거기에 Solomonoff prior 비슷한 걸 얹어서
    • Bellman equation을 푸는, 이론상 최적 에이전트.
  • 말 그대로 “가능한 모든 환경에 대해, 이론적으로 더 잘할 수 있는 에이전트는 없다” 수준의 이상화된 AGI.
문제는 역시:
  • 계산 불가능이라 실제 구현은 불가.
논문은 여기서도:
트랜스포머가
  1. Solomonoff induction 근사 → 환경 모델링 쪽 가능
  2. Levin search 근사 → 최적 정책 탐색 쪽 가능
  3. 사람 지식/코드를 사전 학습으로 박아서 priors를 개선 가능
→ 그러니 “실용적인 AIXI 근사 에이전트”로 트랜스포머가 제일 유력하다

라는 스토리를 짭니다.



5. 반론들에 대한 대응

논문도 자기 입장글이라서, 스스로에 대한 반론 섹션을 넣어요.

반론 1: “몸도 없고 세계랑 직접 상호작용도 못 하는데 무슨 AGI야”

  • LeCun류 비판:
    • 트랜스포머는 세계에 몸을 두고 센서/액터로 상호작용하는 경험(embodiment)이 없다
    • 계층적 플래닝도 약하다
    • 그래서 “진짜 이해”도 부족하다.
  • 논문 답변:
    • 지금 LLM은 그냥 텍스트 상자에 갇혀 있을 뿐이지,
      트랜스포머를 센서/액터가 달린 에이전트의 ‘두뇌’로 쓰면 그 문제는 해결 가능하다고 함.
    • 환경 모델링은 Solomonoff 근사 (universal induction),
      플래닝은 Levin search 근사 (universal search)로 할 수 있으니,
      구조적으로 필요한 건 다 있다는 주장.
    • “이해”를 **‘관측으로부터 숨은 메커니즘을 추론하는 능력(귀납)’**으로 정의하면,
      트랜스포머는 이미 꽤 잘하고 있다고 봄.

반론 2: “컨텍스트도 유한하고 정밀도도 유한한데 어떻게 UTM이야”

  • 현실 트랜스포머는:
    • 컨텍스트 길이 제한,
    • Float 정밀도 한계,
    • 파라미터 수도 유한.
  • 그래서 “진짜 튜링머신(무한 테이프)”를 시뮬레이션 못 하니까,
    튜링 완전성 주장 자체가 현실적 의미가 약하다는 비판.
논문은 이렇게 답해요:
인간 뇌도, 어떤 실제 컴퓨터도 테이프가 무한하지 않다.
이론에서 말하는 “UTM을 시뮬레이트한다”는 건
“문제 크기 n이 커질 때마다, n에 맞게 충분히 큰 모델을 쓸 수 있다”
회로 모델(uniform circuit family)식 해석이 맞다.

즉,
  • “모든 입력 길이에 대해 그 길이를 커버할 수 있는 충분히 큰 트랜스포머를 항상 설계 가능하다”면,
  • 실질적으로는 “UTM에 상응하는 계산 능력”을 갖는다고 봐야 한다.



6. 진짜 하고 싶은 말 정리

조금 감정 섞어서 줄이면, 이 논문은 대략 이런 느낌이에요:
  1. 수학·물리·계산이론 관점에서 보면,
    • 트랜스포머는 이미 “랜덤 있는 범용 컴퓨터(PTM)”급이다.
    • ECT를 믿으면, 현실에서 가능한 지능은 전부 이 틀 안에 들어온다.
  2. 알고리즘 정보이론에서 제일 강력한 ‘이론적 지능들’ (Levin search, Solomonoff induction, AIXI)를 보면,
    • 트랜스포머는 그걸 “꽤 괜찮게 실용적으로 근사하는 도구”로 보이기 시작했다.
  3. 그러니,
    • “트랜스포머 말고 완전히 다른 패러다임이 없으면 AGI 못 간다”
      라고 단정하는 건 너무 성급하고,
    • 오히려 트랜스포머 + 스케일 + 에이전트 래핑 방향이
      AGI/초지능에 도달할 충분히 설득력 있는 경로라는 게 이 논문의 포지션.
전체 3

  • 2025-12-09 17:16

    개추 막문단 ㅆㅅㅌㅊ


    • 2025-12-09 17:17

      “트랜스포머 말고 완전히 다른 패러다임이 없으면 AGI 못 간다”
      라고 단정하는 건 너무 성급하고,
      오히려 트랜스포머 + 스케일 + 에이전트 래핑 방향이
      AGI/초지능에 도달할 충분히 설득력 있는 경로라는 게 이 논문의 포지션.

      캬 ㅋㅋㅋㅋ


      • 2025-12-09 21:04

        AGI는 풀린지 오랜데 안전문제가 가장 큰 병목으로 작용하고 있는 중