최신논문

심층 시퀀스 모델은 기하학적으로 기억하는 경향이 있습니다. 그 이유는 불분명합니다.

작성자
하이룽룽
작성일
2025-11-04 21:11
조회
132

https://arxiv.org/abs/2510.26745


🔹 원문 번역

시퀀스 모델링에서, 원자적 사실(atomic facts)의 모수적 메모리(parametric memory) 는 전통적으로 개체들 간의 단순한 동시발생(co-occurrence)을 무차별적으로 조회(lookup) 하는 방식으로 추상화되어 왔다.
우리는 이러한 연상적(associative) 관점기하학적(geometric) 관점과 대조한다 — 즉, 메모리가 어떻게 저장되는지를 ‘공간적 구조’로 이해하는 시각이다.

우리는 먼저 Transformer가 수행하는 특정 추론 사례를 분리해 분석한다. 이 사례는, 메모리를 단순히 학습 중 주어진 지역적 동시발생의 집합으로만 간주하는 기존의 설명으로는 해석될 수 없다.
그 대신, 모델은 자신만의 ‘기하학적 구조(geometry)’를 합성해내어, 모든 개체 간의 전역적(global) 관계—심지어 학습 중에 동시 등장하지 않았던(non-co-occurring) 개체들 간의 관계까지—를 암호화하고 있음을 보여준다.

이 결과로, 원래는 n-단계의 복합적(reasoning) 연쇄가 필요한 어려운 추론 문제가, 모델 내부의 기하학적 표현 덕분에 단일 1단계(1-step) 기하학적 연산으로 단순화되었다.

이 현상에서 우리는 신경 임베딩(embedding)의 기하학적 구조가 지닌 근본적인 특성을 도출한다.
그리고 그러한 기하학이 단순히 건축적 제약(architecture) 이나 최적화 압력(optimization pressure) 의 부산물로 설명되기 어렵다고 주장한다.
즉, 놀랍게도 모델은 단순히 연관 관계를 최소화하는 대신, 우아한(elegant) 기하학적 구조를 자발적으로 학습한다 — 그것이 반드시 더 효율적이거나 더 압축적인 표현일 필요가 없음에도 불구하고.

이후 Node2Vec 과의 연결을 분석함으로써, 이러한 기하학이 실제로 스펙트럴 바이어스(spectral bias) — 즉, 저주파 성분(부드럽고 전역적인 패턴) 을 선호하는 학습 경향—에서 비롯됨을 보인다.
이는 기존 이론들이 제시하던 설명(예: 인덕티브 바이어스, 파라미터 효율성 등)과 달리, 별도의 외부 압력 없이도 자연스럽게 발생한다는 점에서 주목할 만하다.

또한 이 분석은 실무자들에게 Transformer의 메모리를 더 강하게 기하학화(geometrize) 할 수 있는 여지를 보여준다.
우리는 이 논의가 지식 획득(knowledge acquisition), 용량(capacity), 발견(discovery), 망각(unlearning) 등 다양한 연구 주제에서 연구자들의 기본 직관을 새롭게 재검토하도록 자극하기를 바란다.



🧠 1. 논문의 주제 한 줄 요약

AI 모델(특히 Transformer)은 단순히 ‘외운다’기보다, 사실을 ‘기하학적인 지도처럼 배치해서 기억한다’.
즉, AI의 기억은 단순한 통계표(연상)보다 공간적 구조(geometry) 에 가깝다는 걸 보여줍니다.




🧩 2. 기존의 통념: “AI는 단어를 외운다”

대부분의 연구자들은 지금까지 이렇게 생각했습니다:
  • 언어모델은 “단어 A와 단어 B가 얼마나 자주 함께 나왔는가” 를 외운다.
  • 예를 들어, “서울–한국”, “파리–프랑스”가 자주 함께 나오면, 모델은 이 관계를 숫자로 저장한다.
  • 이런 식으로, 메모리(기억) 는 “연관표(associative memory)”처럼 작동한다고 여겨졌습니다.
즉, AI는 거대한 ‘엑셀 시트’ 안에 “무엇과 무엇이 자주 같이 나왔는지”를 단순히 표로 저장한다고 본 거죠.



🧭 3. 새로운 발견: “AI는 머릿속에 지도를 만든다”

하지만 이 논문은 아주 흥미로운 발견을 보여줍니다.
Transformer는 단순히 ‘이 단어 옆엔 저 단어’ 식으로 외우는 게 아니라,
모든 개체(단어, 개념)를 공간 속의 점처럼 배치해서 관계를 표현한다.

즉, 모델은 내부적으로 “서울은 한국과 가깝고, 도쿄는 일본과 가깝고, 둘 다 아시아 쪽에 있다” 같은
‘위치 관계(geometry)’ 를 스스로 만들어냅니다.

이건 마치 지도 위에 도시들을 배치하는 것처럼, 서로의 거리를 반영하는 방식으로 기억을 구성하는 겁니다.



🧩 4. 실험: “Path-Star”라는 그래프 문제

연구진은 이를 검증하기 위해 “Path-Star” 라는 그래프(노드 연결 문제)를 사용했습니다.
  • 노드(점)들이 길처럼 연결되어 있고,
  • 모델은 “시작점에서 목표점까지의 경로를 찾아라”는 문제를 학습합니다.
이 문제는 단순히 순서대로 외워서는 풀기 어렵습니다.
그런데 놀랍게도 Transformer는 이 복잡한 문제를 완벽하게 해결했습니다 —
단순 암기만으로는 절대 불가능한 문제를 “공간적 구조로 이해” 했던 것이죠.



🔭 5. 결론 ① — “AI는 관계를 공간으로 압축한다”

Transformer가 이런 문제를 풀 수 있었던 이유는,
  • 개별적인 사실을 단순히 “연결표”로 저장한 게 아니라,
  • 전체 관계망을 하나의 ‘기하학적 공간’으로 재배치했기 때문입니다.
즉, 단순한 ‘lookup table’(연상표)이 아니라,
‘지도 위의 점들처럼 서로 간의 거리로 표현된 기억’을 형성한 것입니다.

이를 논문에서는 “geometric memory (기하학적 기억)” 라고 부릅니다.



⚙️ 6. 결론 ② — “이건 효율 때문이 아니다”

보통 AI가 ‘공간 구조’를 만드는 이유는 “효율적으로 기억하려고 그런다”고 생각할 수 있죠.
그런데 연구진은 실험을 통해 이게 단순한 압축 효율이나 최적화의 부산물이 아님을 밝혔습니다.
모델은 꼭 그래야만 더 효율적인 것도 아닌데,
그럼에도 불구하고 더 ‘우아한 기하학적 구조’를 자발적으로 만든다.

즉, AI는 필요 이상으로 구조적이고 질서정연한 기억을 만든다는 뜻입니다.
이건 기존 이론으로는 설명이 잘 안 되는, 새로운 현상입니다.



📐 7. Node2Vec 연결 — “스펙트럴 바이어스”

연구진은 이 현상을 Node2Vec (그래프 임베딩 알고리즘) 과 비교하며,
그 원인을 스펙트럴 바이어스(spectral bias) 라고 설명했습니다.
  • AI는 본능적으로 부드럽고 전역적인 패턴(저주파) 을 선호하는 경향이 있습니다.
  • 이 경향이 결국, 전체 관계를 부드러운 공간 구조(geometry) 로 만드는 결과를 낳습니다.
즉, 모델이 데이터를 학습하는 과정 자체에서
“기하학적인 정렬”이 자연스럽게 생긴다는 것이죠.



💡 8. 의미 — “AI의 기억은 생각보다 더 ‘공간적’이다”

이 연구의 함의는 꽤 큽니다.
분야 영향
언어모델 연구 단순 통계로 보는 기존 시각을 넘어, “언어 의미 공간”의 구조적 성질을 분석할 필요가 있음
AI 창의성 (creativity) 흩어진 사실들을 기하학적으로 연결해 새로운 관계를 ‘발견’할 가능성
지식 편집·삭제(unlearning) 기하학적 관계가 얽혀 있어, 특정 정보만 지우는 게 어려울 수 있음
AI 이해(interpretability) 모델의 “기억 지도”를 해석하면, AI가 어떻게 ‘생각’하는지 더 잘 이해 가능



🧩 9. 비유로 쉽게 요약

  • 과거의 시각: AI는 “단어 사전”처럼 단순히 정보를 쌓는다.
  • 이 논문의 시각: AI는 “세계지도”처럼 정보를 좌표로 배치해 저장한다.
즉, AI의 ‘지식’은 문장 수집이 아니라,
지적(地的) 구조화된 공간 속의 배치 작업에 가깝습니다.



🪞10. 한 문장 요약

Transformer는 ‘기억’을 단순한 데이터표로 저장하지 않는다.
학습 과정에서 사실들 간의 관계를 스스로 기하학적 공간으로 재배치하여,
인간이 시각적으로 그리는 ‘세계 지도’와 비슷한 내적 구조를 만들어낸다.
전체 0