최신논문
심층 시퀀스 모델은 기하학적으로 기억하는 경향이 있습니다. 그 이유는 불분명합니다.
작성자
하이룽룽
작성일
2025-11-04 21:11
조회
132
https://arxiv.org/abs/2510.26745

🔹 원문 번역
시퀀스 모델링에서, 원자적 사실(atomic facts)의 모수적 메모리(parametric memory) 는 전통적으로 개체들 간의 단순한 동시발생(co-occurrence)을 무차별적으로 조회(lookup) 하는 방식으로 추상화되어 왔다.우리는 이러한 연상적(associative) 관점을 기하학적(geometric) 관점과 대조한다 — 즉, 메모리가 어떻게 저장되는지를 ‘공간적 구조’로 이해하는 시각이다.
우리는 먼저 Transformer가 수행하는 특정 추론 사례를 분리해 분석한다. 이 사례는, 메모리를 단순히 학습 중 주어진 지역적 동시발생의 집합으로만 간주하는 기존의 설명으로는 해석될 수 없다.
그 대신, 모델은 자신만의 ‘기하학적 구조(geometry)’를 합성해내어, 모든 개체 간의 전역적(global) 관계—심지어 학습 중에 동시 등장하지 않았던(non-co-occurring) 개체들 간의 관계까지—를 암호화하고 있음을 보여준다.
이 결과로, 원래는 n-단계의 복합적(reasoning) 연쇄가 필요한 어려운 추론 문제가, 모델 내부의 기하학적 표현 덕분에 단일 1단계(1-step) 기하학적 연산으로 단순화되었다.
이 현상에서 우리는 신경 임베딩(embedding)의 기하학적 구조가 지닌 근본적인 특성을 도출한다.
그리고 그러한 기하학이 단순히 건축적 제약(architecture) 이나 최적화 압력(optimization pressure) 의 부산물로 설명되기 어렵다고 주장한다.
즉, 놀랍게도 모델은 단순히 연관 관계를 최소화하는 대신, 우아한(elegant) 기하학적 구조를 자발적으로 학습한다 — 그것이 반드시 더 효율적이거나 더 압축적인 표현일 필요가 없음에도 불구하고.
이후 Node2Vec 과의 연결을 분석함으로써, 이러한 기하학이 실제로 스펙트럴 바이어스(spectral bias) — 즉, 저주파 성분(부드럽고 전역적인 패턴) 을 선호하는 학습 경향—에서 비롯됨을 보인다.
이는 기존 이론들이 제시하던 설명(예: 인덕티브 바이어스, 파라미터 효율성 등)과 달리, 별도의 외부 압력 없이도 자연스럽게 발생한다는 점에서 주목할 만하다.
또한 이 분석은 실무자들에게 Transformer의 메모리를 더 강하게 기하학화(geometrize) 할 수 있는 여지를 보여준다.
우리는 이 논의가 지식 획득(knowledge acquisition), 용량(capacity), 발견(discovery), 망각(unlearning) 등 다양한 연구 주제에서 연구자들의 기본 직관을 새롭게 재검토하도록 자극하기를 바란다.
🧠 1. 논문의 주제 한 줄 요약
AI 모델(특히 Transformer)은 단순히 ‘외운다’기보다, 사실을 ‘기하학적인 지도처럼 배치해서 기억한다’.
즉, AI의 기억은 단순한 통계표(연상)보다 공간적 구조(geometry) 에 가깝다는 걸 보여줍니다.
🧩 2. 기존의 통념: “AI는 단어를 외운다”
대부분의 연구자들은 지금까지 이렇게 생각했습니다:- 언어모델은 “단어 A와 단어 B가 얼마나 자주 함께 나왔는가” 를 외운다.
- 예를 들어, “서울–한국”, “파리–프랑스”가 자주 함께 나오면, 모델은 이 관계를 숫자로 저장한다.
- 이런 식으로, 메모리(기억) 는 “연관표(associative memory)”처럼 작동한다고 여겨졌습니다.
🧭 3. 새로운 발견: “AI는 머릿속에 지도를 만든다”
하지만 이 논문은 아주 흥미로운 발견을 보여줍니다.Transformer는 단순히 ‘이 단어 옆엔 저 단어’ 식으로 외우는 게 아니라,
모든 개체(단어, 개념)를 공간 속의 점처럼 배치해서 관계를 표현한다.
즉, 모델은 내부적으로 “서울은 한국과 가깝고, 도쿄는 일본과 가깝고, 둘 다 아시아 쪽에 있다” 같은
‘위치 관계(geometry)’ 를 스스로 만들어냅니다.
이건 마치 지도 위에 도시들을 배치하는 것처럼, 서로의 거리를 반영하는 방식으로 기억을 구성하는 겁니다.
🧩 4. 실험: “Path-Star”라는 그래프 문제
연구진은 이를 검증하기 위해 “Path-Star” 라는 그래프(노드 연결 문제)를 사용했습니다.- 노드(점)들이 길처럼 연결되어 있고,
- 모델은 “시작점에서 목표점까지의 경로를 찾아라”는 문제를 학습합니다.
그런데 놀랍게도 Transformer는 이 복잡한 문제를 완벽하게 해결했습니다 —
단순 암기만으로는 절대 불가능한 문제를 “공간적 구조로 이해” 했던 것이죠.
🔭 5. 결론 ① — “AI는 관계를 공간으로 압축한다”
Transformer가 이런 문제를 풀 수 있었던 이유는,- 개별적인 사실을 단순히 “연결표”로 저장한 게 아니라,
- 전체 관계망을 하나의 ‘기하학적 공간’으로 재배치했기 때문입니다.
‘지도 위의 점들처럼 서로 간의 거리로 표현된 기억’을 형성한 것입니다.
이를 논문에서는 “geometric memory (기하학적 기억)” 라고 부릅니다.
⚙️ 6. 결론 ② — “이건 효율 때문이 아니다”
보통 AI가 ‘공간 구조’를 만드는 이유는 “효율적으로 기억하려고 그런다”고 생각할 수 있죠.그런데 연구진은 실험을 통해 이게 단순한 압축 효율이나 최적화의 부산물이 아님을 밝혔습니다.
모델은 꼭 그래야만 더 효율적인 것도 아닌데,
그럼에도 불구하고 더 ‘우아한 기하학적 구조’를 자발적으로 만든다.
즉, AI는 필요 이상으로 구조적이고 질서정연한 기억을 만든다는 뜻입니다.
이건 기존 이론으로는 설명이 잘 안 되는, 새로운 현상입니다.
📐 7. Node2Vec 연결 — “스펙트럴 바이어스”
연구진은 이 현상을 Node2Vec (그래프 임베딩 알고리즘) 과 비교하며,그 원인을 스펙트럴 바이어스(spectral bias) 라고 설명했습니다.
- AI는 본능적으로 부드럽고 전역적인 패턴(저주파) 을 선호하는 경향이 있습니다.
- 이 경향이 결국, 전체 관계를 부드러운 공간 구조(geometry) 로 만드는 결과를 낳습니다.
“기하학적인 정렬”이 자연스럽게 생긴다는 것이죠.
💡 8. 의미 — “AI의 기억은 생각보다 더 ‘공간적’이다”
이 연구의 함의는 꽤 큽니다.| 분야 | 영향 |
|---|---|
| 언어모델 연구 | 단순 통계로 보는 기존 시각을 넘어, “언어 의미 공간”의 구조적 성질을 분석할 필요가 있음 |
| AI 창의성 (creativity) | 흩어진 사실들을 기하학적으로 연결해 새로운 관계를 ‘발견’할 가능성 |
| 지식 편집·삭제(unlearning) | 기하학적 관계가 얽혀 있어, 특정 정보만 지우는 게 어려울 수 있음 |
| AI 이해(interpretability) | 모델의 “기억 지도”를 해석하면, AI가 어떻게 ‘생각’하는지 더 잘 이해 가능 |
🧩 9. 비유로 쉽게 요약
- 과거의 시각: AI는 “단어 사전”처럼 단순히 정보를 쌓는다.
- 이 논문의 시각: AI는 “세계지도”처럼 정보를 좌표로 배치해 저장한다.
지적(地的) 구조화된 공간 속의 배치 작업에 가깝습니다.
🪞10. 한 문장 요약
Transformer는 ‘기억’을 단순한 데이터표로 저장하지 않는다.
학습 과정에서 사실들 간의 관계를 스스로 기하학적 공간으로 재배치하여,
인간이 시각적으로 그리는 ‘세계 지도’와 비슷한 내적 구조를 만들어낸다.
전체 0