최신논문

대규모 언어 모델을 위한 시간의 화살표

작성자
dd
작성일
2024-07-04 00:44
조회
334
https://arxiv.org/abs/2401.17505

우리는 시간 방향성의 각도를 통해 자기 회귀 대규모 언어 모델(LLM)이 수행한 확률적 모델링을 연구하여 (Shannon, 1951)에서 처음 제기된 문제를 다룹니다. 충분히 큰 모델의 경우 자연어를 학습하는 능력에 시간적 비대칭성이 있음을 경험적으로 발견했습니다. 다음 토큰을 예측하려고 할 때와 이전 토큰을 예측하려고 할 때의 평균 로그 복잡도 차이입니다. 이 차이는 다양한 모달리티(언어, 모델 크기, 학습 시간 등)에서 동시에 미묘하고 매우 일관적입니다. 이론적으로 이는 놀라운 일입니다. 정보 이론적 관점에서 볼 때 그러한 차이가 없어야 합니다. 우리는 희소성과 계산 복잡도 고려 사항에서 이러한 비대칭성이 어떻게 나타날 수 있는지 설명하는 이론적 프레임워크를 제공하고 결과에 의해 열린 여러 관점을 설명합니다.
전체 0