최신논문
대규모 언어 모델을 위한 시간의 화살표
작성자
dd
작성일
2024-07-04 00:44
조회
334
https://arxiv.org/abs/2401.17505
우리는 시간 방향성의 각도를 통해 자기 회귀 대규모 언어 모델(LLM)이 수행한 확률적 모델링을 연구하여 (Shannon, 1951)에서 처음 제기된 문제를 다룹니다. 충분히 큰 모델의 경우 자연어를 학습하는 능력에 시간적 비대칭성이 있음을 경험적으로 발견했습니다. 다음 토큰을 예측하려고 할 때와 이전 토큰을 예측하려고 할 때의 평균 로그 복잡도 차이입니다. 이 차이는 다양한 모달리티(언어, 모델 크기, 학습 시간 등)에서 동시에 미묘하고 매우 일관적입니다. 이론적으로 이는 놀라운 일입니다. 정보 이론적 관점에서 볼 때 그러한 차이가 없어야 합니다. 우리는 희소성과 계산 복잡도 고려 사항에서 이러한 비대칭성이 어떻게 나타날 수 있는지 설명하는 이론적 프레임워크를 제공하고 결과에 의해 열린 여러 관점을 설명합니다.
우리는 시간 방향성의 각도를 통해 자기 회귀 대규모 언어 모델(LLM)이 수행한 확률적 모델링을 연구하여 (Shannon, 1951)에서 처음 제기된 문제를 다룹니다. 충분히 큰 모델의 경우 자연어를 학습하는 능력에 시간적 비대칭성이 있음을 경험적으로 발견했습니다. 다음 토큰을 예측하려고 할 때와 이전 토큰을 예측하려고 할 때의 평균 로그 복잡도 차이입니다. 이 차이는 다양한 모달리티(언어, 모델 크기, 학습 시간 등)에서 동시에 미묘하고 매우 일관적입니다. 이론적으로 이는 놀라운 일입니다. 정보 이론적 관점에서 볼 때 그러한 차이가 없어야 합니다. 우리는 희소성과 계산 복잡도 고려 사항에서 이러한 비대칭성이 어떻게 나타날 수 있는지 설명하는 이론적 프레임워크를 제공하고 결과에 의해 열린 여러 관점을 설명합니다.
전체 0