최신논문

(2023년 9월) 자동회귀 다음 토큰 예측자는 범용 학습기입니다.

작성자
작성일
2024-06-26 15:09
조회
410
https://arxiv.org/abs/2309.06979

1) 큰 언어 모델들은 로지컬하고 수학적인 추론에서 뛰어난 능력을 보이며, 이러한 능력은 다음 토큰 예측 작업에서 학습된 네트워크에서 나타납니다.

2) 이 연구에서는 자동 회귀 다음 토큰 예측자를 연구하기 위한 이론적 틀을 제시하며, 단순한 모델도 튜링 기계로 효과적으로 계산된 함수를 근사할 수 있음을 보여줍니다.

3) 결과적으로, 언어 모델의 능력은 큰 부분 자동 회귀 다음 토큰 훈련 체계에 기인하며, 특정 아키텍처의 선택과는 반드시 관련이 없다는 것을 보여줍니다.
전체 0