최신논문
초월: 생성모델은 이를 교육하는 전문가보다 성능이 뛰어날 수 있습니다.
작성자
dd
작성일
2024-07-04 12:26
조회
584
https://arxiv.org/abs/2406.11741
생성모델은 훈련된 데이터에 의해 유도된 조건부 확률 분포를 모방한다는 단순한 목적으로 훈련됩니다. 따라서 인간이 생성한 데이터를 학습할 때 인공 모델이 원래 목표에 비해 인간보다 뛰어난 성능을 발휘할 것이라고 기대할 수는 없습니다.
이 연구에서 우리는 초월 현상, 즉 생성 모델이 데이터를 생성하는 전문가의 능력을 능가하는 능력을 달성하는 경우를 연구합니다. 우리는 게임 기록에서 체스를 두도록 자동회귀 변환기를 훈련함으로써 초월성을 입증하고, 훈련된 모델이 때때로 데이터 세트의 모든 플레이어보다 더 나은 성능을 달성할 수 있음을 보여줍니다.
우리는 저온 샘플링을 통해 초월이 가능하다는 것을 이론적으로 증명하고 이를 실험적으로 엄격하게 평가합니다.
마지막으로, 우리는 더 넓은 환경에서 이 현상에 대한 향후 조사를 위한 토대를 마련하면서 초월의 다른 원천에 대해 논의합니다.
생성모델은 훈련된 데이터에 의해 유도된 조건부 확률 분포를 모방한다는 단순한 목적으로 훈련됩니다. 따라서 인간이 생성한 데이터를 학습할 때 인공 모델이 원래 목표에 비해 인간보다 뛰어난 성능을 발휘할 것이라고 기대할 수는 없습니다.
이 연구에서 우리는 초월 현상, 즉 생성 모델이 데이터를 생성하는 전문가의 능력을 능가하는 능력을 달성하는 경우를 연구합니다. 우리는 게임 기록에서 체스를 두도록 자동회귀 변환기를 훈련함으로써 초월성을 입증하고, 훈련된 모델이 때때로 데이터 세트의 모든 플레이어보다 더 나은 성능을 달성할 수 있음을 보여줍니다.
우리는 저온 샘플링을 통해 초월이 가능하다는 것을 이론적으로 증명하고 이를 실험적으로 엄격하게 평가합니다.
마지막으로, 우리는 더 넓은 환경에서 이 현상에 대한 향후 조사를 위한 토대를 마련하면서 초월의 다른 원천에 대해 논의합니다.
전체 0