최신논문

트랜스포머가 경사 하강을 통해 인과 구조를 학습하는 방법

작성자
dd
작성일
2024-07-04 01:07
조회
330
https://arxiv.org/abs/2402.14735

시퀀스 모델링 작업에서 변환기의 놀라운 성공은 주로 시퀀스의 다른 부분 간에 정보를 전송할 수 있게 해주는 셀프 어텐션 메커니즘에 기인할 수 있습니다. 셀프 어텐션은 변환기가 인과 구조를 인코딩할 수 있게 해주므로 시퀀스 모델링에 특히 적합합니다. 그러나 변환기가 기울기 기반 학습 알고리즘을 통해 이러한 인과 구조를 학습하는 프로세스는 여전히 잘 이해되지 않았습니다. 이 프로세스를 더 잘 이해하기 위해 잠재 인과 구조를 학습해야 하는 컨텍스트 내 학습 작업을 소개합니다. 단순화된 2계층 변환기의 기울기 하강은 첫 번째 어텐션 계층에서 잠재 인과 그래프를 인코딩하여 이 작업을 해결하는 방법을 학습한다는 것을 증명합니다. 이 증명의 핵심 통찰력은 어텐션 행렬의 기울기가 토큰 간의 상호 정보를 인코딩한다는 것입니다. 데이터 처리 불평등의 결과로 이 기울기의 가장 큰 항목은 잠재 인과 그래프의 에지에 해당합니다. 특별한 경우로, 시퀀스가 ​​맥락 내 마르코프 체인에서 생성될 때, 우리는 변압기가 유도 헤드를 학습한다는 것을 증명합니다(Olsson et al., 2022). 우리는 맥락 내 학습 과제에서 훈련된 변압기가 광범위한 인과 구조를 복구할 수 있다는 것을 보여줌으로써 이론적 결과를 확인합니다.
전체 0