최신논문
(2023년 9월) Transformers에서 메사 최적화 알고리즘 발견
작성자
admin
작성일
2024-06-25 14:45
조회
330

https://arxiv.org/abs/2309.05858
Transformer는 딥러닝에서 지배적인 모델이 되었지만, 그 뛰어난 성능에 대한 이유는 잘 알려져 있지 않습니다. 여기서 우리는 Transformers의 강력한 성능이 다음 두 단계로 구성된 모델의 순방향 전달 내에서 실행되는 학습된 프로세스인 메사 최적화에 대한 아키텍처적 편향에서 비롯된다는 가설을 세웁니다. (i) 내부 학습 목표 구성 및 (ii) 최적화를 통해 찾은 해당 솔루션. 이 가설을 테스트하기 위해 우리는 간단한 시퀀스 모델링 작업에 대해 훈련된 일련의 자동 회귀 변환기를 리버스 엔지니어링하여 예측 생성을 주도하는 기본 그래디언트 기반 메사 최적화 알고리즘을 찾아냅니다. 또한, 우리는 학습된 정방향 통과 최적화 알고리즘이 감독된 소수 작업을 해결하기 위해 즉시 용도가 변경될 수 있음을 보여 주므로 메사 최적화가 대규모 언어 모델의 상황 내 학습 기능의 기초가 될 수 있음을 시사합니다. 마지막으로 우리는 컨텍스트에 지정된 최적화 문제를 명시적이고 효율적으로 해결하는 새로운 self-attention 레이어인 메사 레이어를 제안합니다. 우리는 이 레이어가 합성 및 예비 언어 모델링 실험에서 향상된 성능으로 이어질 수 있음을 발견하여 메사 최적화가 훈련된 Transformer의 가중치 내에 숨겨진 중요한 작업이라는 가설에 가중치를 추가합니다.
전체 0