최신논문
(2023년 9월) Gated RNN에서 어텐션 기능 발견
작성자
작성일
2024-06-25 14:33
조회
358
https://arxiv.org/abs/2309.01775
최근 아키텍처 개발을 통해 순환 신경망(RNN)이 특정 시퀀스 모델링 작업에서 Transformer의 성능에 도달하거나 심지어 능가할 수 있게 되었습니다. 이러한 최신 RNN은 곱셈 게이팅을 사용하는 피드포워드 경로로 상호 연결된 선형 순환 레이어라는 눈에 띄는 디자인 패턴을 특징으로 합니다. 여기서는 이 두 가지 디자인 요소를 갖춘 RNN이 Transformer의 주요 구성 요소인 셀프 어텐션(선형)을 정확하게 구현할 수 있는 방법을 보여줍니다. 훈련된 RNN 세트를 리버스 엔지니어링함으로써 실제로 경사하강법이 우리의 구성을 발견한다는 것을 알 수 있습니다. 특히, Transformers가 탁월한 것으로 알려진 간단한 상황 내 학습 작업을 해결하도록 훈련된 RNN을 조사하고 경사하강법이 Transformers에서 사용하는 것과 동일한 주의 기반 상황 내 학습 알고리즘을 RNN에 주입한다는 것을 발견했습니다. 우리의 연구 결과는 신경망에서 곱셈 상호 작용의 중요성을 강조하고 특정 RNN이 예기치 않게 내부적으로 주의를 구현할 수 있음을 시사합니다.
최근 아키텍처 개발을 통해 순환 신경망(RNN)이 특정 시퀀스 모델링 작업에서 Transformer의 성능에 도달하거나 심지어 능가할 수 있게 되었습니다. 이러한 최신 RNN은 곱셈 게이팅을 사용하는 피드포워드 경로로 상호 연결된 선형 순환 레이어라는 눈에 띄는 디자인 패턴을 특징으로 합니다. 여기서는 이 두 가지 디자인 요소를 갖춘 RNN이 Transformer의 주요 구성 요소인 셀프 어텐션(선형)을 정확하게 구현할 수 있는 방법을 보여줍니다. 훈련된 RNN 세트를 리버스 엔지니어링함으로써 실제로 경사하강법이 우리의 구성을 발견한다는 것을 알 수 있습니다. 특히, Transformers가 탁월한 것으로 알려진 간단한 상황 내 학습 작업을 해결하도록 훈련된 RNN을 조사하고 경사하강법이 Transformers에서 사용하는 것과 동일한 주의 기반 상황 내 학습 알고리즘을 RNN에 주입한다는 것을 발견했습니다. 우리의 연구 결과는 신경망에서 곱셈 상호 작용의 중요성을 강조하고 특정 RNN이 예기치 않게 내부적으로 주의를 구현할 수 있음을 시사합니다.
전체 0