최신논문

(2023년 8월) 트랜스포머 아키텍처를 위한 구성 가능한 기능 보존 확장

작성자
작성일
2024-06-25 14:10
조회
351
https://arxiv.org/abs/2308.06103

최첨단 신경망을 교육하려면 컴퓨팅 및 시간 측면에서 높은 비용이 필요합니다. 모델 스케일은 최신 기술을 달성하고 개선하는 데 중요한 요소로 인식됩니다. 신경망의 규모를 늘리려면 일반적으로 모델의 모든 매개변수를 무작위로 초기화하여 처음부터 다시 시작해야 합니다. 이는 더 작은 크기의 모델에서 지식을 직접 전달할 수 없는 아키텍처 매개변수의 변경을 의미하기 때문입니다. 이 작업에서는 기능을 유지하면서 변환기 기반 신경망의 크기를 점진적으로 늘리고 필요에 따라 모델의 용량을 확장할 수 있는 6개의 구성 가능한 변환을 제안합니다. 우리는 각 변환에 대해 최소한의 초기화 제약 조건 하에서 정확한 기능 보존의 증거를 제공합니다.

전체 0