최신논문
(2023년 7월) No Train No Gain
작성자
admin
작성일
2024-06-25 11:52
조회
411

Transformer 기반 언어 모델을 훈련하는 데 필요한 계산량이 최근 몇 년 동안 급증했습니다. 이러한 추세는 표준 훈련보다 더 빠르게 훈련, 검증 및 다운스트림 성능을 향상시키도록 설계된 효율적인 훈련 알고리즘에 대한 연구에 동기를 부여했습니다. 이 작업에서는 이러한 알고리즘의 세 가지 범주인 동적 아키텍처(레이어 스태킹, 레이어 삭제), 배치 선택(선택적 역전파, RHO 손실) 및 효율적인 최적화 프로그램(Lion, Sophia)을 다시 살펴봅니다. 이러한 방법을 사용하여 고정된 계산 예산으로 BERT 및 T5를 사전 훈련할 때 학습 속도가 완전히 저하된 기준선에 비해 훈련, 검증 및 다운스트림 이득이 사라지는 것을 발견했습니다. 우리는 모든 계산 시간을 참조 시스템 시간이라고 하는 참조 시스템에 매핑하여 임의의 시스템에서 계산을 수행할 수 있도록 하는 평가 프로토콜을 정의합니다. 우리는 제안된 프로토콜의 한계에 대해 논의하고 효율적인 훈련 절차에 대한 엄격한 연구를 장려하기 위해 코드를 공개합니다
https://arxiv.org/abs/2307.06440
https://github.com/JeanKaddour/NoTrainNoGain
전체 0