최신논문

확산 변압기의 스케일링 법칙

작성자
하이룽룽
작성일
2024-10-11 12:12
조회
477
https://arxiv.org/abs/2410.08184

 

확산 변환기(DiT)는 이미 이미지 및 비디오 생성과 같은 콘텐츠 재생에서 매력적인 합성 및 스케일링 속성을 달성했습니다. 그러나 DiT의 스케일링 법칙은 덜 탐구되었으며, 일반적으로 특정 컴퓨팅 예산을 감안할 때 최적 모델 크기와 데이터 요구 사항에 대한 정확한 예측을 제공합니다. 따라서 1e17에서 6e18 FLOPs에 이르는 광범위한 컴퓨팅 예산에 대한 실험을 수행하여 DiT에서 스케일링 법칙의 존재를 처음으로 확인했습니다. 구체적으로 사전 학습 DiT의 손실은 관련 컴퓨팅과 거듭제곱 법칙 관계를 따릅니다. 스케일링 법칙에 따라 최적의 모델 크기와 필요한 데이터를 결정할 수 있을 뿐만 아니라 1B 매개변수와 1e21 FLOPs의 컴퓨팅 예산이 있는 모델이 주어진 경우 텍스트-이미지 생성 손실을 정확하게 예측할 수도 있습니다. 또한 사전 학습 손실의 추세가 다양한 데이터 세트에서도 생성 성능(예: FID)과 일치함을 보여주며, 이는 컴퓨팅에서 합성 품질로의 매핑을 보완하여 모델 성능과 데이터 품질을 절감된 비용으로 평가하는 예측 가능한 벤치마크를 제공합니다.
전체 0