최신논문
MARS: 대규모 모델 훈련을 위한 분산 감소의 힘 활용
작성자
하이룽룽
작성일
2024-12-01 10:51
조회
309
https://arxiv.org/abs/2411.10438
https://github.com/AGI-Arena/MARS?tab=readme-ov-file
심층 신경망(그리고 최근에는 대규모 모델)을 훈련하려면 효율적이고 확장 가능한 최적화기가 필요합니다. Adam, AdamW 및 그 변형과 같은 적응형 그래디언트 알고리즘은 이 작업의 핵심이었습니다. 지난 10년 동안 볼록 및 비볼록 설정 모두에서 확률적 최적화를 가속화하는 것을 목표로 하는 수많은 분산 감소 알고리즘이 개발되었지만, 분산 감소는 심층 신경망이나 대규모 언어 모델을 훈련하는 데 널리 성공하지 못했습니다. 결과적으로 현대 AI에서 덜 선호되는 접근 방식으로 남아 있습니다. 이 논문에서는 대규모 모델을 효율적으로 훈련하기 위해 분산 감소의 힘을 발휘하기 위해 확장된 확률적 재귀 모멘텀 기술을 통해 사전 조건화된 그래디언트 방법과 분산 감소를 조화시키는 통합 최적화 프레임워크인 MARS(Make vAriance Reduction Shine)를 제안합니다. 프레임워크 내에서 각각 AdamW, Lion 및 Shampoo를 기반으로 하는 사전 조건화된 그래디언트 업데이트를 활용하는 MARS의 세 가지 인스턴스를 소개합니다. 또한 알고리즘과 기존 최적화기 간의 연결을 그립니다. GPT-2 모델을 훈련하는 실험 결과에 따르면 MARS는 꾸준히 AdamW보다 큰 폭으로 우수한 성능을 발휘하는 것으로 나타났습니다.
https://github.com/AGI-Arena/MARS?tab=readme-ov-file
심층 신경망(그리고 최근에는 대규모 모델)을 훈련하려면 효율적이고 확장 가능한 최적화기가 필요합니다. Adam, AdamW 및 그 변형과 같은 적응형 그래디언트 알고리즘은 이 작업의 핵심이었습니다. 지난 10년 동안 볼록 및 비볼록 설정 모두에서 확률적 최적화를 가속화하는 것을 목표로 하는 수많은 분산 감소 알고리즘이 개발되었지만, 분산 감소는 심층 신경망이나 대규모 언어 모델을 훈련하는 데 널리 성공하지 못했습니다. 결과적으로 현대 AI에서 덜 선호되는 접근 방식으로 남아 있습니다. 이 논문에서는 대규모 모델을 효율적으로 훈련하기 위해 분산 감소의 힘을 발휘하기 위해 확장된 확률적 재귀 모멘텀 기술을 통해 사전 조건화된 그래디언트 방법과 분산 감소를 조화시키는 통합 최적화 프레임워크인 MARS(Make vAriance Reduction Shine)를 제안합니다. 프레임워크 내에서 각각 AdamW, Lion 및 Shampoo를 기반으로 하는 사전 조건화된 그래디언트 업데이트를 활용하는 MARS의 세 가지 인스턴스를 소개합니다. 또한 알고리즘과 기존 최적화기 간의 연결을 그립니다. GPT-2 모델을 훈련하는 실험 결과에 따르면 MARS는 꾸준히 AdamW보다 큰 폭으로 우수한 성능을 발휘하는 것으로 나타났습니다.
전체 0