뉴스/정보

Cerebras, 단일 CS-3 시스템에서 1조개 매개변수 모델 학습 시연

작성자
작성일
2024-12-12 09:59
조회
442




오늘 NeurIPS 2024에서 생성 AI 가속화의 선구자인 Cerebras Systems는 Sandia National Laboratories와 협력하여 획기적인 성과를 발표했습니다. 단일 CS-3 시스템에서 1조 개의 매개변수 AI 모델을 성공적으로 학습시킨 것입니다. 조 개의 매개변수 모델은 오늘날 LLM의 최첨단 기술로, 수천 개의 GPU와 수십 명의 하드웨어 전문가가 필요합니다. Cerebras의 Wafer Scale Cluster 기술을 활용하여 Sandia의 연구자들은 단일 AI 가속기에서 학습을 시작할 수 있었습니다. 이는 프런티어 모델 개발에 있어 유일무이한 성과입니다.

Sandia 연구원인 Siva Rajamanickam은 "전통적으로 이 규모의 모델을 훈련하려면 수천 개의 GPU, 상당한 인프라 복잡성, AI 인프라 전문가 팀이 필요했습니다."라고 말했습니다. "Cerebras CS-3를 사용하여 팀은 모델이나 인프라 코드를 변경하지 않고 단일 시스템에서 이 업적을 달성할 수 있었습니다. 그런 다음 모델을 16개의 CS-3 시스템으로 원활하게 확장하여 Cerebras Wafer-Scale Cluster 덕분에 대규모 AI 모델의 선형 확장성과 성능에 있어 획기적인 변화를 보여주었습니다."

Trillion 매개변수 모델은 테라바이트의 메모리가 필요합니다. 이는 단일 GPU에서 사용할 수 있는 것보다 수천 배 더 많은 메모리입니다. 단일 트레이닝 단계나 모델 실험을 실행하기 전에 수천 개의 GPU를 조달하고 연결해야 합니다. Cerebras Wafer Scale Cluster는 MemoryX라는 고유한 테라바이트 규모의 외부 메모리 장치를 사용하여 모델 가중치를 저장하므로, GPU에서 작은 모델을 훈련하는 것만큼 쉽게 Trillion 매개변수 모델을 훈련할 수 있습니다.

Sandia의 1조 개 매개변수 학습 실행을 위해 Cerebras는 55테라바이트 MemoryX 장치를 구성했습니다. 1U 서버 형식으로 상용 DDR5 메모리를 채택하여 하드웨어를 며칠 만에 조달하고 구성했습니다. AI 연구자들은 초기 학습 단계를 실행하고 손실이 개선되고 학습 역학이 안정되는 것을 관찰했습니다. 단일 시스템 실행을 완료한 후 연구자들은 코드 변경 없이 2개와 16개의 CS-3 노드로 학습을 확장했습니다. 클러스터는 16개 시스템에서 15.3배 빠른 속도로 거의 선형적인 확장을 보였습니다. 위의 내용을 달성하려면 일반적으로 수천 개의 GPU, 메가와트의 전력, 수주에 걸친 하드웨어 및 소프트웨어 구성이 필요합니다.

이 결과는 Cerebras 하드웨어의 독특한 힘과 유연성을 강조합니다. 업계에서 가장 빠른 추론 성능 외에도 Cerebras Wafer Scale 엔진은 AI 교육 및 프론티어 모델 개발을 획기적으로 단순화하여 최신 AI 모델을 교육, 미세 조정 및 추론하기 위한 완벽한 엔드투엔드 솔루션이 되었습니다.

전체 0