최신논문
1비트 LLM 시대: 모든 대규모 언어 모델은 1.58비트입니다.
작성자
dd
작성일
2024-07-04 01:20
조회
370
https://arxiv.org/abs/2402.17764
BitNet과 같은 최근의 연구는 1비트 대규모 언어 모델(LLM)의 새로운 시대를 여는 길을 열고 있습니다. 이 작업에서 우리는 LLM의 모든 단일 매개변수(또는 가중치)가 3진수 {-1, 0, 1}인 1비트 LLM 변형인 BitNet b1.58을 소개합니다. 이는 동일한 모델 크기와 훈련 토큰을 사용하여 복잡도와 최종 작업 성능 측면에서 전체 정밀도(즉, FP16 또는 BF16) Transformer LLM과 일치하면서 대기 시간, 메모리, 처리량 및 에너지 소비 측면에서 상당히 비용 효율적입니다. 더욱 심오하게도 1.58비트 LLM은 고성능과 비용 효율적인 차세대 LLM을 훈련하기 위한 새로운 스케일링 법칙과 레시피를 정의합니다. 나아가 새로운 계산 패러다임을 가능하게 하고 1비트 LLM에 최적화된 특정 하드웨어를 설계할 수 있는 문을 열어줍니다.
BitNet과 같은 최근의 연구는 1비트 대규모 언어 모델(LLM)의 새로운 시대를 여는 길을 열고 있습니다. 이 작업에서 우리는 LLM의 모든 단일 매개변수(또는 가중치)가 3진수 {-1, 0, 1}인 1비트 LLM 변형인 BitNet b1.58을 소개합니다. 이는 동일한 모델 크기와 훈련 토큰을 사용하여 복잡도와 최종 작업 성능 측면에서 전체 정밀도(즉, FP16 또는 BF16) Transformer LLM과 일치하면서 대기 시간, 메모리, 처리량 및 에너지 소비 측면에서 상당히 비용 효율적입니다. 더욱 심오하게도 1.58비트 LLM은 고성능과 비용 효율적인 차세대 LLM을 훈련하기 위한 새로운 스케일링 법칙과 레시피를 정의합니다. 나아가 새로운 계산 패러다임을 가능하게 하고 1비트 LLM에 최적화된 특정 하드웨어를 설계할 수 있는 문을 열어줍니다.
전체 0