최신논문

바이트 레이턴트 트랜스포머 바이트의 동적 패치를 도입하고 BPE보다 더 나은 확장성을 제공

작성자
작성일
2024-12-13 13:25
조회
322


https://ai.meta.com/research/publications/byte-latent-transformer-patches-scale-better-than-tokens/

https://github.com/facebookresearch/blt

우리는 처음으로 토큰화 기반 LLM 성능을 대규모로 일치시키고 추론 효율성과 견고성을 크게 개선한 새로운 바이트 수준 LLM 아키텍처인 Byte Latent Transformer(BLT)를 소개합니다. BLT는 바이트를 동적으로 크기가 조정된 패치로 인코딩하여 주요 계산 단위로 사용합니다. 패치는 다음 바이트의 엔트로피를 기준으로 동적으로 분할되어 데이터 복잡성이 증가함에 따라 더 많은 계산 및 모델 용량이 필요한 곳에 할당됩니다. 우리는 4T 학습 바이트를 사용하여 최대 8B 매개변수의 바이트 수준 모델에 대한 최초의 플롭 제어 확장 연구를 제시합니다. 우리의 결과는 고정 어휘 없이 원시 바이트에서 학습된 모델을 확장하는 것이 가능하다는 것을 보여줍니다. 데이터가 예측 가능할 때 긴 패치를 동적으로 선택하여 학습 및 추론 효율성이 모두 향상되고 추론 및 롱테일 일반화에 대한 질적 개선이 이루어집니다. 전반적으로 고정 추론 비용의 경우 BLT는 패치와 모델 크기를 동시에 늘려 토큰화 기반 모델보다 상당히 더 나은 확장성을 보여줍니다.

 
전체 0