최신논문
PaliGemma: transfer를 위한 다재다능한 3B VLM
작성자
작성일
2024-07-11 12:08
조회
537
https://arxiv.org/abs/2407.07726
PaliGemma는 SigLIP-So400m 비전 인코더와 Gemma-2B 언어 모델을 기반으로 하는 개방형 비전 언어 모델(VLM)입니다. 효과적으로 전송할 수 있는 다재다능하고 광범위한 지식을 갖춘 기본 모델로 훈련되었습니다. 다양한 오픈 월드 작업에서 강력한 성능을 달성합니다. 표준 VLM 벤치마크를 포함한 약 40개의 다양한 작업에서 PaliGemma를 평가하지만 원격 감지 및 세분화와 같은 보다 전문화된 작업도 평가합니다.
PaliGemma는 SigLIP-So400m 비전 인코더와 Gemma-2B 언어 모델을 기반으로 하는 개방형 비전 언어 모델(VLM)입니다. 효과적으로 전송할 수 있는 다재다능하고 광범위한 지식을 갖춘 기본 모델로 훈련되었습니다. 다양한 오픈 월드 작업에서 강력한 성능을 달성합니다. 표준 VLM 벤치마크를 포함한 약 40개의 다양한 작업에서 PaliGemma를 평가하지만 원격 감지 및 세분화와 같은 보다 전문화된 작업도 평가합니다.
전체 0