최신논문
MMMU: 전문가 AGI를 위한 대규모 다분야 멀티모 이해 및 추론
작성자
작성일
2024-07-03 20:38
조회
551
https://arxiv.org/abs/2311.16502
MMMU를 소개합니다. 대학 수준의 주제 지식과 의도적인 추론을 요구하는 방대한 다학제 과제에서 멀티모달 모델을 평가하도록 설계된 새로운 벤치마크입니다. MMMU에는 예술 및 디자인, 경영, 과학, 건강 및 의학, 인문학 및 사회 과학, 기술 및 공학의 6개 핵심 분야를 포괄하는 대학 시험, 퀴즈 및 교과서에서 꼼꼼하게 수집한 11.5K개의 멀티모달 문제가 포함되어 있습니다. 이러한 문제는 30개 과목과 183개 하위 분야에 걸쳐 있으며 차트, 다이어그램, 지도, 표, 악보 및 화학 구조와 같은 30개의 매우 이질적인 이미지 유형을 포함합니다. 기존 벤치마크와 달리 MMMU는 도메인별 지식을 통한 고급 인식 및 추론에 중점을 두고 모델이 전문가가 직면한 것과 유사한 작업을 수행하도록 도전합니다. 14개의 오픈소스 LMM과 독점적인 GPT-4V(ision) 및 Gemini의 평가는 MMMU가 제기한 상당한 과제를 강조합니다. 고급 GPT-4V와 Gemini Ultra조차도 각각 56%와 59%의 정확도를 달성하여 상당한 개선 여지가 있음을 시사합니다. 우리는 MMMU가 커뮤니티가 전문가 인공 일반 지능을 향한 차세대 멀티모달 기반 모델을 구축하도록 자극할 것이라고 믿습니다.
MMMU를 소개합니다. 대학 수준의 주제 지식과 의도적인 추론을 요구하는 방대한 다학제 과제에서 멀티모달 모델을 평가하도록 설계된 새로운 벤치마크입니다. MMMU에는 예술 및 디자인, 경영, 과학, 건강 및 의학, 인문학 및 사회 과학, 기술 및 공학의 6개 핵심 분야를 포괄하는 대학 시험, 퀴즈 및 교과서에서 꼼꼼하게 수집한 11.5K개의 멀티모달 문제가 포함되어 있습니다. 이러한 문제는 30개 과목과 183개 하위 분야에 걸쳐 있으며 차트, 다이어그램, 지도, 표, 악보 및 화학 구조와 같은 30개의 매우 이질적인 이미지 유형을 포함합니다. 기존 벤치마크와 달리 MMMU는 도메인별 지식을 통한 고급 인식 및 추론에 중점을 두고 모델이 전문가가 직면한 것과 유사한 작업을 수행하도록 도전합니다. 14개의 오픈소스 LMM과 독점적인 GPT-4V(ision) 및 Gemini의 평가는 MMMU가 제기한 상당한 과제를 강조합니다. 고급 GPT-4V와 Gemini Ultra조차도 각각 56%와 59%의 정확도를 달성하여 상당한 개선 여지가 있음을 시사합니다. 우리는 MMMU가 커뮤니티가 전문가 인공 일반 지능을 향한 차세대 멀티모달 기반 모델을 구축하도록 자극할 것이라고 믿습니다.
전체 0