최신논문

MMMU: 전문가 AGI를 위한 대규모 다분야 멀티모 이해 및 추론

작성자
작성일
2024-07-03 20:38
조회
551
https://arxiv.org/abs/2311.16502

MMMU를 소개합니다. 대학 수준의 주제 지식과 의도적인 추론을 요구하는 방대한 다학제 과제에서 멀티모달 모델을 평가하도록 설계된 새로운 벤치마크입니다. MMMU에는 예술 및 디자인, 경영, 과학, 건강 및 의학, 인문학 및 사회 과학, 기술 및 공학의 6개 핵심 분야를 포괄하는 대학 시험, 퀴즈 및 교과서에서 꼼꼼하게 수집한 11.5K개의 멀티모달 문제가 포함되어 있습니다. 이러한 문제는 30개 과목과 183개 하위 분야에 걸쳐 있으며 차트, 다이어그램, 지도, 표, 악보 및 화학 구조와 같은 30개의 매우 이질적인 이미지 유형을 포함합니다. 기존 벤치마크와 달리 MMMU는 도메인별 지식을 통한 고급 인식 및 추론에 중점을 두고 모델이 전문가가 직면한 것과 유사한 작업을 수행하도록 도전합니다. 14개의 오픈소스 LMM과 독점적인 GPT-4V(ision) 및 Gemini의 평가는 MMMU가 제기한 상당한 과제를 강조합니다. 고급 GPT-4V와 Gemini Ultra조차도 각각 56%와 59%의 정확도를 달성하여 상당한 개선 여지가 있음을 시사합니다. 우리는 MMMU가 커뮤니티가 전문가 인공 일반 지능을 향한 차세대 멀티모달 기반 모델을 구축하도록 자극할 것이라고 믿습니다.
전체 0