최신논문

MMMU-Pro: 더욱 강력한 다학제 멀티모달 이해 벤치마크

작성자
하이룽룽
작성일
2024-09-05 12:27
조회
913
https://mmmu-benchmark.github.io/

https://arxiv.org/abs/2409.02813

이 논문에서는 Massive Multi-discipline Multimodal Understanding and Reasoning(MMMU) 벤치마크의 강력한 버전인 MMMU-Pro를 소개합니다. MMMU-Pro는 MMMU를 기반으로 하는 3단계 프로세스를 통해 멀티모달 모델의 진정한 이해 및 추론 기능을 엄격하게 평가합니다.

(1) 텍스트 전용 모델에서 답변할 수 있는 질문 필터링,
(2) 후보 옵션 증강,
(3) 질문이 이미지 내에 포함된 시각 전용 입력 설정 도입.

이 설정은 AI가 진정으로 동시에 "보고" "읽는" 데 도전하여 시각적 정보와 텍스트 정보를 원활하게 통합하는 기본적인 인간의 인지 기술을 테스트합니다. 결과에 따르면 모델 성능은 MMMU-Pro에서 MMMU보다 상당히 낮으며 모델 전체에서 16.8%~26.9% 범위입니다. OCR 프롬프트와 Chain of Thought(CoT) 추론의 영향을 살펴보고 OCR 프롬프트는 효과가 미미한 반면 CoT는 일반적으로 성능을 개선한다는 것을 발견했습니다. MMMU-Pro는 실제 시나리오를 면밀히 모방하여 더욱 엄격한 평가 도구를 제공하고 멀티모달 AI 분야의 미래 연구에 대한 귀중한 방향을 제시합니다.

전체 0