최신논문

Windows Agent Arena: 대규모 멀티모달 OS 에이전트 평가

작성자
하이룽룽
작성일
2024-09-14 11:14
조회
488
https://arxiv.org/abs/2409.08264

https://microsoft.github.io/WindowsAgentArena/

대규모 언어 모델(LLM)은 컴퓨터 에이전트 역할을 하여 계획 및 추론이 필요한 다중 모드 작업에서 인간 생산성과 소프트웨어 접근성을 향상시킬 수 있는 놀라운 잠재력을 보여줍니다. 그러나 현실적인 환경에서 에이전트 성능을 측정하는 것은 다음과 같은 이유로 여전히 어려운 일입니다.

(i) 대부분의 벤치마크는 특정 모달리티 또는 도메인(예: 텍스트 전용, 웹 탐색, Q&A, 코딩)으로 제한되고

(ii) 작업의 다단계 순차적 특성을 감안할 때 전체 벤치마크 평가가 느립니다(며칠 단위로).

이러한 과제를 해결하기 위해 Windows Agent Arena를 소개합니다. Windows 운영 체제(OS)에만 초점을 맞춘 재현 가능한 일반 환경으로, 에이전트가 실제 Windows OS 내에서 자유롭게 작동하고 작업을 해결할 때 인간 사용자에게 제공되는 광범위한 애플리케이션, 도구 및 웹 브라우저를 사용할 수 있습니다. OSWorld 프레임워크(Xie et al., 2024)를 적용하여 계획, 화면 이해 및 도구 사용에 대한 에이전트 능력이 필요한 대표적인 도메인에서 150개 이상의 다양한 Windows 작업을 만듭니다. 저희 벤치마크는 확장 가능하며 Azure에서 원활하게 병렬화하여 단 20분 만에 전체 벤치마크 평가를 수행할 수 있습니다. Windows Agent Arena의 기능을 보여주기 위해 새로운 멀티모달 에이전트인 Navi도 소개합니다. 저희 에이전트는 Windows 도메인에서 19.5%의 성공률을 달성하는 반면, 비도움 인간의 성과는 74.5%입니다. Navi는 또 다른 인기 있는 웹 기반 벤치마크인 Mind2Web에서도 강력한 성과를 보여줍니다. 저희는 Navi의 성과에 대한 광범위한 정량적 및 정성적 분석을 제공하고 Windows Agent Arena를 사용한 에이전트 개발 및 데이터 생성에 대한 미래 연구 기회에 대한 통찰력을 제공합니다.
전체 0