최신논문
Mobile-Agent-v2: 다중 에이전트 협업을 통한 효과적인 탐색 기능을 갖춘 모바일 장치 작동 도우미
작성자
dd
작성일
2024-07-04 11:42
조회
467
https://arxiv.org/abs/2406.01014
https://github.com/modelscope/modelscope-agent
모바일 장치 작업 작업은 점점 더 인기 있는 다중 모드 AI 애플리케이션 시나리오가 되고 있습니다. 훈련 데이터의 제약을 받는 현재의 다중 모드 대형 언어 모델(MLLM)은 운영 보조자로서 효과적으로 기능할 수 있는 능력이 부족합니다. 대신 도구 호출을 통해 기능을 향상시키는 MLLM 기반 에이전트가 이 시나리오에 점차적으로 적용되고 있습니다. 그러나 모바일 장치 작업 작업의 두 가지 주요 탐색 과제인 작업 진행 탐색 및 초점 콘텐츠 탐색은 기존 작업의 단일 에이전트 아키텍처에서 상당히 복잡합니다. 이는 지나치게 긴 토큰 시퀀스와 인터리브된 텍스트-이미지 데이터 형식으로 인해 성능이 제한되기 때문입니다. 이러한 탐색 문제를 효과적으로 해결하기 위해 우리는 모바일 장치 작동 지원을 위한 다중 에이전트 아키텍처인 Mobile-Agent-v2를 제안합니다. 아키텍처는 계획 에이전트, 의사 결정 에이전트 및 반사 에이전트의 세 가지 에이전트로 구성됩니다. 계획 에이전트는 작업 진행 상황을 생성하여 내역 작업 탐색을 더욱 효율적으로 만듭니다. 초점 내용을 유지하기 위해 작업 진행 상황에 따라 업데이트되는 메모리 장치를 설계합니다. 또한 잘못된 작업을 수정하기 위해 반사 에이전트는 각 작업의 결과를 관찰하고 그에 따라 실수를 처리합니다. 실험 결과에 따르면 Mobile-Agent-v2는 Mobile-Agent의 단일 에이전트 아키텍처에 비해 작업 완료율이 30% 이상 향상되었습니다. 코드는 https URL 에서 오픈 소스로 제공됩니다 .
https://github.com/modelscope/modelscope-agent
모바일 장치 작업 작업은 점점 더 인기 있는 다중 모드 AI 애플리케이션 시나리오가 되고 있습니다. 훈련 데이터의 제약을 받는 현재의 다중 모드 대형 언어 모델(MLLM)은 운영 보조자로서 효과적으로 기능할 수 있는 능력이 부족합니다. 대신 도구 호출을 통해 기능을 향상시키는 MLLM 기반 에이전트가 이 시나리오에 점차적으로 적용되고 있습니다. 그러나 모바일 장치 작업 작업의 두 가지 주요 탐색 과제인 작업 진행 탐색 및 초점 콘텐츠 탐색은 기존 작업의 단일 에이전트 아키텍처에서 상당히 복잡합니다. 이는 지나치게 긴 토큰 시퀀스와 인터리브된 텍스트-이미지 데이터 형식으로 인해 성능이 제한되기 때문입니다. 이러한 탐색 문제를 효과적으로 해결하기 위해 우리는 모바일 장치 작동 지원을 위한 다중 에이전트 아키텍처인 Mobile-Agent-v2를 제안합니다. 아키텍처는 계획 에이전트, 의사 결정 에이전트 및 반사 에이전트의 세 가지 에이전트로 구성됩니다. 계획 에이전트는 작업 진행 상황을 생성하여 내역 작업 탐색을 더욱 효율적으로 만듭니다. 초점 내용을 유지하기 위해 작업 진행 상황에 따라 업데이트되는 메모리 장치를 설계합니다. 또한 잘못된 작업을 수정하기 위해 반사 에이전트는 각 작업의 결과를 관찰하고 그에 따라 실수를 처리합니다. 실험 결과에 따르면 Mobile-Agent-v2는 Mobile-Agent의 단일 에이전트 아키텍처에 비해 작업 완료율이 30% 이상 향상되었습니다. 코드는 https URL 에서 오픈 소스로 제공됩니다 .
전체 0