최신논문

모델 자체 탐색을 통한 자동화된 기능 발견

작성자
작성일
2025-02-12 20:17
조회
275
https://arxiv.org/abs/2502.07577

https://github.com/conglu1997/ACD

기초 모델은 웹 규모 데이터에 대한 학습을 ​​통해 다양한 도메인에서 다양한 역량을 보여주는 범용 보조 도구가 되었습니다. 새로운 모델에서 전체 역량 스펙트럼의 일부와 잠재적 위험만 정확하게 특성화하는 것은 여전히 ​​어려운 일입니다. 기존 평가 방법은 종종 상당한 인적 노력이 필요하며, 더 많은 역량을 갖춘 모델을 위해 점점 더 어려운 과제를 설계하는 데 점점 더 많은 노력이 필요합니다. 우리는 한 기초 모델을 과학자로 지정하여 주제 모델(잠재적으로 자체 모델)의 역량을 조사하는 개방형 작업을 체계적으로 제안하는 프레임워크인 자동 역량 발견(ACD)을 소개합니다. ACD는 프런티어 모델과 개방성 분야의 아이디어를 결합하여 주제 모델에서 놀라운 역량과 실패를 자동으로 체계적으로 발견합니다. 우리는 다양한 기초 모델(GPT, Claude, Llama 시리즈 포함)에서 ACD를 시연하여 단일 팀이 발견하기 어려울 수 있는 수천 개의 역량을 자동으로 발견한다는 것을 보여줍니다. 우리는 광범위한 인간 설문 조사를 통해 방법의 자동 채점을 더욱 검증하여 모델에서 생성된 평가와 인간 평가 간에 높은 일치도를 관찰합니다. ACD는 작업을 생성하고 자체 평가하는 기반 모델의 기능을 활용하여 새로운 AI 시스템의 확장 가능하고 자동화된 평가를 향한 중요한 단계입니다. 모든 코드와 평가 로그는 이 https URL 에서 오픈 소스로 제공됩니다 .
전체 0