최신논문

일반 파운데이 모델이 특수 목적 튜닝을 능가할 수 있을까? 의학 사례 연구

작성자
admin
작성일
2024-07-03 20:39
조회
303
https://arxiv.org/abs/2311.16452

GPT-4와 같은 일반주의 기초 모델은 광범위한 도메인과 작업에서 놀라운 역량을 보여주었습니다. 그러나 미세 조정된 모델의 전문가 역량과 맞먹을 수 없다는 일반적인 가정이 있습니다. 예를 들어, 지금까지 의료 역량 벤치마크에 대한 대부분의 탐색은 BioGPT 및 Med-PaLM에 대한 노력에서 예시된 것처럼 도메인별 교육을 활용했습니다. 우리는 특수 교육이 없는 의료 과제 벤치마크에서 GPT-4의 역량에 대한 이전 연구를 기반으로 합니다. 모델의 기본 기능을 강조하기 위해 간단한 프롬프트를 사용하는 대신 프롬프트 엔지니어링에 대한 체계적인 탐색을 수행합니다. 우리는 프롬프트 혁신이 더 깊은 전문가 역량을 해제할 수 있음을 발견하고 GPT-4가 의료 벤치마크에 대한 이전의 주요 결과를 쉽게 능가한다는 것을 보여줍니다. 우리가 탐색하는 프롬프트 방법은 일반적인 목적이며 도메인 전문 지식을 특별히 사용하지 않으므로 전문가가 큐레이팅한 콘텐츠가 필요 없습니다. 우리의 실험 설계는 프롬프트 엔지니어링 프로세스 중에 과적합을 신중하게 제어합니다. 우리는 여러 프롬프트 전략의 구성을 기반으로 Medprompt를 소개합니다. Medprompt를 통해 GPT-4는 MultiMedQA 제품군의 모든 9개 벤치마크 데이터세트에서 최첨단 결과를 달성합니다. 이 방법은 Med-PaLM 2와 같은 선도적인 전문가 모델보다 상당한 마진으로 성능이 뛰어나며 모델에 대한 호출이 10배 적습니다. Medprompt로 GPT-4를 조종하면 전문가 모델로 달성한 지금까지의 가장 좋은 방법보다 MedQA 데이터세트에서 오류율이 27% 감소하고 처음으로 90%를 넘어섭니다. 의학적 문제를 넘어 Medprompt가 다른 도메인으로 일반화할 수 있는 힘을 보여주고 전기 공학, 머신 러닝, 철학, 회계, 법률, 간호 및 임상 심리학 시험에 대한 전략 연구를 통해 접근 방식의 광범위한 적용 가능성에 대한 증거를 제공합니다.
전체 0