최신논문
LLM이 새로운 연구 아이디어를 생성할 수 있을까? 100명 이상의 NLP 연구자가 참여한 대규모 인간 연구
작성자
작성일
2024-09-10 13:39
조회
548
AI 연구를 자동화하는 것은 흥미진진합니다! 하지만 LLM이 실제로 새롭고 전문가 수준의 연구 아이디어를 만들어낼 수 있을까요?
1년간의 연구 끝에 우리는 통계적으로 유의미한 첫 번째 결론을 얻었습니다. LLM에서 생성된 아이디어는 전문 인간 연구자가 쓴 아이디어보다 더 참신하다는 것입니다.
--
대규모 언어 모델(LLM)의 최근 발전은 과학적 발견을 가속화할 수 있는 잠재력에 대한 낙관론을 불러일으켰으며, 점점 더 많은 연구에서 새로운 아이디어를 자율적으로 생성하고 검증하는 연구 에이전트를 제안하고 있습니다. 그럼에도 불구하고 LLM 시스템이 새로운 전문가 수준의 아이디어를 생성하는 첫 번째 단계를 밟을 수 있다는 것을 보여주는 평가는 없으며, 전체 연구 프로세스를 수행할 수는 더더욱 없습니다. 우리는 교란 요인을 통제하면서 연구 아이디어 생성을 평가하고 전문 NLP 연구자와 LLM 아이디어 에이전트 간의 첫 번째 직접 비교를 수행하는 실험 설계를 수립하여 이를 해결합니다. 100명 이상의 NLP 연구자를 모집하여 LLM과 인간 아이디어에 대한 새로운 아이디어와 맹검 리뷰를 작성함으로써 연구 아이디어에 대한 현재 LLM 역량에 대한 첫 번째 통계적으로 유의미한 결론을 얻었습니다. LLM에서 생성된 아이디어는 인간 전문가 아이디어보다 더 참신하다고 판단되지만(p < 0.05) 실현 가능성에 대해서는 약간 약하다고 판단됩니다. 에이전트 기준선을 면밀히 연구하면서, LLM 자체 평가의 실패와 세대의 다양성 부족을 포함하여 연구 에이전트를 구축하고 평가하는 데 있어 미해결 문제를 파악했습니다. 마지막으로, 전문가조차도 참신성에 대한 인간의 판단이 어려울 수 있음을 인정하고, 연구자들이 이러한 아이디어를 전체 프로젝트로 실행하도록 모집하는 종단 간 연구 설계를 제안하여 이러한 참신성과 실행 가능성 판단이 연구 결과에 의미 있는 차이를 가져오는지 연구할 수 있도록 합니다.
전체 0