최신논문

Many-Shot In-Context 학습

작성자
dd
작성일
2024-07-09 11:51
조회
533
https://arxiv.org/abs/2404.11018

대규모 언어 모델(LLM)은 추론 시 맥락에서 제공된 몇 가지 예를 통해 학습하는 소수 샷 맥락 내 학습(ICL)에서 탁월합니다. 가중치 업데이트 없이 말입니다. 새로 확장된 맥락 창을 통해 수백 또는 수천 개의 예를 사용하여 ICL을 조사할 수 있습니다. 즉, 다수 샷 체제입니다. 소수 샷에서 다수 샷으로 이동하면서 다양한 생성 및 판별 작업에서 상당한 성능 향상을 관찰합니다. 유망한 다수 샷 ICL은 인간이 생성한 예제의 사용 가능한 양에 따라 병목 현상이 발생할 수 있습니다. 이러한 제한을 완화하기 위해 강화 및 비지도 ICL이라는 두 가지 새로운 설정을 살펴봅니다. 강화 ICL은 인간 예제 대신 모델에서 생성한 사고의 사슬 근거를 사용합니다. 비지도 ICL은 프롬프트에서 근거를 완전히 제거하고 도메인별 질문으로만 모델을 프롬프트합니다. 강화 및 비지도 ICL은 모두 다수 샷 체제에서 매우 효과적일 수 있으며, 특히 복잡한 추론 작업에서 효과적입니다. 마지막으로, 우리는 few-shot learning과 달리 many-shot learning이 사전 학습 편향을 무시하는 데 효과적이며, 수치 입력으로 고차원 함수를 학습할 수 있으며, fine-tuning과 비슷한 성능을 보인다는 것을 보여줍니다. 또한, 우리의 분석은 다운스트림 ICL 성능의 지표로서 next-token prediction loss의 한계를 보여줍니다.
전체 0