최신논문
장문맥 검색 증강 생성을 위한 추론 스케일링
작성자
하이룽룽
작성일
2024-10-17 23:15
조회
506
https://arxiv.org/abs/2410.04343
추론 연산의 확장은 다양한 설정에서 장기 컨텍스트 대규모 언어 모델(LLM)의 잠재력을 열어주었습니다. 지식 집약적 작업의 경우, 증가된 연산은 종종 더 많은 외부 지식을 통합하는 데 할당됩니다. 그러나 이러한 지식을 효과적으로 활용하지 않고 컨텍스트를 확장하는 것만으로는 항상 성능이 향상되는 것은 아닙니다. 이 연구에서는 검색 증강 생성(RAG)에 대한 추론 확장을 조사하여 단순히 지식의 양을 늘리는 것 이상의 전략을 탐구합니다. 우리는 컨텍스트 내 학습과 반복적 프롬프트라는 두 가지 추론 확장 전략에 중점을 둡니다. 이러한 전략은 테스트 시간 연산을 확장하는 데 추가적인 유연성을 제공하여(예: 검색된 문서 또는 생성 단계 증가) LLM이 컨텍스트 정보를 효과적으로 수집하고 활용하는 능력을 향상시킵니다. 우리는 두 가지 핵심 질문을 다룹니다. (1) RAG 성능은 최적으로 구성될 때 추론 연산의 확장으로 어떤 이점을 얻습니까? (2) RAG 성능과 추론 매개변수 간의 관계를 모델링하여 주어진 예산에 대한 최적의 테스트 시간 연산 할당을 예측할 수 있습니까? 우리의 관찰에 따르면 추론 계산을 늘리면 최적 할당 시 RAG 성능이 거의 선형적으로 향상되며, 이 관계를 RAG에 대한 추론 스케일링 법칙이라고 설명합니다. 이를 바탕으로 다양한 추론 구성에서 RAG 성능을 추정하기 위해 계산 할당 모델을 추가로 개발합니다. 이 모델은 다양한 계산 제약 조건에서 최적의 추론 매개변수를 예측하는데, 이는 실험 결과와 긴밀하게 일치합니다. 이러한 최적 구성을 적용하여 롱 컨텍스트 LLM에서 추론 계산을 스케일링하면 표준 RAG에 비해 벤치마크 데이터 세트에서 최대 58.9%의 이득을 얻을 수 있음을 보여줍니다.
추론 연산의 확장은 다양한 설정에서 장기 컨텍스트 대규모 언어 모델(LLM)의 잠재력을 열어주었습니다. 지식 집약적 작업의 경우, 증가된 연산은 종종 더 많은 외부 지식을 통합하는 데 할당됩니다. 그러나 이러한 지식을 효과적으로 활용하지 않고 컨텍스트를 확장하는 것만으로는 항상 성능이 향상되는 것은 아닙니다. 이 연구에서는 검색 증강 생성(RAG)에 대한 추론 확장을 조사하여 단순히 지식의 양을 늘리는 것 이상의 전략을 탐구합니다. 우리는 컨텍스트 내 학습과 반복적 프롬프트라는 두 가지 추론 확장 전략에 중점을 둡니다. 이러한 전략은 테스트 시간 연산을 확장하는 데 추가적인 유연성을 제공하여(예: 검색된 문서 또는 생성 단계 증가) LLM이 컨텍스트 정보를 효과적으로 수집하고 활용하는 능력을 향상시킵니다. 우리는 두 가지 핵심 질문을 다룹니다. (1) RAG 성능은 최적으로 구성될 때 추론 연산의 확장으로 어떤 이점을 얻습니까? (2) RAG 성능과 추론 매개변수 간의 관계를 모델링하여 주어진 예산에 대한 최적의 테스트 시간 연산 할당을 예측할 수 있습니까? 우리의 관찰에 따르면 추론 계산을 늘리면 최적 할당 시 RAG 성능이 거의 선형적으로 향상되며, 이 관계를 RAG에 대한 추론 스케일링 법칙이라고 설명합니다. 이를 바탕으로 다양한 추론 구성에서 RAG 성능을 추정하기 위해 계산 할당 모델을 추가로 개발합니다. 이 모델은 다양한 계산 제약 조건에서 최적의 추론 매개변수를 예측하는데, 이는 실험 결과와 긴밀하게 일치합니다. 이러한 최적 구성을 적용하여 롱 컨텍스트 LLM에서 추론 계산을 스케일링하면 표준 RAG에 비해 벤치마크 데이터 세트에서 최대 58.9%의 이득을 얻을 수 있음을 보여줍니다.
전체 0