최신논문
ReST는 ReAct를 만납니다: 다단계 추론을 위한 자기개선 LLM 에이전트
작성자
dd
작성일
2024-07-03 23:59
조회
352
https://arxiv.org/abs/2312.10003
복잡한 자연어 질문에 답하려면 종종 다단계 추론과 외부 정보 통합이 필요합니다. 여러 시스템에서는 이러한 질문에 답하기 위해 지식 검색과 대규모 언어 모델(LLM)을 결합했습니다. 그러나 이러한 시스템은 다양한 실패 사례로 어려움을 겪고 있으며, 외부 지식과의 상호 작용이 미분 불가능하기 때문에 이러한 실패를 해결하기 위해 엔드투엔드로 직접 학습할 수 없습니다. 이러한 결함을 해결하기 위해 추론하고 외부 지식에 따라 행동할 수 있는 ReAct 스타일 LLM 에이전트를 정의합니다. 이전 궤적에서 반복적으로 학습하는 ReST와 유사한 방법을 통해 에이전트를 더욱 개선하여 AI 피드백을 사용하여 지속적인 자체 개선 및 자체 증류를 위한 성장 배치 강화 학습을 사용합니다. 프롬프트된 대규모 모델에서 시작하여 알고리즘을 두 번만 반복하면 두 배 더 적은 매개변수로 까다로운 구성적 질문 답변 벤치마크에서 비슷한 성능을 달성하는 미세 조정된 소규모 모델을 생성할 수 있습니다.
복잡한 자연어 질문에 답하려면 종종 다단계 추론과 외부 정보 통합이 필요합니다. 여러 시스템에서는 이러한 질문에 답하기 위해 지식 검색과 대규모 언어 모델(LLM)을 결합했습니다. 그러나 이러한 시스템은 다양한 실패 사례로 어려움을 겪고 있으며, 외부 지식과의 상호 작용이 미분 불가능하기 때문에 이러한 실패를 해결하기 위해 엔드투엔드로 직접 학습할 수 없습니다. 이러한 결함을 해결하기 위해 추론하고 외부 지식에 따라 행동할 수 있는 ReAct 스타일 LLM 에이전트를 정의합니다. 이전 궤적에서 반복적으로 학습하는 ReST와 유사한 방법을 통해 에이전트를 더욱 개선하여 AI 피드백을 사용하여 지속적인 자체 개선 및 자체 증류를 위한 성장 배치 강화 학습을 사용합니다. 프롬프트된 대규모 모델에서 시작하여 알고리즘을 두 번만 반복하면 두 배 더 적은 매개변수로 까다로운 구성적 질문 답변 벤치마크에서 비슷한 성능을 달성하는 미세 조정된 소규모 모델을 생성할 수 있습니다.
전체 0