최신논문
일반적으로 호기심이 많은 에이전트 훈련
작성자
하이룽룽
작성일
2025-03-02 18:55
조회
289
https://arxiv.org/abs/2502.17543
효율적인 탐색은 환경과 상호 작용하는 지능형 시스템에 필수적이지만, 기존 언어 모델은 종종 전략적 정보 수집이 필요한 시나리오에서 부족합니다. 이 논문에서는 언어 모델이 특정 환경에 국한되지 않는 일반적인 의사 결정 기능을 개발할 수 있도록 하는 미세 조정 방식인 PAPRIKA를 제시합니다. 다양한 전략이 필요한 다양한 작업에서 합성 상호 작용 데이터를 학습함으로써 PAPRIKA는 모델이 더 많은 그래디언트 업데이트 없이 컨텍스트 내 환경 피드백을 기반으로 새 작업에서 동작을 탐색하고 적응하도록 가르칩니다. 실험 결과에 따르면 PAPRIKA로 미세 조정된 모델은 추가 학습 없이 학습된 의사 결정 기능을 전혀 보이지 않는 작업에 효과적으로 전달할 수 있습니다. 기존 학습과 달리, 이 방식의 주요 병목 현상은 모델 업데이트 대신 유용한 상호 작용 데이터를 샘플링하는 데 있습니다. 샘플 효율성을 개선하기 위해 학습 잠재력이 높은 작업에서 샘플링 궤적을 우선시하는 커리큘럼 학습 전략을 제안합니다. 이러한 결과는 외부 세계와의 상호 작용이 필요한 새로운 순차적 의사 결정 문제를 자율적으로 해결할 수 있는 AI 시스템에 대한 유망한 경로를 제시합니다.
효율적인 탐색은 환경과 상호 작용하는 지능형 시스템에 필수적이지만, 기존 언어 모델은 종종 전략적 정보 수집이 필요한 시나리오에서 부족합니다. 이 논문에서는 언어 모델이 특정 환경에 국한되지 않는 일반적인 의사 결정 기능을 개발할 수 있도록 하는 미세 조정 방식인 PAPRIKA를 제시합니다. 다양한 전략이 필요한 다양한 작업에서 합성 상호 작용 데이터를 학습함으로써 PAPRIKA는 모델이 더 많은 그래디언트 업데이트 없이 컨텍스트 내 환경 피드백을 기반으로 새 작업에서 동작을 탐색하고 적응하도록 가르칩니다. 실험 결과에 따르면 PAPRIKA로 미세 조정된 모델은 추가 학습 없이 학습된 의사 결정 기능을 전혀 보이지 않는 작업에 효과적으로 전달할 수 있습니다. 기존 학습과 달리, 이 방식의 주요 병목 현상은 모델 업데이트 대신 유용한 상호 작용 데이터를 샘플링하는 데 있습니다. 샘플 효율성을 개선하기 위해 학습 잠재력이 높은 작업에서 샘플링 궤적을 우선시하는 커리큘럼 학습 전략을 제안합니다. 이러한 결과는 외부 세계와의 상호 작용이 필요한 새로운 순차적 의사 결정 문제를 자율적으로 해결할 수 있는 AI 시스템에 대한 유망한 경로를 제시합니다.
전체 0