최신논문
(2023년 10월) 유레카: 대규모 언어모델 코딩을 통한 인간수준 보상 설계
작성자
dd
작성일
2024-07-02 15:23
조회
458
https://arxiv.org/abs/2310.12931
대규모 언어 모델(LLM)은 순차적 의사 결정 작업을 위한 고수준 의미론적 플래너로서 뛰어난 성과를 보였습니다. 그러나 이를 활용하여 능숙한 펜 회전과 같은 복잡한 저수준 조작 작업을 학습하는 것은 여전히 미해결 문제로 남아 있습니다. 우리는 이러한 근본적인 격차를 메우고 LLM으로 구동되는 인간 수준의 보상 설계 알고리즘인 Eureka를 제시합니다. Eureka는 GPT-4와 같은 최첨단 LLM의 놀라운 제로샷 생성, 코드 작성 및 컨텍스트 내 개선 기능을 활용하여 보상 코드에 대한 진화적 최적화를 수행합니다. 그런 다음 결과 보상을 사용하여 강화 학습을 통해 복잡한 기술을 습득할 수 있습니다. 작업별 프롬프트나 사전 정의된 보상 템플릿 없이 Eureka는 전문가가 설계한 보상보다 성능이 뛰어난 보상 함수를 생성합니다. 10가지 고유한 로봇 형태를 포함하는 다양한 29개 오픈소스 RL 환경에서 Eureka는 작업의 83%에서 인간 전문가보다 성능이 뛰어나 평균 52%의 정규화된 개선을 달성합니다. 유레카의 일반성은 또한 인간 피드백(RLHF)에서 강화 학습에 대한 새로운 그래디언트 없는 맥락 내 학습 접근 방식을 가능하게 하며, 모델을 업데이트하지 않고도 생성된 보상의 품질과 안전성을 개선하기 위해 인간의 입력을 쉽게 통합합니다. 마지막으로, 커리큘럼 학습 설정에서 유레카 보상을 사용하여 처음으로 펜 회전 트릭을 수행할 수 있는 시뮬레이션된 섀도우 핸드를 시연하고, 빠른 속도로 원을 그리며 펜을 능숙하게 조작합니다.
대규모 언어 모델(LLM)은 순차적 의사 결정 작업을 위한 고수준 의미론적 플래너로서 뛰어난 성과를 보였습니다. 그러나 이를 활용하여 능숙한 펜 회전과 같은 복잡한 저수준 조작 작업을 학습하는 것은 여전히 미해결 문제로 남아 있습니다. 우리는 이러한 근본적인 격차를 메우고 LLM으로 구동되는 인간 수준의 보상 설계 알고리즘인 Eureka를 제시합니다. Eureka는 GPT-4와 같은 최첨단 LLM의 놀라운 제로샷 생성, 코드 작성 및 컨텍스트 내 개선 기능을 활용하여 보상 코드에 대한 진화적 최적화를 수행합니다. 그런 다음 결과 보상을 사용하여 강화 학습을 통해 복잡한 기술을 습득할 수 있습니다. 작업별 프롬프트나 사전 정의된 보상 템플릿 없이 Eureka는 전문가가 설계한 보상보다 성능이 뛰어난 보상 함수를 생성합니다. 10가지 고유한 로봇 형태를 포함하는 다양한 29개 오픈소스 RL 환경에서 Eureka는 작업의 83%에서 인간 전문가보다 성능이 뛰어나 평균 52%의 정규화된 개선을 달성합니다. 유레카의 일반성은 또한 인간 피드백(RLHF)에서 강화 학습에 대한 새로운 그래디언트 없는 맥락 내 학습 접근 방식을 가능하게 하며, 모델을 업데이트하지 않고도 생성된 보상의 품질과 안전성을 개선하기 위해 인간의 입력을 쉽게 통합합니다. 마지막으로, 커리큘럼 학습 설정에서 유레카 보상을 사용하여 처음으로 펜 회전 트릭을 수행할 수 있는 시뮬레이션된 섀도우 핸드를 시연하고, 빠른 속도로 원을 그리며 펜을 능숙하게 조작합니다.
전체 0