트윗

(2023년 10월) Microsoft Research 연구원 시탈 샤 "RL 커뮤니티는 유레카 논문에 경외감과 충격을 받았을 것"

작성자
ㅇㅇ
작성일
2024-07-02 15:47
조회
1581


RL 커뮤니티는 유레카 논문에 경외감과 충격을 받았을 것입니다. 여기서 아이디어는 환경의 소스 코드를 GPT-4에 제공하고 보상 기능 자체에 대한 코드를 작성하도록 요청하는 것입니다! 그런 다음 시뮬레이션에서 이 보상 기능을 평가하고 평가 결과를 GPT-4에 다시 제공하여 보상 기능을 개선할 수 있습니다!! 이 작업을 계속해서 수행하면 RL은 결국 인간의 개입 없이 다양한 도전에서 초인적인 결과를 달성하게 됩니다!!!

사람들이 아직도 기억할지 모르겠지만 AGI 야망을 가진 회사는 불과 몇 년 전만 해도 RL에 관한 모든 것에만 사용되었습니다. 하지만 도중에 무슨 일이 일어났고 RL은 그저 케이크 위의 작은 체리로 강등되었습니다. LLM은 그동안 누락된 퍼즐 조각이었던 것 같습니다. 잘 들어보시면 컴백 🙂 이라는 천둥같은 소리가 들릴 것 같습니다.

생성기가 r_i를 합성하고 비평가가 피드백 f_i를 제공한 다음 생성기가 r_i+1을 합성하는 전반적인 접근 방식은 메타 수준의 배우-비평가 피드백 루프를 매우 연상시킵니다. 이것은 이미 많은 기초 이론을 갖추고 있지만 현재 환경에서는 활용도가 낮습니다. LLM 인스턴스 자체는 월드 모델, 에이전트 및 비평가가 될 수 있으며 RL은 모든 인스턴스를 반복적으로 공동으로 개선하는 메커니즘입니다. 인간의 훈련 데이터와 능력을 뛰어넘을 수 있는 자기 개선의 긍정적인 피드백 루프가 곧 다가올 수도 있습니다.
전체 0