최신논문
(2023년 10월) Self-Taught Optimizer(STOP): 반복적으로 자체 개선
작성자
admin
작성일
2024-07-01 01:11
조회
309
https://arxiv.org/abs/2310.02304
AI 시스템의 최근 발전 사항(예: Tree-of-Thoughts 및 Program-Aided Language Models)은 더 나은 출력을 생성하기 위해 언어 모델에 대한 여러 호출을 구조화하는 "스캐폴딩" 프로그램을 제공하여 문제를 해결합니다. 스캐폴딩 프로그램은 Python과 같은 프로그래밍 언어로 작성됩니다. 이 작업에서 우리는 언어 모델이 주입된 스캐폴딩 프로그램을 사용하여 자체를 개선합니다. 우리는 언어 모델을 여러 번 쿼리하고 최상의 솔루션을 반환하여 주어진 유틸리티 함수에 따라 입력 프로그램을 개선하는 시드 "개선기"로 시작합니다. 그런 다음 이 시드 개선기를 실행하여 자체를 개선합니다. 작은 다운스트림 작업 집합에서 결과적으로 개선된 개선기는 시드 개선기보다 성능이 훨씬 더 뛰어난 프로그램을 생성합니다. 언어 모델은 빔 검색, 유전 알고리즘 및 시뮬레이트된 어닐링을 포함하여 다양한 자체 개선 전략을 제안합니다. 언어 모델 자체는 변경되지 않으므로 이는 완전한 재귀적 자체 개선이 아닙니다. 그럼에도 불구하고, 그것은 우리의 실험에서 현대 언어 모델인 GPT-4가 자신을 개선하기 위해 자신을 호출할 수 있는 코드를 작성할 수 있음을 보여줍니다. 우리는 자체 개선 기술 개발에 대한 우려를 고려하고 생성된 코드가 샌드박스를 우회하는 빈도를 평가합니다.
AI 시스템의 최근 발전 사항(예: Tree-of-Thoughts 및 Program-Aided Language Models)은 더 나은 출력을 생성하기 위해 언어 모델에 대한 여러 호출을 구조화하는 "스캐폴딩" 프로그램을 제공하여 문제를 해결합니다. 스캐폴딩 프로그램은 Python과 같은 프로그래밍 언어로 작성됩니다. 이 작업에서 우리는 언어 모델이 주입된 스캐폴딩 프로그램을 사용하여 자체를 개선합니다. 우리는 언어 모델을 여러 번 쿼리하고 최상의 솔루션을 반환하여 주어진 유틸리티 함수에 따라 입력 프로그램을 개선하는 시드 "개선기"로 시작합니다. 그런 다음 이 시드 개선기를 실행하여 자체를 개선합니다. 작은 다운스트림 작업 집합에서 결과적으로 개선된 개선기는 시드 개선기보다 성능이 훨씬 더 뛰어난 프로그램을 생성합니다. 언어 모델은 빔 검색, 유전 알고리즘 및 시뮬레이트된 어닐링을 포함하여 다양한 자체 개선 전략을 제안합니다. 언어 모델 자체는 변경되지 않으므로 이는 완전한 재귀적 자체 개선이 아닙니다. 그럼에도 불구하고, 그것은 우리의 실험에서 현대 언어 모델인 GPT-4가 자신을 개선하기 위해 자신을 호출할 수 있는 코드를 작성할 수 있음을 보여줍니다. 우리는 자체 개선 기술 개발에 대한 우려를 고려하고 생성된 코드가 샌드박스를 우회하는 빈도를 평가합니다.
전체 0