최신논문
반복적 자기 개선에서의 자발적 보상 해킹
작성자
작성일
2024-07-08 11:39
조회
449
https://arxiv.org/abs/2407.04549
언어모델은 자연어 피드백을 기반으로 반복적으로 출력을 개선할 수 있으므로 사용자 선호도의 맥락 내 최적화가 가능합니다. 인간 사용자 대신 두 번째 언어 모델을 평가자로 사용하여 생성자가 최적화를 시도하는 수치적 평가와 함께 피드백을 제공할 수 있습니다. 그러나 평가자는 사용자 선호도의 불완전한 대리자이기 때문에 이러한 최적화는 보상 해킹으로 이어질 수 있으며, 여기서 평가자의 평가는 향상되지만 생성 품질은 실제 사용자 선호도에 따라 정체되거나 감소합니다. 보상 해킹에 대한 우려는 생성자와 평가자가 동일한 기본 언어 모델을 사용하는 반복적 자체 개선에서 높아지며, 이 경우 최적화 압력으로 인해 공유된 취약성을 악용하게 될 수 있습니다. 에세이 편집 작업을 사용하여 반복적 자체 개선이 언어 모델 평가자와 인간 판단 간의 편차로 이어지고, 보상 해킹이 반복적 자체 개선을 사용하여 맥락 내에서 자발적으로 발생할 수 있음을 보여줍니다. 또한 보상 해킹이 발생하는 조건을 연구하고 보상 해킹 심각도에 영향을 미치는 두 가지 요소, 즉 모델 크기와 생성자와 평가자 간의 컨텍스트 공유를 관찰합니다.
언어모델은 자연어 피드백을 기반으로 반복적으로 출력을 개선할 수 있으므로 사용자 선호도의 맥락 내 최적화가 가능합니다. 인간 사용자 대신 두 번째 언어 모델을 평가자로 사용하여 생성자가 최적화를 시도하는 수치적 평가와 함께 피드백을 제공할 수 있습니다. 그러나 평가자는 사용자 선호도의 불완전한 대리자이기 때문에 이러한 최적화는 보상 해킹으로 이어질 수 있으며, 여기서 평가자의 평가는 향상되지만 생성 품질은 실제 사용자 선호도에 따라 정체되거나 감소합니다. 보상 해킹에 대한 우려는 생성자와 평가자가 동일한 기본 언어 모델을 사용하는 반복적 자체 개선에서 높아지며, 이 경우 최적화 압력으로 인해 공유된 취약성을 악용하게 될 수 있습니다. 에세이 편집 작업을 사용하여 반복적 자체 개선이 언어 모델 평가자와 인간 판단 간의 편차로 이어지고, 보상 해킹이 반복적 자체 개선을 사용하여 맥락 내에서 자발적으로 발생할 수 있음을 보여줍니다. 또한 보상 해킹이 발생하는 조건을 연구하고 보상 해킹 심각도에 영향을 미치는 두 가지 요소, 즉 모델 크기와 생성자와 평가자 간의 컨텍스트 공유를 관찰합니다.
전체 0