최신논문

Quiet-STaR: 언어 모델은 말하기 전에 스스로 생각하는 법을 배울 수 있습니다.

작성자
dd
작성일
2024-07-04 08:50
조회
578
https://arxiv.org/abs/2403.09629

사람들은 글을 쓰고 말할 때 가끔 생각하기 위해 잠시 멈춥니다. 추론에 초점을 맞춘 작품에서는 종종 추론을 질문에 답하거나 에이전트 작업을 완료하는 방법으로 규정하지만, 추론은 거의 모든 서면 텍스트에 암묵적으로 존재합니다. 예를 들어, 이는 증명의 줄 사이에 명시되지 않은 단계나 대화의 근간이 되는 정신 이론에 적용됩니다. Self-Taught Reasoner(STaR, Zelikman et al. 2022)에서 유용한 사고는 질문-답변에서 몇 가지 샷 예제에서 근거를 추론하고 정답으로 이어지는 예제에서 학습하여 학습합니다. 이는 매우 제약적인 설정입니다. 이상적으로는 언어 모델이 임의의 텍스트에서 언급되지 않은 근거를 추론하는 법을 배울 수 있습니다. 우리는 LM이 각 토큰에서 근거를 생성하여 미래 텍스트를 설명하는 법을 배우는 STaR의 일반화인 Quiet-STaR을 제시하여 예측을 개선합니다. 우리는 1) 연속을 생성하는 데 드는 계산 비용, 2) LM이 처음에는 내부 사고를 생성하거나 사용하는 방법을 알지 못한다는 사실, 3) 개별 다음 토큰을 넘어서 예측해야 할 필요성을 포함한 주요 과제를 다룹니다. 이를 해결하기 위해 우리는 생각의 시작과 끝을 나타내는 학습 가능한 토큰과 확장된 교사 강제 기술을 사용하는 토큰별 병렬 샘플링 알고리즘을 제안합니다. 고무적으로, 생성된 근거는 예측하기 어려운 토큰을 모델링하고 LM이 어려운 질문에 직접 답하는 능력을 향상시키는 데 비례적으로 도움이 됩니다. 특히, Quiet-STaR을 사용하여 인터넷 텍스트 코퍼스에서 LM을 지속적으로 사전 학습한 후 GSM8K에서 제로샷 개선을 발견했습니다(5.9%→10.9%) 및 CommonsenseQA(36.3%)→47.2%) 자연 텍스트에서 어려운 토큰의 난해성 개선을 관찰합니다. 중요한 점은 이러한 개선 사항에는 이러한 작업에 대한 미세 조정이 필요하지 않다는 것입니다. Quiet-STaR은 보다 일반적이고 확장 가능한 방식으로 추론하는 법을 배울 수 있는 LM을 향한 한 걸음을 나타냅니다.
전체 0