최신논문
Grokked Transformers는 암묵적 추론자입니다: 일반화의 한계에 대한 기계적 여정
작성자
dd
작성일
2024-07-04 11:27
조회
664
https://arxiv.org/abs/2405.15071
우리는 변환기가 매개변수 지식에 대해 암묵적으로 추론하는 법을 배울 수 있는지 연구합니다. 이 기술은 가장 유능한 언어 모델조차도 어려움을 겪습니다. 구성과 비교라는 두 가지 대표적 추론 유형에 초점을 맞추면, 우리는 변환기가 암묵적 추론을 배울 수 있지만, 그것은 그로킹, 즉 과적합을 훨씬 넘어선 확장된 훈련을 통해서만 가능하다는 것을 일관되게 발견했습니다. 일반화 수준도 추론 유형에 따라 다릅니다. 분포에서 벗어난 사례에 직면했을 때 변환기는 구성을 위해 체계적으로 일반화하지 못하지만 비교를 위해 성공합니다. 우리는 훈련 내내 모델의 내부를 파헤쳐 다음을 밝혀내는 분석 실험을 수행합니다. 1) 일반화 회로의 형성과 일반화 및 기억 회로의 상대적 효율성과의 관계와 같은 그로킹의 이면에 있는 메커니즘, 2) 체계성과 일반화 회로의 구성 간의 연결. 우리의 발견은 암묵적 추론을 더 잘 유도하기 위한 데이터와 훈련 설정을 안내하고 교차 계층 지식 공유를 장려하는 것과 같이 변환기 아키텍처에 대한 잠재적인 개선 사항을 제안합니다. 더 나아가, 우리는 대규모 검색 공간을 필요로 하는 어려운 추론 작업의 경우 비모수적 메모리에 기반한 GPT-4-Turbo와 Gemini-1.5-Pro는 프롬프트 스타일이나 검색 증강에 관계없이 심하게 실패하지만, 완전히 이해한 변환기는 거의 완벽한 정확도를 달성할 수 있음을 보여주며, 복잡한 추론에 대한 매개변수적 메모리의 힘을 보여줍니다.
우리는 변환기가 매개변수 지식에 대해 암묵적으로 추론하는 법을 배울 수 있는지 연구합니다. 이 기술은 가장 유능한 언어 모델조차도 어려움을 겪습니다. 구성과 비교라는 두 가지 대표적 추론 유형에 초점을 맞추면, 우리는 변환기가 암묵적 추론을 배울 수 있지만, 그것은 그로킹, 즉 과적합을 훨씬 넘어선 확장된 훈련을 통해서만 가능하다는 것을 일관되게 발견했습니다. 일반화 수준도 추론 유형에 따라 다릅니다. 분포에서 벗어난 사례에 직면했을 때 변환기는 구성을 위해 체계적으로 일반화하지 못하지만 비교를 위해 성공합니다. 우리는 훈련 내내 모델의 내부를 파헤쳐 다음을 밝혀내는 분석 실험을 수행합니다. 1) 일반화 회로의 형성과 일반화 및 기억 회로의 상대적 효율성과의 관계와 같은 그로킹의 이면에 있는 메커니즘, 2) 체계성과 일반화 회로의 구성 간의 연결. 우리의 발견은 암묵적 추론을 더 잘 유도하기 위한 데이터와 훈련 설정을 안내하고 교차 계층 지식 공유를 장려하는 것과 같이 변환기 아키텍처에 대한 잠재적인 개선 사항을 제안합니다. 더 나아가, 우리는 대규모 검색 공간을 필요로 하는 어려운 추론 작업의 경우 비모수적 메모리에 기반한 GPT-4-Turbo와 Gemini-1.5-Pro는 프롬프트 스타일이나 검색 증강에 관계없이 심하게 실패하지만, 완전히 이해한 변환기는 거의 완벽한 정확도를 달성할 수 있음을 보여주며, 복잡한 추론에 대한 매개변수적 메모리의 힘을 보여줍니다.
전체 0