최신논문

점 하나하나씩 생각하자: Transformer 언어모델의 숨겨진 계산

작성자
dd
작성일
2024-07-04 09:48
조회
340
https://arxiv.org/abs/2404.15758

언어 모델의 사고 사슬 응답은 대부분 벤치마크에서 성능을 개선합니다. 그러나 이러한 성능 향상이 인간과 유사한 작업 분해에 기인하는지 또는 추가 토큰이 허용하는 더 큰 계산에 기인하는지 여부는 불분명합니다. 우리는 변환기가 사고 사슬 대신 무의미한 필러 토큰(예: '......')을 사용하여 중간 토큰 없이 응답할 때 해결할 수 없는 두 가지 어려운 알고리즘 작업을 해결할 수 있음을 보여줍니다. 그러나 우리는 필러 토큰을 사용하는 법을 배우는 것이 어렵고 수렴하려면 특정하고 밀도 있는 감독이 필요하다는 것을 경험적으로 발견했습니다. 또한 1차 공식의 양화자 깊이 측면에서 필러 토큰이 유용한 문제 클래스에 대한 이론적 특성화를 제공합니다. 이 특성화를 만족하는 문제의 경우 사고 사슬 토큰은 다중 토큰 계산에 관련된 중간 계산 단계에 대한 정보를 제공할 필요가 없습니다. 요약하면, 우리의 결과는 추가 토큰이 토큰 선택과 관계없이 계산상의 이점을 제공할 수 있음을 보여줍니다. 중간 토큰이 필러 토큰 역할을 할 수 있다는 사실은 관찰된 사고의 사슬 토큰에서 점점 더 분리되어 감사할 수 없고 숨겨진 계산에 참여하는 대규모 언어 모델에 대한 우려를 불러일으킵니다.
전체 0