최신논문
(2023년 8월) 히드라 효과: 언어모델 계산의 새로운 자가 복구
작성자
작성일
2024-06-25 13:38
조회
491
https://arxiv.org/abs/2307.15771
우리는 인과 분석을 사용하여 언어 모델 계산의 내부 구조를 조사하고 두 가지 모티프를 보여줍니다. (1) 언어 모델의 한 주의 계층을 제거하면 다른 계층이 보상되도록 하는 적응형 계산의 형태(이를 히드라 효과라고 함)와 ( 2) 최대 가능성 토큰을 하향 조절하는 역할을 하는 후기 MLP 계층의 균형 조정 기능. 우리의 절제 연구는 언어 모델 레이어가 일반적으로 상대적으로 느슨하게 결합되어 있음을 보여줍니다(한 레이어에 대한 절제는 소수의 다운스트림 레이어에만 영향을 미칩니다). 놀랍게도 이러한 효과는 어떤 형태의 드롭아웃도 없이 훈련된 언어 모델에서도 발생합니다. 우리는 사실적 회상의 맥락에서 이러한 효과를 분석하고 언어 모델의 회로 수준 속성에 대한 영향을 고려합니다.
우리는 인과 분석을 사용하여 언어 모델 계산의 내부 구조를 조사하고 두 가지 모티프를 보여줍니다. (1) 언어 모델의 한 주의 계층을 제거하면 다른 계층이 보상되도록 하는 적응형 계산의 형태(이를 히드라 효과라고 함)와 ( 2) 최대 가능성 토큰을 하향 조절하는 역할을 하는 후기 MLP 계층의 균형 조정 기능. 우리의 절제 연구는 언어 모델 레이어가 일반적으로 상대적으로 느슨하게 결합되어 있음을 보여줍니다(한 레이어에 대한 절제는 소수의 다운스트림 레이어에만 영향을 미칩니다). 놀랍게도 이러한 효과는 어떤 형태의 드롭아웃도 없이 훈련된 언어 모델에서도 발생합니다. 우리는 사실적 회상의 맥락에서 이러한 효과를 분석하고 언어 모델의 회로 수준 속성에 대한 영향을 고려합니다.
전체 0