뉴스/정보

(2023년 10월) 언어 모델을 이해할 수 있는 구성 요소로 분해

작성자
작성일
2024-07-01 01:18
조회
629
https://www.anthropic.com/news/decomposing-language-models-into-understandable-components

최신 논문인 Towards Monosemanticity: Decomposing Language Models With Dictionary Learning 에서 우리는 개별 뉴런보다 더 나은 분석 단위가 있다는 증거를 설명했으며, 작은 변압기 모델에서 이러한 단위를 찾을 수 있는 기계를 구축했습니다. 특징이라고 하는 이러한 단위는 뉴런 활성화의 패턴(선형 조합)에 해당합니다. 이는 복잡한 신경망을 이해할 수 있는 부분으로 분해하는 경로를 제공하며, 신경 과학, 머신 러닝 및 통계에서 고차원 시스템을 해석하려는 이전의 노력을 기반으로 합니다.
전체 0