최신논문
압축은 지능을 선형적으로 나타냅니다.
작성자
dd
작성일
2024-07-04 09:32
조회
478
https://github.com/hkust-nlp/llm-compression-intelligence
https://arxiv.org/abs/2404.09937

압축을 잘하는 법을 배우면 지능이 생긴다는 믿음이 있습니다. 최근 언어 모델링이 압축과 동일하다는 것이 밝혀졌는데, 이는 대규모 언어 모델(LLM)의 성공에 대한 설득력 있는 근거를 제공합니다. 보다 진보된 언어 모델의 개발은 본질적으로 지능을 촉진하는 압축을 향상시킵니다. 이처럼 매력적인 논의에도 불구하고 압축과 지능 간의 상호 작용에 대한 실증적 증거는 거의 없습니다. 이 연구에서는 LLM의 맥락에서 두 가지의 관계를 살펴보고 LLM을 데이터 압축기로 취급합니다. "지능"이라는 추상적인 개념을 감안하여 평균 다운스트림 벤치마크 점수를 대용품으로 채택하여 특히 지식과 상식, 코딩 및 수학적 추론과 관련된 지능을 타겟팅합니다. 12개 벤치마크에 걸쳐 다양한 조직에서 나온 30개의 공개 LLM을 연구에 포함시켰습니다. 놀랍게도 LLM의 지능(평균 벤치마크 점수에 반영됨)은 외부 텍스트 코퍼스를 압축하는 능력과 거의 선형적으로 상관관계가 있음을 발견했습니다. 이러한 결과는 우수한 압축이 더 큰 지능을 나타낸다는 믿음을 뒷받침하는 구체적인 증거를 제공합니다. 또한, 우리의 연구 결과는 원시 텍스트 코퍼스에서 파생된 비지도 척도인 압축 효율성이 모델 역량과 선형적으로 연관된 신뢰할 수 있는 평가 척도 역할을 한다는 것을 시사합니다. 우리는 미래의 연구자들이 압축을 적절하게 평가할 수 있도록 압축 데이터 세트와 데이터 수집 파이프라인을 오픈 소스로 제공합니다.
https://arxiv.org/abs/2404.09937

압축을 잘하는 법을 배우면 지능이 생긴다는 믿음이 있습니다. 최근 언어 모델링이 압축과 동일하다는 것이 밝혀졌는데, 이는 대규모 언어 모델(LLM)의 성공에 대한 설득력 있는 근거를 제공합니다. 보다 진보된 언어 모델의 개발은 본질적으로 지능을 촉진하는 압축을 향상시킵니다. 이처럼 매력적인 논의에도 불구하고 압축과 지능 간의 상호 작용에 대한 실증적 증거는 거의 없습니다. 이 연구에서는 LLM의 맥락에서 두 가지의 관계를 살펴보고 LLM을 데이터 압축기로 취급합니다. "지능"이라는 추상적인 개념을 감안하여 평균 다운스트림 벤치마크 점수를 대용품으로 채택하여 특히 지식과 상식, 코딩 및 수학적 추론과 관련된 지능을 타겟팅합니다. 12개 벤치마크에 걸쳐 다양한 조직에서 나온 30개의 공개 LLM을 연구에 포함시켰습니다. 놀랍게도 LLM의 지능(평균 벤치마크 점수에 반영됨)은 외부 텍스트 코퍼스를 압축하는 능력과 거의 선형적으로 상관관계가 있음을 발견했습니다. 이러한 결과는 우수한 압축이 더 큰 지능을 나타낸다는 믿음을 뒷받침하는 구체적인 증거를 제공합니다. 또한, 우리의 연구 결과는 원시 텍스트 코퍼스에서 파생된 비지도 척도인 압축 효율성이 모델 역량과 선형적으로 연관된 신뢰할 수 있는 평가 척도 역할을 한다는 것을 시사합니다. 우리는 미래의 연구자들이 압축을 적절하게 평가할 수 있도록 압축 데이터 세트와 데이터 수집 파이프라인을 오픈 소스로 제공합니다.
전체 0