최신논문

코딩할 것인가, 코딩하지 않을 것인가? 사전 교육에서 코드의 영향 탐색

작성자
하이룽룽
작성일
2024-08-21 12:24
조회
896
https://arxiv.org/abs/2408.10914

코드용으로 특별히 설계되지 않은 모델의 경우에도 사전 학습 데이터 혼합에 코드를 포함하는 것은 LLM 사전 학습에서 일반적인 관행이 되었습니다. 코드 데이터가 일반적인 LLM의 성능에 중요한 역할을 한다는 실무자들 사이에서는 일화적인 합의가 있었지만, 코드가 코드가 아닌 작업에 미치는 정확한 영향을 분석하는 작업은 제한적입니다. 이 작업에서는 코드 데이터가 일반 성능에 미치는 영향을 체계적으로 조사합니다. 우리는 "사전 훈련에 사용된 코드 데이터가 코드 생성 이외의 다양한 다운스트림 작업에 미치는 영향은 무엇인가"라고 묻습니다. 우리는 470M에서 2.8B 매개변수에 이르는 크기의 모델에 대해 광범위한 자연어 추론 작업, 세계 지식 작업, 코드 벤치마크 및 LLM-as-a-judge 승률에 걸쳐 광범위한 절제를 수행하고 평가합니다. 설정 전반에 걸쳐 코드는 코딩 작업을 훨씬 넘어 일반화를 위한 중요한 구성 요소이며 코드 품질 개선은 모든 작업에 큰 영향을 미친다는 일관된 결과를 찾을 수 있습니다. 특히, 텍스트 전용 사전 학습과 비교했을 때, 코드를 추가하면 자연어(NL) 추론에서 최대 8.2%, 세계 지식에서 4.2%, 생성적 성공률에서 6.6%, 코드 성능이 각각 12배 향상됩니다. 우리의 연구는 코드 품질에 대한 투자와 사전 학습 중 코드 보존이 긍정적인 영향을 미친다는 것을 시사합니다.

전체 0