최신논문
(2023년 10월) 알파제로와 유사한 트리 검색으로 대규모 언어모델 디코딩 및 학습 가이드
작성자
작성일
2024-07-01 01:08
조회
356
https://arxiv.org/abs/2309.17179
1. LLMs는 추론 시 연속적인 논리 능력을 향상시키기 위해 Chain-of-Thought나 Tree-of-Thought와 같은 방법들을 사용하나, 이들은 일반성과 확장성에 한계가 있다.
2. 이를 해결하기 위해 TS-LLM은 AlphaZero와 유사한 트리 검색 프레임워크를 도입하여 학습된 가치 함수로 LLM의 디코딩 능력을 안내한다.
3. TS-LLM은 학습된 가치 함수를 활용하여 다양한 태스크에 적용 가능하며, 추론과 훈련 도중 LLM의 디코딩을 안내할 수 있다.
1. LLMs는 추론 시 연속적인 논리 능력을 향상시키기 위해 Chain-of-Thought나 Tree-of-Thought와 같은 방법들을 사용하나, 이들은 일반성과 확장성에 한계가 있다.
2. 이를 해결하기 위해 TS-LLM은 AlphaZero와 유사한 트리 검색 프레임워크를 도입하여 학습된 가치 함수로 LLM의 디코딩 능력을 안내한다.
3. TS-LLM은 학습된 가치 함수를 활용하여 다양한 태스크에 적용 가능하며, 추론과 훈련 도중 LLM의 디코딩을 안내할 수 있다.
전체 0