최신논문
1,000,000,000개의 페르소나로 합성 데이터 생성 확장
작성자
작성일
2024-07-01 11:09
조회
310
https://arxiv.org/abs/2406.20094
우리는 대규모 언어 모델(LLM) 내의 다양한 관점을 활용하여 다양한 합성 데이터를 생성하는 새로운 페르소나 기반 데이터 합성 방법론을 제안합니다. 이 방법론을 규모에 맞게 최대한 활용하기 위해 웹 데이터에서 자동으로 큐레이션된 10억 개의 다양한 페르소나 컬렉션인 페르소나 허브를 소개합니다. 이 10억 개의 페르소나(전 세계 인구의 약 13%)는 세계 지식의 분산된 운반자 역할을 하며 LLM 내에 캡슐화된 거의 모든 관점을 활용하여 다양한 시나리오에 맞게 다양한 합성 데이터를 규모에 맞게 생성할 수 있습니다. 페르소나 허브의 사용 사례를 보여주어 고품질의 수학적 및 논리적 추론 문제, 지침(예: 사용자 프롬프트), 지식이 풍부한 텍스트, 게임 NPC 및 도구(함수)를 규모에 맞게 합성함으로써 페르소나 기반 데이터 합성이 다재다능하고 확장 가능하며 유연하고 사용하기 쉬운 것을 보여주며, 실제로 합성 데이터 생성 및 응용 프로그램의 패러다임 전환을 촉진하여 LLM 연구 및 개발에 큰 영향을 미칠 수 있습니다.
- 웹 데이터에서 자동으로 선별된 10억 개의 다양한 페르소나 컬렉션 제공
- MATH에서 엄청난 이득: 49.6 - > 64.9
우리는 대규모 언어 모델(LLM) 내의 다양한 관점을 활용하여 다양한 합성 데이터를 생성하는 새로운 페르소나 기반 데이터 합성 방법론을 제안합니다. 이 방법론을 규모에 맞게 최대한 활용하기 위해 웹 데이터에서 자동으로 큐레이션된 10억 개의 다양한 페르소나 컬렉션인 페르소나 허브를 소개합니다. 이 10억 개의 페르소나(전 세계 인구의 약 13%)는 세계 지식의 분산된 운반자 역할을 하며 LLM 내에 캡슐화된 거의 모든 관점을 활용하여 다양한 시나리오에 맞게 다양한 합성 데이터를 규모에 맞게 생성할 수 있습니다. 페르소나 허브의 사용 사례를 보여주어 고품질의 수학적 및 논리적 추론 문제, 지침(예: 사용자 프롬프트), 지식이 풍부한 텍스트, 게임 NPC 및 도구(함수)를 규모에 맞게 합성함으로써 페르소나 기반 데이터 합성이 다재다능하고 확장 가능하며 유연하고 사용하기 쉬운 것을 보여주며, 실제로 합성 데이터 생성 및 응용 프로그램의 패러다임 전환을 촉진하여 LLM 연구 및 개발에 큰 영향을 미칠 수 있습니다.
- 웹 데이터에서 자동으로 선별된 10억 개의 다양한 페르소나 컬렉션 제공
- MATH에서 엄청난 이득: 49.6 - > 64.9
전체 0