트윗

o1-mini는 향후 무료 사용자에게 제공될 예정

작성자
하이룽룽
작성일
2024-09-14 18:29
조회
1857


오늘 OpenAI o1 팀과 함께한 AMA 시간 동안 배운 내용 요약

모델 이름과 추론 패러다임

- OpenAI o1은 새로운 수준의 AI 기능을 나타내기 위해 명명되었으며 카운터는 1로 재설정됩니다.
- "미리보기"는 전체 모델의 초기 버전임을 나타냅니다.
- "미니"는 o1 모델의 소형 버전으로 속도에 최적화되어 있다는 의미입니다.
- o - OpenAI로
- o1은 "시스템"이 아닙니다. 최종 답변을 반환하기 전에 긴 사고의 사슬을 생성하도록 훈련된 모델입니다.
- o1의 아이콘은 은유적으로 특별한 능력을 가진 외계인을 의미합니다.

o1 모델의 크기와 성능

- o1-mini는 o1-preview보다 훨씬 작고 빠르기 때문에 향후 무료 사용자에게 제공될 예정입니다.
- o1-preview는 o1모델의 초기 체크포인트로 크지도 작지도 않습니다.
- o1-mini는 STEM 작업에서 더 나은 성과를 보이지만 세계 지식이 제한적입니다.
- o1-mini는 o1-preview에 비해 특히 코드 관련 작업에서 일부 작업에 뛰어납니다.
- o1의 입력 토큰은 동일한 토크나이저를 사용하여 GPT-4o와 동일한 방식으로 계산됩니다.
- o1-mini는 o1-preview에 비해 더 많은 생각의 사슬을 탐색할 수 있습니다.

입력 토큰 컨텍스트 및 모델 기능

- o1 모델에 대해 더 큰 입력 컨텍스트가 곧 제공됩니다.
- o1 모델은 GPT-4o에 비해 청킹 입력이 덜 필요하여 더 길고 더 개방적인 작업을 처리할 수 있습니다.
- o1은 이전 모델과 달리 답변을 제공하기 전에 긴 사고의 사슬을 생성할 수 있습니다.
- CoT 중에 추론을 일시 중지하여 더 많은 컨텍스트를 추가하는 현재 방법은 없지만 이는 향후 모델에서 탐색 중입니다.

도구, 기능 및 출시 예정 기능

- o1-preview는 아직 도구를 사용하지 않지만 함수 호출, 코드 인터프리터 및 검색에 대한 지원이 계획되어 있습니다.
- 도구 지원, 구조화된 출력 및 시스템 프롬프트는 향후 업데이트에 추가될 예정입니다.
- 사용자는 향후 버전에서 생각 시간과 토큰 제한을 제어할 수 있게 될 것입니다.
- API에서 스트리밍을 활성화하고 추론 진행 상황을 고려하기 위한 계획이 진행 중입니다.
- MMMU와 같은 작업에서 최첨단 성능을 목표로 o1에는 멀티모달 기능이 내장되어 있습니다.

CoT (Chain of Thought) 추론

- o1은 추론하는 동안 숨겨진 사고의 사슬을 생성합니다.
- API 사용자나 ChatGPT에 CoT 토큰을 공개할 계획은 없습니다.
- CoT 토큰은 요약되어 있지만 실제 추론의 충실성은 보장되지 않습니다.
- 프롬프트의 지침은 모델이 문제에 대해 생각하는 방식에 영향을 미칠 수 있습니다.
- 강화 학습(RL)은 o1에서 CoT를 개선하는 데 사용되며 GPT-4o는 프롬프트만으로는 CoT 성능을 맞출 수 없습니다.
- 답변 생성이 일반적으로 더 빠르지만 사고 과정은 요약되므로 사고 단계가 더 느리게 나타납니다.

API 및 사용 제한

- o1-mini는 ChatGPT Plus 사용자를 위한 주간 50개 프롬프트 속도 제한을 갖습니다.
- ChatGPT에서는 모든 프롬프트가 동일하게 계산됩니다.
- 시간이 지남에 따라 더 많은 API 액세스 계층과 더 높은 속도 제한이 출시될 예정입니다.
- API의 프롬프트 캐싱은 인기 있는 요청이지만 아직 타임라인을 사용할 수 없습니다.

가격 책정, 미세 조정 및 확장

- o1모델 가격은 1~2년 주기로 가격 하락 추세를 따를 것으로 예상
- 요금 제한이 증가하면 일괄 API 가격 책정이 지원됩니다.
- 미세 조정은 로드맵에 있지만 아직 타임라인은 제공되지 않습니다.
- o1 확장은 연구 및 엔지니어링 인재 부족으로 인해 병목 현상 발생
- 추론 컴퓨팅을 위한 새로운 스케일링 패러다임은 차세대 모델에서 상당한 이득을 가져올 수 있습니다.
- 역 스케일링은 아직 중요하지 않지만 개인 쓰기 촉구는 o1-preview가 GPT-4o보다 약간 더 나은 성능을 보인다는 것을 보여줍니다(또는 약간 더 나쁜 성능을 보일 수도 있음).

모델 개발 및 연구 통찰력

- o1은 추론 성능을 달성하기 위해 강화 학습을 사용하여 훈련되었습니다.
- 이 모델은 시와 같은 측면 작업에서 창의적인 사고와 강력한 성과를 보여줍니다.
- o1의 철학적 추론 능력과 암호 해독 등의 일반화 능력이 인상적이다.
- o1은 연구자들이 검토를 위해 올바른 CODEOWNERS에게 ping을 보내는 GitHub 봇을 만드는 데 사용되었습니다.
- 내부 테스트에서 o1은 어려운 문제에 대해 스스로에게 테스트를 실시하여 역량을 측정했습니다.
- 광범위한 세계 도메인 지식이 추가되고 있으며 향후 버전에서 개선될 예정입니다.
- o1-mini에 대한 최신 데이터는 모델의 향후 반복(현재 2023년 10월)을 위해 계획되어 있습니다.

프롬프팅 기술 및 모범 사례

- o1은 에지 케이스나 추론 스타일을 제공하는 프롬프트 스타일로부터 이점을 얻습니다.
- o1 모델은 이전 모델에 비해 프롬프트의 추론 단서에 더 수용적입니다.
- 검색 증강 생성(RAG)에서 관련 컨텍스트를 제공하면 성능이 향상되고 관련 없는 청크로 인해 추론이 악화될 수 있습니다.

일반적인 피드백 및 향후 개선 사항

- 초기 단계 테스트로 인해 o1-preview의 속도 제한이 낮지만 증가할 예정입니다.
- 지연 시간과 추론 시간의 개선이 활발히 진행 중입니다.

주목할만한 모델 역량

- o1은 "삶이란 무엇인가?"와 같은 철학적 질문을 생각해 볼 수 있습니다.
- 연구자들은 제한된 지시를 통해 복잡한 작업을 처리하고 일반화하는 능력이 뛰어나다는 점을 발견했습니다.
- o1의 창의적인 추론 능력은 자신의 능력을 측정하기 위해 스스로에게 퀴즈를 내는 것과 같이 높은 수준의 문제 해결 능력을 보여줍니다.
전체 0