자유게시판
Arc AGI는 이전 5년간 사실상 ‘무적’으로 남아 있던 난이도 높은 일반추론 테스트
작성자
작성일
2024-12-21 15:50
조회
495
https://www.youtube.com/live/SKBG1sqdyIU?si=IzyFvUEkFASAcYMN


O3와 O3-mini 발표 요약 (한국어 번역)
OpenAI는 “12 Days of OpenAI” 이벤트의 마무리로 새로운 추론 모델 O3와 O3-mini를 발표하고, 이 모델들이 보여주는 고차원 추론, 코딩, 수리 능력의 도약을 시연했습니다. 두 모델 모두 이전 세대 모델(O1, O1-mini)보다 여러 복잡한 과제를 훨씬 더 높은 수준으로 처리해냅니다. 또한, 모델 출시 전에 공개 안전성 테스트 단계를 거치겠다고 밝혀, 연구자들이 잠재적인 위험성과 취약점을 찾도록 독려했습니다.- 지난 성과와 O3의 등장
- O1(“01”) 모델 발표 이후부터 쌓아온 오픈AI의 추론 모델 발전 과정을 간단히 정리하며, 이번에 공개한 O3가 이전보다 훨씬 높은 수준의 복잡한 문제를 풀 수 있음을 강조했습니다.
- “프론티어 모델”로서의 O3
- 팀은 O3가 단순 보조가 아닌, 프론티어 모델로서 극도로 어려운 과제까지도 별도의 힌트 없이 해결할 수 있음을 언급했습니다. 특히 코딩·수학·논리 영역에서 뛰어난 성능을 보인다는 점을 보여줍니다.
- 공개 출시 전 ‘안전성 테스트’
- 이번 발표에서 O3와 O3-mini가 당장 전면적으로 퍼블릭 공개되지 않는 이유는, 안전성 테스트와 보안 취약성 점검을 더 철저히 하려는 목적 때문이라고 설명했습니다. 연구자용 신청 페이지를 통해 신청하면 모델에 조기 접근할 수 있도록 했고, 1월 10일까지 신청을 받습니다.
- 코딩·수학 분야에서의 성능
- Codeforces 같은 코딩 대회 수준의 문제를 풀거나, AIME(미국 수학 경시대회) 등에서 인간 수준 혹은 그 이상의 성능을 내며, 이전 모델(O1)을 큰 폭으로 능가한다고 밝혔습니다. O3는 복잡한 알고리즘 문제에서 압도적인 정확도를 달성했고, 수학 분야에서도 극도로 어려운 문제를 해결하는 데 큰 진전을 보였습니다.
- Epic AI ‘프론티어 수학(Frontier Math)’ 벤치마크
- Epic AI가 제공하는 매우 난이도 높은 수학 벤치마크에서, 기존 모델들이 2% 이하의 정확도에 그쳤던 것을 O3가 25% 이상으로 높였습니다. 이 지표는 모델이 기존에 보지 못한 수학 문제를 얼마나 일반화하여 풀 수 있는지 평가하는 데 중요한 자료가 됩니다.
- Arc AGI 벤치마크와 AGI 진전에 대한 의미
- Arc Prize Foundation이 제시한 Arc AGI 벤치마크에서, O3는 제한된 컴퓨팅 자원만 사용한 모드에서 75.7%로 신규 최고 성적을 거두었고, ‘고(高) 컴퓨트 모드’에서는 87.5%에 달해, 대다수 인간 전문가가 내는 약 85% 성능을 초과했습니다.
- Arc AGI는 이전 5년간 사실상 ‘무적’으로 남아 있던 난이도 높은 일반추론 테스트로, 이 기록은 **AGI(범용 인공지능)**로 가는 중요한 이정표라는 점이 강조되었습니다.
- O3-mini: 비용·속도·성능을 모두 잡은 모델
- O3-mini는 O3보다 소형화되었지만, ‘로우(LOW)’, ‘미디엄(MEDIUM)’, ‘하이(HIGH)’ 세 가지 수준의 추론 시간을 자유롭게 조절해 상황에 맞는 추론 강도를 선택할 수 있습니다.
- 코드 포스(Codeforces) 등 여러 테스트에서 O3-mini (HIGH 모드)가 O3와 거의 비슷한 성능을 낼 정도로 효율이 높으면서도, (LOW 모드)일 때는 반응 속도와 비용이 훨씬 절감됩니다.
- ‘딜리버레이티브 얼라인먼트(Deliberative Alignment)’ 안전성 기법
- OpenAI는 모델 자체의 추론 능력을 활용하여 유저가 제시하는 문제가 ‘안전한 요청인지, 위험한 요청인지’를 스스로 사고하게 함으로써 **거짓 거부(false refusals)**와 거짓 수락(false acceptances) 모두를 줄이는 새로운 안전성 강화 훈련 방안을 소개했습니다.
- 이 접근법은 모델이 의심스러운 질문이나 명령이 주어졌을 때, 의도를 파악하고 그에 맞게 안전히 거부 혹은 수용할 수 있게 도와줍니다.
- 조기 접근 신청 및 출시 일정
- 연구자가 1월 10일까지 O3 조기 접근 프로그램을 신청할 수 있으며, 결과는 내부 검토를 거쳐 선정됩니다.
- O3-mini는 1월 말 출시를 목표로 하며, 그 직후 O3가 출시될 예정입니다.
- AGI로 가는 길에서의 중요 지점
- 발표 전반에서, O3의 강력한 해결 능력이 기존 AI와 달리 인간 전문가 급 또는 그 이상의 성능을 낸다는 점이 두드러졌습니다. 특히 Arc AGI나 ‘프론티어 수학’ 등 고난도 지표에서 괄목할 만한 성공을 거둔 점을 들어, 이 모델이 더 포괄적이고 일반화된 지능(AGI)에 한 걸음 다가섰음을 시사했습니다.
추가 흥미로운 언급
- 이름(O3) 유래 O3 모델의 명칭은 다음 버전을 O2라고 부를 것이라 예상했던 사람들에게 의외였다고 합니다. “OpenAI는 이름 짓기에 유독 서투르다(bad at names)”는 농담 섞인 언급과 함께, 이 모델 시리즈를 그대로 “O3”로 명명하게 되었다고 밝혔습니다.
- 코드 자가평가 데모 발표 중에 O3-mini가 “스스로를 평가(Eval)”하는 기능을 시연했는데, 모델이 자체적으로 코드 스크립트를 작성하고, 그 결과를 다시 모니터링하여 특정 벤치마크(예: GPQA) 정확도를 계산하는 모습이 흥미로웠습니다. 이는 모델이 단순히 질문 답변을 넘어, 메타적(자가 점검적)으로 활용될 수 있음을 보여줍니다.
- Arc AGI 벤치마크에 대한 협력 Arc Prize Foundation(ARC 재단)과 함께 새로운 차원의 벤치마크를 내년 중에 개발할 것이라 밝혔습니다. O3가 현재 기록을 크게 높인 만큼, “진짜 일반 지능” 여부를 더욱 정교하게 가늠하기 위한 후속 프로젝트가 이루어질 것으로 보입니다.
- 오픈AI의 안전성 관점 모델이 고도화됨에 따라 안전성·윤리적 사용이 더욱 중요해졌다고 반복해서 강조했습니다. O3 시리즈에 앞서 일반 공개 전에 외부 연구자들과 협력해 다양한 악용 사례를 점검하겠다는 점이 인상적이었습니다.
- 미래 활용 분야 발표에서는 교육, 연구, 코딩, 수학 문제 해결, 데이터 분석 등 많은 가능성을 시사했습니다. 특히 프로그래밍 어시스턴트로서 O3가 보일 성능은 전 세계 개발자의 주목을 받을 만하며, 일반 사용자 대상으로도 큰 편의를 줄 수 있을 것으로 기대됩니다.
전체 0