GPT-5.6 Sol 프리뷰 소개

작성자

작성일

2026-06-27 12:00

조회

https://openai.com/index/previewing-gpt-5-6-sol/

핵심 요약

OpenAI가 GPT-5.6 시리즈를 제한적으로 공개했다. 모델은 세 가지로 나뉜다.

Sol은 최상위 플래그십 모델이고, Terra는 일상 작업용 균형형 모델, Luna는 빠르고 저렴한 모델이다. Terra는 GPT-5.5와 경쟁할 만한 성능을 내면서 비용은 약 2배 저렴하고, Luna는 가장 낮은 비용으로 강한 성능을 제공한다고 설명한다.

이번 출시는 바로 전체 공개가 아니라, 미국 정부와 사전 조율한 제한 프리뷰 형태로 시작된다. OpenAI는 이것이 장기적인 기본 절차가 되어서는 안 된다고 말하면서도, 사이버 관련 행정명령 프레임워크와 향후 모델 출시 절차를 만들기 위해 단기적으로 필요한 조치라고 설명한다.

성능 향상

GPT-5.6 Sol은 OpenAI가 현재까지 만든 모델 중 가장 강력한 모델이라고 소개된다. 특히 코딩, 생물학, 사이버보안 영역에서 에이전트형 능력이 크게 향상되었다.

코딩에서는 Terminal-Bench 2.1에서 새로운 최고 성능을 기록했다고 한다. 이 벤치마크는 단순 코드 작성이 아니라, 터미널 환경에서 계획·반복·도구 조율이 필요한 작업을 평가한다.

점수는 대략 다음과 같다.

모델	Terminal-Bench 2.1 점수
GPT-5.6 Sol Ultra	91.9%
GPT-5.6 Sol	88.8%
Claude Mythos 5	84.3%
GPT-5.6 Terra	82.5%
GPT-5.5	88.0%
GPT-5.6 Luna	84.3%
Gemini 3.1 Pro Preview	70.7%

흥미로운 점은 Sol Ultra라는 모드다. GPT-5.6에서는 Sol이 더 오래 깊게 추론할 수 있는 max reasoning effort가 도입되고, 단일 에이전트 한계를 넘어 여러 서브에이전트를 활용하는 ultra mode도 추가된다.

생물학·유전체 분석 성능

생물학 쪽에서는 GeneBench v1에서 GPT-5.5보다 강한 성능을 보였고, 동시에 더 적은 토큰을 사용했다고 설명한다. 이 벤치마크는 장기적인 유전체 분석, 정량 생물학 분석 같은 복잡한 워크플로를 평가하는 것으로 보인다.

즉, 단순히 답을 잘 맞히는 수준이 아니라 긴 분석 작업을 더 효율적으로 수행하는 능력이 강화되었다는 주장이다.

사이버보안 능력과 위험성

GPT-5.6 Sol은 OpenAI의 가장 강력한 사이버보안 모델이라고 소개된다. 취약점 연구, 익스플로잇 분석 같은 긴 작업에서 성능과 효율이 크게 좋아졌다고 한다.

다만 OpenAI는 Sol이 취약점을 찾고 고치는 데는 강하지만, 완전한 엔드투엔드 공격을 안정적으로 수행하는 단계는 아니다라고 선을 긋는다. Chromium과 Firefox 관련 평가에서는 버그와 익스플로잇 구성 요소는 찾아냈지만, 테스트 조건하에서 완전한 풀체인 익스플로잇을 자율적으로 만들지는 못했다고 설명한다.

그래서 OpenAI는 GPT-5.6 Sol이 자사의 Preparedness Framework 기준에서 Cyber Critical threshold를 넘지는 않았다고 말한다.

다만 모델의 능력이 크게 뛰었기 때문에, 벤치마크만으로 모든 실제 사용 위험을 설명할 수는 없다고 보고, 더 강한 안전장치와 단계적 출시를 병행한다고 한다.

안전장치 강화

이번 GPT-5.6 시리즈에는 OpenAI가 지금까지 만든 것 중 가장 강력한 안전 스택이 적용되었다고 한다.

주요 안전장치는 다음과 같다.

모델 자체가 금지된 사이버 지원을 거부하도록 훈련됨
생성 중 실시간으로 사이버·생물학 오남용 분류기가 작동함
위험한 경우 더 큰 추론 모델이 대화를 검토함
문제가 있다고 판단되면 출력이 사용자에게 도달하기 전에 차단됨
반복적 악용 패턴은 계정 수준에서 검토됨
접근 권한을 차등화해 민감 기능이 기본적으로 널리 풀리지 않도록 함

OpenAI는 특히 합법적인 방어 작업, 예를 들어 코드 리뷰, 취약점 연구, 패치 개발, 디버깅, 보안 교육, 방어적 테스트는 최대한 지원하면서, 공격적 악용은 더 어렵고 불확실하며 탐지 가능하게 만드는 것이 목표라고 설명한다.

자동화된 레드팀

안전성 검증에는 대규모 자동 레드팀이 사용됐다. OpenAI는 70만 A100-equivalent GPU hours 이상을 투입해 범용 jailbreak를 찾는 자동화 테스트를 진행했다고 한다.

여기서 중요한 건 특정 프롬프트 하나를 뚫는 방식이 아니라, 여러 상황에서 반복적으로 통하는 보편적 jailbreak 공격을 찾는 데 집중했다는 점이다. 이를 통해 인간 테스트만으로는 확인하기 어려운 공격 패턴을 더 많이 탐색하고, 취약점을 더 빠르게 찾아 수정하려 했다고 설명한다.

또한 외부 전문가를 활용한 인간 레드팀도 진행했으며, 프리뷰 기간에도 계속 이어진다.

출시 방식

GPT-5.6은 처음부터 모두에게 공개되는 것이 아니라, API와 Codex를 통해 일부 신뢰된 파트너와 조직에 먼저 제공된다. 이후 ChatGPT, Codex, API 사용자에게 더 넓게 제공할 계획이다.

OpenAI는 이번부터 새로운 네이밍 체계를 도입했다. 숫자 5.6은 모델 세대를 의미하고, Sol·Terra·Luna는 성능 티어를 의미한다. 즉 앞으로도 각 티어가 독립적인 속도로 발전할 수 있다는 뜻이다.

가격

가격은 100만 토큰 기준으로 다음과 같다.

모델	입력	출력
GPT-5.6 Sol	$5	$30
GPT-5.6 Terra	$2.50	$15
GPT-5.6 Luna	$1	$6

또한 GPT-5.6부터는 더 예측 가능한 프롬프트 캐싱이 도입된다. 명시적 캐시 브레이크포인트와 최소 30분 캐시 유지가 지원된다. 캐시 쓰기는 일반 입력 가격의 1.25배, 캐시 읽기는 기존처럼 캐시 입력 90% 할인이 적용된다.

전체 1

하이룽룽

2026-06-27 12:04

알트만 트윗

« OpenAI와 Broadcom, LLM에 최적화된 추론 칩 공개

목록보기 답글쓰기

글수정 글삭제