뉴스/정보

OpenAI " 앞으로 출시될 AI 모델들이 생물학 분야에서 ‘High’ 수준의 역량에 도달할 것으로 예상"

작성자
하이룽룽
작성일
2025-06-19 19:33
조회
293
https://openai.com/index/preparing-for-future-ai-capabilities-in-biology/

 



첨단 AI 모델이 생물학 연구에 기여하는 방식과 듀얼 유즈 고려사항

첨단 AI 모델은 과학적 발견을 빠르게 가속화할 수 있는 잠재력을 지니고 있으며, 이는 인류에게 큰 혜택을 줄 여러 방법 중 하나입니다. 생물학 분야에서는 이미 이러한 모델이 과학자들이 인간 임상시험에서 성공 가능성이 높은 신약 후보를 식별하도록 돕고 있습니다. 곧 이러한 모델은 신약 발견을 가속화하고, 더 나은 백신을 설계하며, 지속 가능한 연료 생산을 위한 효소를 개발하고, 희귀질환에 대한 새로운 치료법을 찾는 데에도 기여할 수 있습니다. 이를 통해 의학, 공중보건, 환경과학 전반에서 새로운 가능성이 열릴 것입니다.

한편, 이러한 모델은 듀얼 유즈(dual-use: 이중 사용) 관점을 반드시 고려하게 만듭니다. 즉, 과학 발전을 촉진하는 동시에 유해 정보의 접근을 제한해야 하는 과제가 있습니다. 생물학 데이터를 추론하거나, 화학 반응을 예측하거나, 실험을 안내하는 등의 근본적 능력은 연구 발전에 큰 도움이 되지만, 동시에 최소한의 전문지식만 가진 사람도 생물학적 위협 물질을 재현하거나, 고도로 숙련된 행위자에게 생물무기 개발을 돕는 도구로 악용될 위험을 내포합니다. 물리적으로 실험실에 접근하거나 민감 물질을 확보해야 하는 장벽이 존재하긴 하지만, 그 장벽이 절대적이지 않다는 점을 유념해야 합니다.

우리는 앞으로 출시될 AI 모델들이 생물학 분야에서 ‘High’ 수준의 역량에 도달할 것으로 예상하며(우리 Preparedness Framework*에 따른 평가 기준), 이에 대한 완화책(mitigation) 마련을 다각도로 진행하고 있습니다. 이 글에서는 다음 주제를 다룹니다:
  1. 생물학 역량 진전 시 책임 있는 접근 방식 개발
  2. 정부 기관 및 국립연구소 등 외부 도메인 전문가와의 협업
  3. 생물학적 듀얼 유즈 요청을 안전하게 처리하도록 모델 훈련
  4. 탐지, 모니터링, 집행 시스템 구축
  5. 전문가와의 적대적 레드팀(red-teaming)을 통한 완화책 시험
  6. 보안 통제(security controls) 배포

앞으로의 전망 (What’s ahead)

(이 소제목 이후에 ‘Our approach’ 등 상세 섹션이 이어집니다.)



우리 접근 방식 (Our approach)

우리는 불확실성이 큰 상황에서 책임 있게 행동해야 합니다. 그래서 생의학 연구나 생물방어(biodefense) 같은 긍정적 활용 사례에 AI를 통합하는 노력을 강화하는 동시에, 유해 역량에 대한 접근을 제한하는 데 집중하고 있습니다. 우리의 접근 방식은 예방(prevention)에 중점을 둡니다. 생물 위협 사건이 발생한 후에야 적절한 보호조치를 고민하는 것은 적절치 않다고 봅니다.

미래에는 더 깊이 있는 전문가 및 정부 협업이 필요할 것이며, 이를 통해 단일 조직이 놓칠 수 있는 문제들도 포착할 수 있을 것입니다. 우리는 이 작업의 모든 단계에서 외부 전문가와 상의해 왔습니다. 초기에는 생물안보(biosecurity), 생물무기(bioweapon), 생물테러(bioterrorism) 분야의 선도적 전문가와 학계 연구자들에게 자문을 구해, 우리의 생물위협 모델(biosecurity threat model), 역량 평가, 모델·사용 정책 수립 등에 반영했습니다. 완화책 설계 과정에서는 생물학 석사·박사 수준의 인력을 훈련자로 활용해 평가 데이터를 만들고 검증했습니다. 현재는 도메인 전문가 레드팀과 긴밀히 협업해, 고충실도(high-fidelity) 시나리오에서 우리의 방어책이 실제로 잘 작동하는지 시험하고 있습니다.

우리는 여전히 추가 연구(예: 무해한 대리 과제를 통한 초보자 실험 성공률 평가, 소위 wet lab uplift studies)도 진행 중이지만, 지금 당장 완화책을 준비·적용하고 있습니다. 또한 미국 CAISI(Center for AI Safety & Innovation)와 영국 AISI(Artificial Intelligence Safety Institute) 등 정부 기관과 긴밀히 협력 중입니다. Los Alamos 국립연구소와도 협업하여 AI의 wet lab 환경에서의 역할을 연구하고, 외부 연구자들이 생물안보 도구와 평가를 발전시키도록 지원하고 있습니다.

우리의 역량 평가는 시스템 카드(system cards)에 자세히 설명되어 있으며, 전문가 의견을 반영해 모델이 ‘High’ 문턱을 넘었을 때를 추정하도록 설계되었습니다. 이러한 평가들은 생물병원화(bioweaponization) 경로에 대한 가정에 기반한 테스트가 어려운 부분이 있음을 인정하지만, 이해관계가 큰 만큼 관련 준비 조치를 선제적으로 취하고자 합니다.



생물학 방어 강화 (Strengthening defenses in biology)

지난 2년간 우리는 모델 역량이 발전하는 과정을 추적하며, Preparedness Framework에 따라 출시 전 위험을 줄이기 위한 노력을 해왔고, 그 결과를 시스템 카드를 통해 공개해 다른 조직들도 참고할 수 있게 했습니다. 이 과정의 일부로, 전행선(frontier) 모델 훈련 중에 정기적으로 생물학 역량에 대한 평가(Preparedness evaluations)를 수행해, 모델 역량 스냅샷을 조기에 그리고 정기적으로 확보합니다.

우리는 이미 마련된 방어책이 어떻게 작동하는지, 무엇을 더 해야 하는지를 공개하면서, 동시에 악의적 행위자가 우회할 수 있는 민감한 세부사항은 공개하지 않고 있습니다.

모델 훈련: 해로운 요청 거부 또는 안전 대응 (Training the model to refuse or safely respond to harmful requests)

  • 과거부터 우리는 명백히 해로운 요청에 대해 모델이 거부하도록 훈련해왔습니다. 앞으로도 생물병원화에 직접적으로 기여하는 요청은 거부합니다.
  • 그러나 바이러스학, 면역학, 유전자공학 등 듀얼 유즈 가능 분야 요청에 대해서는 Model Spec 지침에 따라, 실행 가능한 단계별 지침 제공은 피하고 전문가 이해를 돕는 수준의 고수준 인사이트(high-level insights)만 제공합니다.
  • 자세한 단계별 실험 지침이나 wet lab 문제 해결 가이드는 악용 위험이 있다고 판단하여, 일반 사용자 대상 기본 동작은 “세부정보를 보류하고 개념적 설명을 제공”하는 쪽으로 의도적으로 기울입니다.

항상 켜진 탐지 시스템 (Always-on detection systems)

  • 최첨단 모델을 탑재한 모든 제품 표면(product surfaces)에 걸쳐, 생물 관련 위험 활동을 탐지하는 견고한 시스템을 배치했습니다.
  • 위험해 보이는 요청이 탐지되면, 모델 응답을 차단(block)하고, 자동화된 리뷰 시스템을 작동시키며, 필요 시 인간 리뷰어 개입을 시작합니다.

모니터링·집행 (Monitoring and enforcement checks)

  • 우리 제품을 유해 목적에 사용하는 것을 금지하며, 정책 위반이 포착되면 집행 조치를 취합니다.
  • 생물학적 악용 탐지에는 역시 고급 AI 추론 역량을 사용하며, 자동화 시스템과 인간 리뷰를 결합합니다.
  • 위반 시 계정 정지 등의 조치를 취하며, 심각한 경우 추가 조사를 진행하고, 법 집행기관에 통보할 수 있습니다.

엔드투엔드 레드팀 (End-to-end red teaming)

  • 다양한 전문가 레드팀과 협업하여, 실제로 결의가 있는 자원 있는 악의 세력이 방어책을 우회하려 할 때 방어망 전반이 어떻게 취약해질 수 있는지 파악합니다.
  • 생물위험 도메인 전문가는 모델 취약성 시험 경험이 부족할 수 있고, 일반 레드팀은 생물학적 유해성 판단이 어려울 수 있으므로, 양측 전문가를 조합해 협력하며, 위험 범위(risk coverage)와 견고성(robustness) 등을 테스트합니다.

보안 통제 (Security controls)

  • 방어 심층 접근법(defense-in-depth)을 통해 모델 가중치와 인프라를 보호합니다. 접근제어, 인프라 강화, 출력 통제(egress controls), 모니터링 등을 결합합니다.
  • 고위험 모델 파라미터 유출 방지를 위해 전용 탐지 및 통제 시스템을 운영합니다.
  • 항상-케이스 탐지 및 대응(Detection & Response), 전담 위협 인텔리전스, 내부 위험 관리(Insider-Risk) 프로그램을 통해 신속히 신흥 위협을 식별하고 차단합니다.

이사회 검토 및 현재 적용 현황

  • 우리 이사회 내 안전·보안 위원회(Board’s Safety and Security Committee)가 이 접근방식을 검토했으며, 이미 초기 버전을 여러 현행 모델(o3 등)에 적용했습니다. 현재 이들 모델은 Preparedness Framework상 ‘High’ 역량 문턱 아래에 있지만, 이러한 대응책을 통해 기술 시스템과 인간 리뷰 워크플로우를 개선하고 시험해왔습니다.
  • 우리는 더 많은 것을 배우면서 지속적으로 변경·개선을 이어갈 것입니다.



향후 계획 (What’s ahead)

우리가 자체 모델을 보호하는 데 집중하는 동시에, 모든 조직이 동일한 예방조치를 취하지 않을 수 있으며, AI 생물 역량이 널리 보급되고 생명과학 합성 도구 접근성이 증가하는 더 넓은 문제에도 직면할 것임을 인식합니다.
  • 바이오디펜스 서밋(Biodefense summit):
    • 다가오는 7월에 정부 연구자와 NGO를 소규모로 초청하여 듀얼 유즈 위험을 논의하고, 첨단 AI 모델이 연구 가속화와 대응책 개발에 어떻게 기여할지 탐구할 예정입니다.
    • 목표는 미국 및 우방 정부와 파트너십을 심화하고, 최첨단 생물방어 연구(예: 카운터메저, 신치료법 발굴 등)에서 AI가 할 수 있는 역할을 이해하며, 생태계 전반의 협업을 강화하는 것입니다.
  • 검증 기관(vetted institutions)에 대한 접근 권한 부여:
    • 엄격한 심사를 거친 기관에 한해 최대한 유용한 모델 접근을 허용하여, 진단법, 대응책, 새로운 실험 기법 개발 등을 지원합니다.
    • 공공 및 민간 부문이 함께 협력하여 생명과학 발전을 촉진하는 것을 목표로 합니다.
  • 비-AI 생물방어 역량 강화:
    • 핵산 합성 모니터링 강화(최근 행정명령 Executive Order 등을 기반으로), 신종 병원체 조기 탐지 시스템 강화, 생물위협 인프라 보강, 생물안보 혁신 기술에 대한 투자 등을 제안합니다.
    • AI 모델 자체뿐 아니라, 사회 전반의 생물방어 역량을 강화해야 장기적으로 탄력적인 대응체계를 마련할 수 있다고 봅니다.
  • 창업·투자 기회:
    • AI와 생물안전 연구가 결합된 분야에서 창업 기회가 늘어날 것으로 예상합니다.
    • 안전·보안 서비스를 핵심으로 삼는 스타트업들이 등장하고, 투자자들의 관심을 받을 것입니다. 우리는 이러한 움직임을 촉진하고 가속화하는 데 적극 참여할 계획입니다.
우리는 전 세계 정부, 연구자, 창업자들과 더욱 협력하기를 고대합니다. 그 협력이 AI 기반 생물안보 생태계를 준비시키는 것뿐만 아니라, 앞으로 도래할 놀라운 과학적 돌파구를 함께 활용하는 데에도 중요하다고 믿습니다.



부가 설명 및 주의사항

  • Preparedness Framework: AI 모델의 생물학적 역량을 단계별로 평가하기 위한 내부 프레임워크로, ‘Low’에서 ‘High’ 이상의 수준까지 측정합니다.
  • 시스템 카드(System cards): 모델 평가 결과와 위험 완화 노력 등을 투명하게 공개하는 문서.
  • CAISI, AISI: 각각 미국·영국의 AI 안전·혁신 관련 정부 협의체 또는 기관.
  • Los Alamos 국립연구소: 생물안전 및 생물방어 연구 협업 기관 중 하나.
  • Wet lab uplift studies: 초보자나 비전문가가 무해한 프로토콜을 실험실에서 수행해보도록 해 모델 도움 유무 및 위험 수준을 평가하는 연구.
  • Always-on detection, 모니터링·집행, 레드팀, 보안 통제 등은 모두 다층 방어(Defense-in-depth) 원칙에 입각해, 자동화 시스템과 인간 검토를 결합하여 AI가 악용되는 것을 방지하기 위한 조치들입니다.



 
전체 0