인터뷰/예측

앤트로픽 니콜라스 칼리니 "최신 LLM은 이미 고급 보안 연구자 수준으로 심각한 취약점을 찾고 익스플로잇할 수 있는 단계에 가까워졌다"

작성자
하이룽룽
작성일
2026-03-29 21:15
조회
5

전체 요지

Nicholas Carlini는 “LLM이 이제 실제로 매우 중요한 소프트웨어에서 제로데이 취약점을 자율적으로 찾고, 심지어 익스플로잇까지 만들 수 있는 단계에 들어섰다”고 주장했어.
그리고 이건 단순한 미래 가능성이 아니라, 이미 현재 진행형이며 앞으로 몇 달~몇 년 안에 더 빨라질 거라고 강하게 경고했어.



1. 지금 LLM은 이미 위험할 정도로 강해졌다고 봄

그의 핵심 메시지는 이거야:
  • 요즘 최신 모델은 복잡한 보조 시스템 없이도
    • 취약점을 찾고
    • 심각도를 판단하고
    • 때로는 실제 공격 코드까지 작성할 수 있다.
  • 심지어 예전 같으면 상급 보안 연구자만 찾을 수 있었던 버그도 찾아낸다고 말함.
즉,
“LLM은 이제 장난감 수준이 아니라 실제 공격/방어 역학을 바꿀 만큼 강해졌다”는 입장이야.



2. Anthropic 내부에서 한 방식은 생각보다 단순했다고 함

Carlini가 설명한 실험 방식은 의외로 단순했어.

대충 이런 식:
  • Claude Code를 VM에서 돌리고
  • 권한 제한도 거의 없이 두고
  • “CTF 하듯이 취약점 하나 찾아서 가장 심각한 걸 보고서로 남겨라”라고 시킴
그랬더니 상당히 괜찮은 취약점 보고서와 심각한 버그를 실제로 찾아냈다고 말해.

그가 강조한 포인트는,
정교한 전용 툴체인 없이도 이 정도가 된다는 점이었어.
즉 악의적인 사람이 굳이 6개월 동안 고급 퍼징 인프라를 만들지 않아도 될 수 있다는 거지.



3. 예시 1: Ghost CMS에서 치명적 SQL Injection 발견

그가 소개한 사례 중 하나는 Ghost CMS라는 인기 있는 웹앱이야.

그가 말한 내용:
  • GitHub 스타도 많고 꽤 널리 쓰이는 프로젝트인데
  • 역사상 치명적 취약점이 없었는데
  • Anthropic 쪽에서 첫 critical 취약점을 찾았다고 함
  • 취약점 유형은 SQL Injection
특히 흥미로운 건:
  • 이 취약점은 blind SQL injection이라서
  • 결과가 직접 보이지 않고 시간 지연이나 오류 여부 같은 간접 신호만 보고 공격해야 함
  • 그런데 모델이 실제 익스플로잇 코드를 써서
    • 인증 없이
    • 관리자 API 키/비밀값
    • 비밀번호 해시 등
      중요한 자격 증명들을 뽑아냈다고 설명함
Carlini가 말하고 싶은 건
“이 공격 자체가 인간에게 불가능한 건 아니지만, 꽤 미묘한 구현 감각이 필요한데 모델이 그걸 해낸다”는 점이야.



4. 예시 2: 리눅스 커널의 오래된 버그도 찾음

더 충격적인 사례로 그는 Linux kernel 쪽 취약점을 언급했어.

요지는:
  • 리눅스 커널은 매우 단단하게 관리되는 핵심 소프트웨어인데
  • 모델들이 원격 악용 가능한 힙 버퍼 오버플로우 같은 심각한 버그를 찾아냈다
  • 그것도 NFS 관련 코드에서,
    두 클라이언트가 상호작용하는 미묘한 상태 전이를 이해해야 발견 가능한 버그였다고 설명함
그는 이 점을 굉장히 강조했어:
  • 이런 버그는 단순 퍼징으로 찾기 어려움
  • 공격 흐름도 꽤 복잡함
  • 그런데 LLM이 이 논리를 이해하고 설명도 잘 정리해서 보고서까지 썼다
게다가 그 버그는 2003년부터 있었던 오래된 버그라고 말했어.
즉, 수십 년간 살아남은 취약점을 최신 모델이 찾아내는 시대라는 뜻으로 사용한 거지.



5. 최근 몇 달 사이 성능 점프가 매우 컸다고 주장

Carlini는 특히 최근 3~4개월을 강조했어.

그의 주장:
  • 불과 6개월~1년 전 모델들은 이런 수준의 버그를 거의 못 찾았음
  • 그런데 최근 3~4개월 내 나온 모델들은 가능해지기 시작했다
  • 즉, 이 능력은 먼 미래가 아니라 방금 임계점을 넘은 능력이라는 것
그래서 그는
“이건 이제 막 시작된 거고, 앞으로 더 강해질 가능성이 높다”고 봄.



6. 보안 업계가 이 변화를 과소평가하고 있다고 비판

Carlini는 보안 업계 일부가 이 현실을 부정하거나 과소평가한다고 꽤 강하게 말했어.

그의 관점은:
  • 과거에는 공격보다 방어가 구조적으로 유리한 경우가 많았음
  • 하지만 LLM이 공격 역량을 대폭 자동화하면
    그 균형이 흔들릴 수 있음
  • 그런데도 많은 사람들이 아직
    “에이 아직 멀었어”
    라고 생각하고 있다는 거지
그는 이를 인터넷 등장급 변화에 비유했어.
즉, 인터넷이 원격 공격의 시대를 열었듯,
LLM은 보안 분야에서 그 정도 급의 변화를 만들 수 있다고 본 거야.



7. 가장 어려운 문제는 “이중용도(dual-use)”라고 봄

질문 답변에서 그가 꽤 중요하게 말한 부분이 이거야.

보안용 LLM은 본질적으로 이중용도라는 것:
  • 좋은 사람은 취약점을 찾아서 고치려고 쓴다
  • 나쁜 사람은 취약점을 찾아서 공격하려고 쓴다
그래서 모델 제공사 입장에서는 딜레마가 생김:
  • 안전장치가 너무 약하면 악용을 막지 못함
  • 안전장치가 너무 강하면 정당한 보안 연구자도 못 쓰게 됨
Carlini는
“약한 가드레일은 선한 사용자만 불편하게 하고, 악의적인 사용자는 어차피 우회할 수 있다”는 문제를 지적했어.

즉 앤트로픽도 막으려 하지만,
무조건 다 차단하는 방식은 답이 아니고 균형이 매우 어렵다는 입장이야.



8. 장기적으로는 방어자가 이길 수도 있지만, 과도기가 위험하다고 봄

그는 장기적으로는 어느 정도 낙관론도 말했어.

예를 들면:
  • 더 많은 소프트웨어를 Rust로 다시 쓰고
  • 프로토콜을 형식 검증하고
  • 더 안전한 시스템을 만들면
  • 궁극적으로는 취약점 밀도가 줄어들 수 있다
하지만 문제는 지금부터 그 안정 상태에 도달하기 전까지의 과도기라는 거야.

그의 생각은 대충 이거야:
  • 언젠가는 방어 체계가 좋아질 수도 있음
  • 하지만 지금 당장은 공격 역량 증가 속도가 너무 빠르다
  • 그래서 앞으로 몇 달~몇 년이 특히 위험할 수 있다
즉,
“최종적으로는 좋아질 수 있지만, 그 전에 큰 혼란이 올 수 있다”는 시각이야.



9. 그는 꽤 진심으로 “도와달라”고 요청함

마지막 톤은 거의 경고에 가까웠어.

Carlini는 이런 취지로 말함:
  • 자신이 검증도 못 한 커널 크래시/잠재 버그가 너무 많다
  • 오픈소스 개발자들에게 검증 안 된 잡음을 마구 던질 수도 없다
  • 그런데 자신 혼자만 이런 걸 가진 게 아니라,
    곧 악의적인 사람 누구나 비슷한 능력을 갖게 될 수 있다
  • 그래서 보안 커뮤니티 전체가 빨리 대응해야 한다
그리고 “Anthropic이든 Google이든 OpenAI든 상관없다, 그냥 이 문제 해결에 다 같이 힘 써야 한다”는 식으로 말했어.



한 줄 요약

“최신 LLM은 이미 고급 보안 연구자 수준으로 심각한 취약점을 찾고 익스플로잇할 수 있는 단계에 가까워졌고, 이 속도는 매우 빠르게 증가 중이므로 앞으로 몇 달이 보안상 매우 위험한 전환기가 될 수 있다”
전체 0