인터뷰/예측

Deepseek 연구원 "자기개선이 가능한 출발선은 이미 넘었다고 느낀다"

작성자
하이룽룽
작성일
2026-03-07 23:37
조회
38


 

데이비드: 방금 말씀하신 메모리 문제, 자기 개선 루프, 세계 모델링, 그리고 버튼을 클릭하는 것과 같은 행동의 한계까지, 이 모든 것들이 해결된다면, 기하급수적인 빠른 이륙(fast take-off)이 일어날 것이라고 기대해도 될까요?

지한: 네, 이 문제들만 다 해결된다면 당연히 그렇게 될 것이라고 생각합니다.

데이비드: 그렇다면 직관적으로 볼 때 지금 코딩 도구들(예: Cursor 등)을 보면, 아직 진정한 의미의 AGI까지 얼마나 남았다고 보시나요?

지한: 제 독특한 견해를 말씀드리자면, 저는 초등학교 때부터 "매년이 결정적인 해(pivotal year)다"라는 말을 들어왔습니다. 하하. 그래서 어느 해가 다른 해보다 더 결정적인지 잘 모르겠습니다. 제 생각은 이렇습니다. 만약 당신이 지금이 결정적인 시대라고 느낀다면, 그냥 즐기세요. 뒤처지거나 공식적인 틀에 얽매이는 것을 두려워하지 마세요.

결국 언젠가 모든 사람들은 일할 필요가 없어질 겁니다. 인간의 업무 효율성이 미래의 AI보다 훨씬 낮을 것이기 때문이죠. 만약 인간이 여전히 AI보다 뛰어난 강점을 가지고 있다면, 우리는 그것을 이용해 AI를 개선할 수 있습니다. 만약 인간이 사회를 개선하는 데 다소 쓸모없어진다면, 그냥 두 개의 AI가 알아서 처리하게 냅두면 됩니다.

그래서 제 생각엔, 먼저 우리가 AI가 뛰어난 능력을 갖추도록 확실히 해야 하고, 동시에 그들이 인간을 해치지 않도록 가치 정렬(alignment)을 확인해야 합니다. 그러고 나면 AI 스스로가 "어떻게 하면 인간을 더 낫게 만들지?", "어떻게 사회와 교육 시스템을 개선할지?", "우리가 철학적으로 어떤 존재인지?" 등을 생각하게 만들 수 있습니다. 우리가 충분히 강력한 AI를 갖게 된다면, AI가 이 모든 것을 파악할 것입니다. 이것이 우리가 이 AI 분야에서 일하는 진짜 의미라고 생각합니다.

데이비드: 맞아요. 기술적 타이밍과 가능한 것들에 대한 직관을 갖는 게 중요하죠. 구글 글래스를 예로 들면, 2012년에 나왔는데 기술적으로 너무 일렀잖아요. AI 분야에서도 1950년대부터 AGI가 몇 주 남았다고 예측하는 사람들이 있었으니까요. 무엇이 가능한지 제대로 된 직관을 갖는 게 정말 가장 어려운 부분인 것 같습니다.

지한: 네. 그래서 단순히 미래의 아이디어를 내는 천재가 되는 것만으로는 부족하고, 현재의 도구와 기술로 무엇이 당장 구현 불가능한지를 아는 것도 중요합니다. 쓸데없이 시간을 낭비하지 않도록 말이죠.

 

전체 요약

이 인터뷰는 DeepSeek 출신 연구자 John Wang이 현재 AI 연구의 최전선에서 무엇이 병목이고, 자기개선(self-improving) 에이전트가 얼마나 가까이 왔는지, 그리고 중국과 미국의 AI 경쟁을 어떻게 보는지에 대해 이야기한 내용이야.

그의 핵심 주장은 대략 이거야:
  • 지금의 모델들은 이미 꽤 강력하며, 자기개선 에이전트의 출발선은 넘었다
  • 하지만 실제 자기개선 루프가 돌려면 아직 중요한 병목이 남아 있다
  • 가장 큰 병목은
    • 메모리(memory)
    • 실패에서 배우는 능력
    • 환경/world modeling 능력
  • 단순히 모델이 똑똑한 것만으로는 부족하고, 환경 안에서 행동하고 장기적으로 기억하며 스스로 개선하는 구조가 필요하다



1. DeepSeek에서 한 일

John Wang은 2024년 초 DeepSeek에 합류했고, 당시 DeepSeek은 MoE(Mixture of Experts) 기반 모델과 DeepSeek V2를 작업 중이었다고 해.

그가 주로 한 일은 expert specialization(전문가 특화) 관련 연구였어.

핵심은:
  • 대형 sparse model 안에 많은 expert가 있을 때
  • 각 expert가 진짜 자기 역할을 하도록 만들고
  • 특정 downstream task에 맞는 expert를 특화 학습시켜
  • 새 도메인 적응 시 메모리와 계산량을 줄이면서
  • 전체 일반 능력은 유지하는 것
즉,
“전체 모델을 다 건드리지 않고도 특정 작업에 더 잘 맞게 만들되, 범용성은 잃지 않게 하자”는 방향이야.



2. AI 성능 향상의 핵심: 데이터 vs 알고리즘

그는 좋은 데이터와 좋은 알고리즘 둘 다 중요하다고 봤어.

현재는 주요 랩들이 사실상 인터넷 데이터를 대부분 긁어온 상황이라, 앞으로의 차별점은 단순히 데이터 양만이 아니라 다음 같은 요소가 될 수 있다고 했어.
  • 더 좋은 공개/비공개 데이터
  • 더 좋은 인프라
  • 더 빠른 실험 반복 속도
  • 더 많은 컴퓨팅 자원
  • 더 나은 알고리즘/아키텍처
특히 DeepSeek의 강점으로는 매우 좋은 인프라와 빠른 실험 문화를 강조했어.
“아침에 아이디어가 떠오르면 오후에 바로 구현할 수 있다”는 식으로 말했지.



3. DeepSeek 문화에 대한 평가

그가 묘사한 DeepSeek 문화는 꽤 인상적이야.

특징:
  • bottom-up 구조
  • 연구자가 아이디어를 제안하면 빠르게 추진 가능
  • 상사가 세세하게 간섭하지 않음
  • 필요한 자원만 확보해줌
  • 알고리즘 팀과 인프라 팀 협업이 활발함
즉, 위에서 통제하는 문화보다 유능한 사람들이 자율적으로 밀어붙이는 문화에 가깝다고 본 거야.



4. 주요 AI 랩들에 대한 평가

그는 여러 AI 회사들에 대해 짧게 평가했어.

Anthropic

  • 코딩 에이전트가 좋다
  • 제품 전략이 좋다고 평가
  • “co-workers” 같은 방향성이 마음에 든다고 언급

OpenAI

  • 아주 예전부터 OpenAI를 알고 있었고
  • OpenAI Gym, VPT 같은 작업들이 본인 연구 동기에도 영향을 줬다고 함
  • 특히 비디오를 통해 세계를 이해하는 모델 방향에 흥미를 느꼈다고 말함

Google DeepMind

  • AlphaGo가 중학생 시절 큰 인상을 남겼다고 함
  • 이후 본인 연구와 시기적으로 연결되는 상징성도 언급

DeepSeek

  • 여전히 강점은
    • 좋은 인프라
    • 일하는 방식
    • 인재 수준
  • 특히 중국 베이징 하이뎬 지역의 대학들(칭화, 베이징대 등)에서 나오는 인재 풀을 강조

xAI

  • 추론 인프라, multi-turn agentic rollout 쪽 속도가 매우 빠르다고 평가
  • 특히 inference infra가 빠르다고 봄

Moonshot AI

  • 좋은 논문들을 잘 읽고
  • 아직 대세가 아니더라도 가능성 있는 아이디어를 과감히 채택하는 팀이라고 평가



5. 중국 vs 미국 AI 경쟁

이 부분에서 그는 정치 얘기보다는 인재와 교육 시스템 쪽에 집중해서 말했어.

중국 교육 시스템의 특징

그가 말한 핵심은:
  • 아주 어릴 때부터 경쟁적이고 표준화된 선발 시스템이 있다
  • 학교 밖 추가 학습, 경시대회, 월간 시험, 모의고사 등이 많다
  • 압박이 크고 경쟁이 심하다
  • 대신 그런 시스템에서 꾸준히 뛰어난 인재를 걸러낼 수 있다
즉,
중국은 표준화된 고압 경쟁 시스템으로 인재를 대량 선별하는 구조라는 거지.

미국 시스템과 비교

그는 미국 쪽은 더 interest-driven이라고 봤어.
  • 관심 있으면 깊게 파고들 수 있고
  • 동기부여가 강한 사람은 역시 최고가 될 수 있다
결론적으로 그는
  • 중국식 시스템도 최고 인재를 만들 수 있고
  • 미국식 시스템도 최고 인재를 만들 수 있다 고 봤어.
다만 차이는
  • 중국은 시스템적으로 많은 자원을 투입해 통계적으로 더 많은 인재를 뽑아낼 수 있고
  • 미국은 개인의 흥미와 자율성이 더 큰 편이라는 정도로 봤어.



6. 에너지보다 더 중요한 것: 자기개선 에이전트

인터뷰어는 중국의 전력 증설과 에너지 우위를 언급했는데, John Wang은 더 중요한 포인트를 “누가 먼저 자기개선 에이전트를 만드느냐”로 봤어.

그는 대략 이렇게 말해:
  • 진짜 중요한 건 단순한 에너지 규모보다
  • 스스로를 개선할 수 있는 에이전트를 누가 먼저 만들고 돌리느냐
  • 그 시점이 되면 게임이 완전히 달라질 수 있다
즉, AI 경쟁의 승부처를 단순한 GPU 숫자보다 recursive self-improvement 쪽에서 본 거야.



7. 자기개선 에이전트는 얼마나 가까운가?

이 인터뷰의 핵심 주제 중 하나야.

그는 꽤 강하게 말해:
  • 현재 에이전트들은 이미
    • 상식 능력
    • 추론 능력
    • 인간 의도와 정렬된 기본 능력
      을 꽤 갖췄고,
  • 자기개선이 가능한 출발선은 이미 넘었다고 느낀다고 했어.
하지만 아직 병목이 있다고 봤지.



8. 가장 큰 병목 1: 메모리

그가 가장 크게 꼽은 문제는 memory야.

단순히 context window가 길다고 해결되는 문제가 아니라는 점을 강조했어.

왜 문제인가?

예를 들어:
  • 에이전트가 여러 단계를 거치며 작업하다가
  • 컨텍스트가 길어져 요약/정리되면
  • 초기에 주어진 중요한 안전 지침이나 맥락을 잃어버릴 수 있다
그 예로,
코딩 에이전트가 작업 중 파일을 지워버린 사례를 언급하면서
기억의 지속성과 활용이 부족하다고 봤어.

메모리 문제의 두 부분

  1. 많은 메모리를 담을 수 있어야 한다
  2. 그 메모리를 실제로 꺼내 써야 한다
즉, 저장만 많이 하는 게 아니라 retrieval과 utilization이 중요하다는 거야.

그가 본 가능한 방향

그는 두 가지 방향을 언급했어.

1) 인간처럼 파라미터 안에 기억을 녹여넣는 방식

  • 인간 기억은 단순 캐시가 아니라 재구성/환각적 성격이 있다
  • 그런 형태의 memory를 모델에 내재화할 수 있을지도 모른다
  • 단점은 당연히 환각이 늘 수 있다는 점

2) 외부 메모리/벡터DB/캐시 등으로 오프로딩

  • 필요할 때만 불러오는 방식
  • 더 현실적이고 당장 구현 가능성이 높아 보이는 방향
그는 현재 long-context benchmark들은 많지만,
진짜 현실적인 memory benchmark는 부족하다고 봤어.



9. 메모리 벤치마크가 왜 어려운가

그는 지금의 대표적인 long-context 테스트들이 진짜 메모리 능력을 잘 재지 못한다고 지적했어.

예를 들어:
  • needle-in-a-haystack 류의 테스트는 너무 인위적이다
  • 실제 인간 기억은 “어제 대화의 모호한 맥락을 기억하고 적절히 이어가는 것”에 가깝다
그리고 실제 memory benchmark를 만들기 어려운 이유로:
  • simulated user가 너무 똑똑해서 현실 사용자 같지 않음
  • 현실 사용자는 모호하고, 말도 바꾸고, 점진적으로 의도를 드러냄
  • 반면 시뮬레이션된 사용자는 너무 깔끔하게 요구를 말함
그래서 그는 실제 사용자 데이터가 더 중요할 수 있다고 봤어.



10. 가장 큰 병목 2: 실패에서 배우는 능력

그는 단순한 메모리만으로는 부족하고,
실패한 경험을 이용해 진짜로 개선하는 능력이 중요하다고 말했어.

지금 모델들의 문제는:
  • 실패했을 때 “다시 해봐”라고 하면
  • 정말 새롭게 배우는 게 아니라
  • 이전의 틀을 반복하거나
  • 더 긴 체인 오브 소트를 늘어놓기만 하고
  • 실제로는 답을 고치지 못하는 경우가 많다는 것
특히 RL로 학습된 모델들이 오히려 이런 점에서 더 안 좋아지기도 한다고 했어.

즉,
“실패를 반성하고 전략을 수정하는 능력”이 아직 약하다는 거야.



11. 가장 큰 병목 3: world modeling

그는 에이전트가 진짜 환경 속에서 작동하려면 world model 능력이 중요하다고 강조했어.

의미는 이거야:
  • 어떤 행동을 하면 다음 상태가 어떻게 변할지 예측하는 능력
  • 예:
    • 버튼을 누르면 무슨 일이 생기는지
    • 물건을 밀면 어떻게 움직이는지
    • 웹페이지에서 특정 행동을 하면 어떤 상태 전이가 생기는지
    • 코드 수정 후 시스템 상태가 어떻게 바뀌는지
지금 단일 턴 문제나 고정된 툴 사용에서는 이런 능력이 덜 드러나지만,
실제 환경 속 agent가 되면 이게 핵심 역량이라는 거지.



12. “진짜 에이전트”란 무엇인가

그는 에이전트를 정의할 때 핵심은 모델 자체보다 환경(environment) 이라고 봤어.

요지는:
  • LLM이 그냥 텍스트만 내놓는 상태는 제한된 형태일 뿐
  • 환경 안에서 행동하고 피드백을 받고 상태를 바꾸는 존재가 진짜 에이전트에 가깝다
즉,
“에이전트인가 아닌가”를 가르는 기준은
모델의 크기보다 환경과의 상호작용 여부라는 관점이야.



13. 웹 에이전트의 현실적 한계

그는 실제 웹 에이전트 쪽도 경험이 있었는데, 현재 한계로 이런 걸 꼽았어.

1) 너무 느리다

  • 각 단계마다 추론은 잘하는데
  • 인간이 쓰기엔 너무 느린 의사결정 속도

2) 버튼 클릭 같은 기본 행동도 잘 못한다

  • 어떤 버튼을 눌러야 할지는 reasoning으로 말하지만
  • 실제 클릭 좌표를 잘못 찍는다든지
  • 시각 정보를 행동으로 grounding하는 능력이 부족함
즉,
생각은 그럴듯한데 행동이 어설픈 상태라는 거지.



14. reasoning collapse란 무엇인가

이건 인터뷰에서 꽤 중요한 연구 주제로 나왔어.

그가 말한 현상은 대략 이거야.
  • single-turn task에서는 RL 과정에서 reasoning length가 늘어나는 경우가 많다
  • 그런데 multi-turn agentic task에서는 오히려 reasoning length가 줄어드는 현상이 반복적으로 관찰됐다
즉, 복잡한 환경 기반 에이전트 학습에서는
모델이 점점 더 풍부하게 생각하는 대신
안전하고 반복적인 사고 템플릿으로 수축해버린다는 거야.

예를 들면 reasoning이 이런 식으로 템플릿화됨:
  • “좋은 질문이다”
  • “신중하게 해결하겠다”
  • “나는 에이전트이므로 이 작업을 수행해야 한다”
표면적으로는 말이 다양해 보여도,
실제로는 입력에 특화된 사고가 아니라 어디에나 붙일 수 있는 상투적 reasoning만 반복하는 상태가 되는 것.

그는 이를 mutual information 같은 방식으로 측정해
reasoning이 입력에 grounded되어 있는지 보려 했다고 설명했어.



15. 왜 reasoning collapse가 생기나

그의 설명에 따르면 원인은 대체로 noise야.
  • 과제 자체의 reward 신호가 희박하거나 noisy하고
  • entropy bonus 같은 추가 요소도 있고
  • 학습 과정에서 의미 없는 궤적까지 업데이트에 반영되면서
  • 모델이 위험하게 새로운 걸 시도하기보다
  • 무난하고 안전한 패턴으로 도망친다는 거야
그들의 개입은 비교적 단순했다고 해:
  • signal-to-noise ratio가 낮은 trajectory를 버리고
  • 배울 가치가 있는 trajectory에만 집중해서 학습시키는 것
그러자 오히려 효율도 좋아졌다고 했어.
즉, 많이 굴리는 것보다 배울 만한 경험만 학습하는 것이 중요하다는 주장이지.



16. 좋은 벤치마크는 어떤 것이어야 하나

그는 좋은 benchmark의 조건으로 몇 가지를 말했어.

1) 충분히 어려워야 한다

  • 너무 쉬우면 금방 포화됨
  • 이상적으론 최고 수준 인간에게도 쉽지 않은 문제여야 함

2) 실패 원인을 분석할 수 있어야 한다

  • 단순히 점수만 내면 안 되고
  • 어디서 왜 실패했는지 taxonomy가 있어야 함
예:
  • 공간지능 문제에서
    • 객체 수를 잘못 셌는지
    • 위치 관계를 잘못 판단했는지
    • 탐색이 부족했는지

3) reasoning failure 자체도 볼 수 있어야 한다

  • 정답/오답만 보는 게 아니라
  • reasoning 중 어느 단계에서 무너졌는지 파악할 수 있어야 한다
즉,
“틀렸다”가 아니라 “왜 틀렸는지”를 구조적으로 보여주는 벤치마크가 필요하다는 거야.



17. 훌륭한 AI 연구자는 어떤 사람인가

그는 연구를 이렇게 봤어.
  • 어떤 믿음/가설이 있다
  • 그게 맞는지 확신은 없다
  • 실험과 검증을 통해 설득력 있게 증명하려 한다
그리고 좋은 연구자의 핵심 능력으로는:
  • 중요한 질문을 던지는 능력
  • 남들이 당연하게 여기는 전제를 의심하는 능력
  • 큰 문제를 구체적인 실행 단계로 쪼개는 능력
  • “지금 가능한 것”에 대한 감각
을 강조했어.

특히 앞으로는 AI 에이전트들이 답 검증을 많이 도와줄 수 있기 때문에,
좋은 질문을 세우는 능력의 가치가 더 커진다고 봤어.



18. AI가 정말 ‘거의 다 왔다’는 뜻인가?

인터뷰 전체의 뉘앙스를 한 줄로 정리하면 이거야.

그는 “지금 모델들이 이미 꽤 충분히 강하고, 자기개선 에이전트의 문턱에 거의 와 있다”고 보는 편이야.
하지만 동시에 아주 분명하게 말해:

아직 남은 핵심 문제가 있다.
  • 메모리
  • 실패에서 배우기
  • world modeling
  • 실제 환경에서의 행동 grounding
  • 비용/예산 감각
  • 장기 맥락 활용
즉,
기초 지능은 상당히 왔지만, 지속적 자기개선 루프를 안정적으로 돌릴 운영체제 같은 부분은 아직 미완성이라는 시각이야.



19. 인터뷰의 마지막 메시지

마지막 부분에서 그는 다소 낙관적인 철학을 보여줘.

요지는:
  • 우리는 계속 “지금이 중요한 시대”라는 말을 들어왔지만
  • 어쨌든 지금 이 변화의 시기에 사는 건 사실이고
  • 중요한 건 두려워하기보다 참여하고 즐기는 것
  • 장기적으로 AI가 인간보다 효율적으로 일하게 되더라도
  • 그 전에 AI를 인간에게 해롭지 않게 정렬(alignment) 하는 게 중요하고
  • 충분히 강한 AI는 오히려 인간 사회를 더 나은 방향으로 개선하는 데 도움을 줄 수 있다
즉,
그는 자기개선 AI 가능성을 꽤 진지하게 보면서도
궁극적으로는 잘 정렬된 AI가 인간을 돕는 방향을 희망하고 있어.



한줄 핵심 정리

이 인터뷰의 핵심은:

“현재 AI는 이미 자기개선 에이전트의 출발선 근처까지 왔지만, 진짜 도약을 위해서는 메모리, 실패학습, world modeling 같은 핵심 능력을 먼저 해결해야 한다.”
전체 2

  • 2026-03-08 07:19

    오늘 우리 엄마 아빠가 하는 가게 장사 접었는데 죽고 싶다 그냥 AI가 전부 다 갈아 엎어주면 좋겠다


    • 2026-03-08 08:53

      ㅜㅜ 요즘 코스피 지수는 잔뜩 올랐는데 양극화만 심해지고 물가랑 실물 경기는 박살나서 자영업은 어렵고 서민들이 굉장히 힘들어짐 ai 가속발전만이 진짜 유일한 희망이셈

      1000000606.png