인터뷰/예측

존 슐먼 "2018~2019년에도 GPT-3.5급 챗봇 가능했었다"

작성자
하이룽룽
작성일
2025-12-18 09:23
조회
13




John Schulman 인터뷰 핵심 요약

Q1. OpenAI 창립 멤버들이 지금의 지식을 가지고 2015~2016으로 돌아간다면, ChatGPT를 얼마나 빨리 만들 수 있었을까?

A.
  • 훨씬 더 빨리 가능했을 것
  • 전체 레시피(사전학습 + 포스트 트레이닝 + RLHF)를 알고 있었다면 2018~2019년에도 GPT-3.5급 챗봇 가능
  • 수십~수백 명 필요 없음
    재능 있는 몇 명 + 1년 정도 + GPU 몇 박스면 충분했을 가능성
  • 핵심은:
    • 사전학습 이후 포스트 트레이닝을 얼마나 영리하게 하느냐
    • 파인튜닝 데이터셋 구성 능력
“지금 우리가 아는 걸 그때 알았다면, 훨씬 적은 컴퓨트로도 가능했다.”




Q2. 그럼 왜 실제로는 그렇게 빨리 못 했나? 병목은 뭐였나?

A.
  • 수익률을 몰랐기 때문
    • 스케일링이 이렇게 잘 먹힐 줄 몰랐다
  • 포스트 트레이닝(RLHF 포함)의 위력을 나중에 알게 됐다
  • 초기에는 “이게 될까?” 수준의 탐색 단계였음



Q3. 초기 OpenAI는 정말 ‘허술하고 비공식적인’ 조직이었나?

A.
  • 맞다.
  • 초기엔 대학 연구실에 가까운 분위기
    • 1~3명 단위의 작은 연구 프로젝트 다수
    • 각자 취향 중심으로 논문·블로그용 연구
  • 동시에:
    • DeepMind(AlphaGo)식 대형 프로젝트 모델도 염두에 둠
  • 즉,
    “작은 연구 프로젝트 + 대형 엔지니어링 프로젝트가 공존하는 혼합 상태”




Q4. 완전히 실패한 대표적인 프로젝트는 뭐였나?

A. Universe 프로젝트
  • 목표:
    • 모든 컴퓨터 작업(게임, 웹, 앱)을 하나의 RL 환경으로 통합
    • 공동 학습 → 범용 RL 에이전트
  • 결과:
    • 아이디어는 맞았지만 너무 이르렀다
    • 시스템이 너무 무겁고 RL 실험에 부적합
    • scratch 학습이라 일반화 실패
  • 교훈:
    • 나중에 에뮬레이터 기반 게임 환경으로 축소 → 성공 확률 ↑
“10년은 빨랐다.”




Q5. 로보틱스 프로젝트는 왜 중단됐나?

A.
  • 직접적 성과는 제한적
  • 하지만:
    • 대규모 엔지니어링 역량 축적
    • 인력 훈련 측면에서는 장기적으로 도움



Q6. 2020년 이전 OpenAI의 가장 큰 엔지니어링 프로젝트는?

A.
  • Dota 프로젝트
  • 특징:
    • 환경 제어 인프라 + 대규모 RL 트레이닝 시스템
    • 대규모 병렬 롤아웃, async RL
  • 연구 + 시스템 엔지니어링의 결합



Q7. 이상적인 연구 매니저는 어떤 사람인가?

A. 두 가지 모두 가능
  1. 핸즈온 타입
    • 직접 코드 작성
    • 모든 코드 리뷰
    • 구체적 기술 피드백
  2. 핸즈오프 타입
    • 멘토·조언자 역할
    • 동기부여·커리어 관리
결론
  • 탐색적 연구 + 숙련된 연구자 → 핸즈오프
  • 목표 지향적 실행 + 주니어 → 핸즈온



Q8. Bell Labs나 Xerox PARC 같은 전통 연구소를 참고했나?

A. 거의 아니다.
  • 실제 영향:
    • 대학원 경험
    • Google Brain, DeepMind 문화
  • 맨해튼 프로젝트 같은 사례가 언급되긴 했지만
    체계적 분석은 없었다
  • 대부분 현장에서 즉흥적으로 진화



Q9. 왜 요즘 RL에서 Value Function이 잘 안 쓰이나?

A.
  • 현재 RLHF / 짧은~중간 horizon 작업에서
    • 분산 감소 효과가 거의 없음
  • 원인은 명확하지 않음
  • 하지만:
    “언젠가는 다시 돌아올 거라고 본다.”




Q10. Continual Learning(지속 학습)은 어떻게 해결될까?

A.
  • 단일 해법은 없을 것
  • 조합:
    • 컨텍스트 길이 증가
    • LoRA/파라미터 파인튜닝
  • 예상:
    • 짧은 시간대 → in-context learning 강점
    • 긴 시간대 → weight update가 승리



Q11. 일반화 실패가 AGI의 병목이 될까?

A.
  • 아직 판단 불가
  • 인간은:
    • 진화 덕분에 수십 년 단위 자기 수정 메커니즘 보유
  • 모델은:
    • 집요하긴 하나
    • 긴 작업에서 쉽게 막힘
  • 이게:
    • 일시적 현상인지
    • 근본적 한계인지는 아직 모름



Q12. GAN, Debate 같은 옛 아이디어들은 쓸모 있을까?

A.
  • Generator + Verifier 공동 학습은 매우 유망
  • 게임 기반 학습:
    • 자동 커리큘럼
    • 자기대전(self-play)
  • Debate 구조는 여전히 강력한 아이디어



Q13. John Schulman은 AI를 어떻게 쓰나?

A.
  • 코딩: Cursor, Claude Code
  • 연구:
    • GPT-5 Pro로 문헌 조사
    • 아이디어 초안 확장
  • 글쓰기:
    • 1차 피드백용으로 적극 활용
  • 단:
    “연구 코드에서는 모든 줄을 이해하는 게 중요하다.”




Q14. 연구자에게 필요한 역량은 예전과 달라졌나?

A.
  • 기본 조언(노트 작성, 논문 읽기)은 여전히 유효
  • 변화:
    • 엔지니어링 역량 중요도 대폭 상승
    • 대규모 코드베이스 이해 능력 필수
  • “지금은 Jupyter에서 혼자 다 짜는 시대가 아니다.”



Q15. 연구자 수는 폭증했는데 ‘큰 아이디어’는 늘지 않은 것 아닌가?

A.
  • 그렇게 단정하긴 이르다
  • 실제로는:
    • 실험 엄밀성 ↑
    • 기준선 비교 ↑
  • 과거:
    • 장난감 실험 하나로도 명논문
  • 지금:
    • 품질 기준이 훨씬 높음



Q16. AGI 타임라인 예측은 왜 항상 틀릴까?

A.
  • 연구자들은 항상 낙관적으로 과소추정
  • 경험적 보정:
    • 예측 × 2~3배
  • 자율주행차가 좋은 비유
  • 다만:
    • AI가 AI 개발을 가속하는 피드백 루프는 변수



Q17. Thinking Machines의 Tinker는 뭔가?

A.
  • 저수준 파인튜닝 API
  • 특징:
    • GPU/분산 시스템 신경 안 써도 됨
    • 거의 모든 포스트 트레이닝 알고리즘 표현 가능
  • 대상:
    • ML 숙련자
  • 목표:
    • 연구 조직이 인프라 없이 바로 모델 개발



Q18. Thinking Machines의 다음 계획은?

A.
  • 자체 모델 공개 (내년)
  • Tinker:
    • 멀티모달
    • 대규모 스케일 확장
    • 점점 더 사용자 친화적으로



한 줄 총평

“ChatGPT는 기적이 아니라, 뒤늦게 이해한 레시피 + 스케일링 + 조직 문화의 산물이다.”
전체 0