인터뷰/예측
존 슐먼 "2018~2019년에도 GPT-3.5급 챗봇 가능했었다"
작성자
하이룽룽
작성일
2025-12-18 09:23
조회
13
John Schulman 인터뷰 핵심 요약
Q1. OpenAI 창립 멤버들이 지금의 지식을 가지고 2015~2016으로 돌아간다면, ChatGPT를 얼마나 빨리 만들 수 있었을까?
A.- 훨씬 더 빨리 가능했을 것
- 전체 레시피(사전학습 + 포스트 트레이닝 + RLHF)를 알고 있었다면 2018~2019년에도 GPT-3.5급 챗봇 가능
- 수십~수백 명 필요 없음
→ 재능 있는 몇 명 + 1년 정도 + GPU 몇 박스면 충분했을 가능성 - 핵심은:
- 사전학습 이후 포스트 트레이닝을 얼마나 영리하게 하느냐
- 파인튜닝 데이터셋 구성 능력
“지금 우리가 아는 걸 그때 알았다면, 훨씬 적은 컴퓨트로도 가능했다.”
Q2. 그럼 왜 실제로는 그렇게 빨리 못 했나? 병목은 뭐였나?
A.- 수익률을 몰랐기 때문
- 스케일링이 이렇게 잘 먹힐 줄 몰랐다
- 포스트 트레이닝(RLHF 포함)의 위력을 나중에 알게 됐다
- 초기에는 “이게 될까?” 수준의 탐색 단계였음
Q3. 초기 OpenAI는 정말 ‘허술하고 비공식적인’ 조직이었나?
A.- 맞다.
- 초기엔 대학 연구실에 가까운 분위기
- 1~3명 단위의 작은 연구 프로젝트 다수
- 각자 취향 중심으로 논문·블로그용 연구
- 동시에:
- DeepMind(AlphaGo)식 대형 프로젝트 모델도 염두에 둠
- 즉,
“작은 연구 프로젝트 + 대형 엔지니어링 프로젝트가 공존하는 혼합 상태”
Q4. 완전히 실패한 대표적인 프로젝트는 뭐였나?
A. Universe 프로젝트- 목표:
- 모든 컴퓨터 작업(게임, 웹, 앱)을 하나의 RL 환경으로 통합
- 공동 학습 → 범용 RL 에이전트
- 결과:
- 아이디어는 맞았지만 너무 이르렀다
- 시스템이 너무 무겁고 RL 실험에 부적합
- scratch 학습이라 일반화 실패
- 교훈:
- 나중에 에뮬레이터 기반 게임 환경으로 축소 → 성공 확률 ↑
“10년은 빨랐다.”
Q5. 로보틱스 프로젝트는 왜 중단됐나?
A.- 직접적 성과는 제한적
- 하지만:
- 대규모 엔지니어링 역량 축적
- 인력 훈련 측면에서는 장기적으로 도움
Q6. 2020년 이전 OpenAI의 가장 큰 엔지니어링 프로젝트는?
A.- Dota 프로젝트
- 특징:
- 환경 제어 인프라 + 대규모 RL 트레이닝 시스템
- 대규모 병렬 롤아웃, async RL
- 연구 + 시스템 엔지니어링의 결합
Q7. 이상적인 연구 매니저는 어떤 사람인가?
A. 두 가지 모두 가능- 핸즈온 타입
- 직접 코드 작성
- 모든 코드 리뷰
- 구체적 기술 피드백
- 핸즈오프 타입
- 멘토·조언자 역할
- 동기부여·커리어 관리
- 탐색적 연구 + 숙련된 연구자 → 핸즈오프
- 목표 지향적 실행 + 주니어 → 핸즈온
Q8. Bell Labs나 Xerox PARC 같은 전통 연구소를 참고했나?
A. 거의 아니다.- 실제 영향:
- 대학원 경험
- Google Brain, DeepMind 문화
- 맨해튼 프로젝트 같은 사례가 언급되긴 했지만
→ 체계적 분석은 없었다 - 대부분 현장에서 즉흥적으로 진화
Q9. 왜 요즘 RL에서 Value Function이 잘 안 쓰이나?
A.- 현재 RLHF / 짧은~중간 horizon 작업에서
- 분산 감소 효과가 거의 없음
- 원인은 명확하지 않음
- 하지만:
“언젠가는 다시 돌아올 거라고 본다.”
Q10. Continual Learning(지속 학습)은 어떻게 해결될까?
A.- 단일 해법은 없을 것
- 조합:
- 컨텍스트 길이 증가
- LoRA/파라미터 파인튜닝
- 예상:
- 짧은 시간대 → in-context learning 강점
- 긴 시간대 → weight update가 승리
Q11. 일반화 실패가 AGI의 병목이 될까?
A.- 아직 판단 불가
- 인간은:
- 진화 덕분에 수십 년 단위 자기 수정 메커니즘 보유
- 모델은:
- 집요하긴 하나
- 긴 작업에서 쉽게 막힘
- 이게:
- 일시적 현상인지
- 근본적 한계인지는 아직 모름
Q12. GAN, Debate 같은 옛 아이디어들은 쓸모 있을까?
A.- Generator + Verifier 공동 학습은 매우 유망
- 게임 기반 학습:
- 자동 커리큘럼
- 자기대전(self-play)
- Debate 구조는 여전히 강력한 아이디어
Q13. John Schulman은 AI를 어떻게 쓰나?
A.- 코딩: Cursor, Claude Code
- 연구:
- GPT-5 Pro로 문헌 조사
- 아이디어 초안 확장
- 글쓰기:
- 1차 피드백용으로 적극 활용
- 단:
“연구 코드에서는 모든 줄을 이해하는 게 중요하다.”
Q14. 연구자에게 필요한 역량은 예전과 달라졌나?
A.- 기본 조언(노트 작성, 논문 읽기)은 여전히 유효
- 변화:
- 엔지니어링 역량 중요도 대폭 상승
- 대규모 코드베이스 이해 능력 필수
- “지금은 Jupyter에서 혼자 다 짜는 시대가 아니다.”
Q15. 연구자 수는 폭증했는데 ‘큰 아이디어’는 늘지 않은 것 아닌가?
A.- 그렇게 단정하긴 이르다
- 실제로는:
- 실험 엄밀성 ↑
- 기준선 비교 ↑
- 과거:
- 장난감 실험 하나로도 명논문
- 지금:
- 품질 기준이 훨씬 높음
Q16. AGI 타임라인 예측은 왜 항상 틀릴까?
A.- 연구자들은 항상 낙관적으로 과소추정
- 경험적 보정:
- 예측 × 2~3배
- 자율주행차가 좋은 비유
- 다만:
- AI가 AI 개발을 가속하는 피드백 루프는 변수
Q17. Thinking Machines의 Tinker는 뭔가?
A.- 저수준 파인튜닝 API
- 특징:
- GPU/분산 시스템 신경 안 써도 됨
- 거의 모든 포스트 트레이닝 알고리즘 표현 가능
- 대상:
- ML 숙련자
- 목표:
- 연구 조직이 인프라 없이 바로 모델 개발
Q18. Thinking Machines의 다음 계획은?
A.- 자체 모델 공개 (내년)
- Tinker:
- 멀티모달
- 대규모 스케일 확장
- 점점 더 사용자 친화적으로
한 줄 총평
“ChatGPT는 기적이 아니라, 뒤늦게 이해한 레시피 + 스케일링 + 조직 문화의 산물이다.”
전체 0