인터뷰/예측

존 슐먼 "2018~2019년에도 GPT-3.5급 챗봇 가능했었다"

작성자

하이룽룽

작성일

2025-12-18 09:23

조회

13

John Schulman 인터뷰 핵심 요약

Q1. OpenAI 창립 멤버들이 지금의 지식을 가지고 2015~2016으로 돌아간다면, ChatGPT를 얼마나 빨리 만들 수 있었을까?

A.

훨씬 더 빨리 가능했을 것
전체 레시피(사전학습 + 포스트 트레이닝 + RLHF)를 알고 있었다면 2018~2019년에도 GPT-3.5급 챗봇 가능
수십~수백 명 필요 없음
→ 재능 있는 몇 명 + 1년 정도 + GPU 몇 박스면 충분했을 가능성
핵심은:
- 사전학습 이후 포스트 트레이닝을 얼마나 영리하게 하느냐
- 파인튜닝 데이터셋 구성 능력

“지금 우리가 아는 걸 그때 알았다면, 훨씬 적은 컴퓨트로도 가능했다.”

Q2. 그럼 왜 실제로는 그렇게 빨리 못 했나? 병목은 뭐였나?

A.

수익률을 몰랐기 때문
- 스케일링이 이렇게 잘 먹힐 줄 몰랐다
포스트 트레이닝(RLHF 포함)의 위력을 나중에 알게 됐다
초기에는 “이게 될까?” 수준의 탐색 단계였음

Q3. 초기 OpenAI는 정말 ‘허술하고 비공식적인’ 조직이었나?

A.

맞다.
초기엔 대학 연구실에 가까운 분위기
- 1~3명 단위의 작은 연구 프로젝트 다수
- 각자 취향 중심으로 논문·블로그용 연구
동시에:
- DeepMind(AlphaGo)식 대형 프로젝트 모델도 염두에 둠
즉,

“작은 연구 프로젝트 + 대형 엔지니어링 프로젝트가 공존하는 혼합 상태”

Q4. 완전히 실패한 대표적인 프로젝트는 뭐였나?

A. Universe 프로젝트

목표:
- 모든 컴퓨터 작업(게임, 웹, 앱)을 하나의 RL 환경으로 통합
- 공동 학습 → 범용 RL 에이전트
결과:
- 아이디어는 맞았지만 너무 이르렀다
- 시스템이 너무 무겁고 RL 실험에 부적합
- scratch 학습이라 일반화 실패
교훈:
- 나중에 에뮬레이터 기반 게임 환경으로 축소 → 성공 확률 ↑

“10년은 빨랐다.”

Q5. 로보틱스 프로젝트는 왜 중단됐나?

A.

직접적 성과는 제한적
하지만:
- 대규모 엔지니어링 역량 축적
- 인력 훈련 측면에서는 장기적으로 도움

Q6. 2020년 이전 OpenAI의 가장 큰 엔지니어링 프로젝트는?

A.

Dota 프로젝트
특징:
- 환경 제어 인프라 + 대규모 RL 트레이닝 시스템
- 대규모 병렬 롤아웃, async RL
연구 + 시스템 엔지니어링의 결합

Q7. 이상적인 연구 매니저는 어떤 사람인가?

A. 두 가지 모두 가능

핸즈온 타입
- 직접 코드 작성
- 모든 코드 리뷰
- 구체적 기술 피드백
핸즈오프 타입
- 멘토·조언자 역할
- 동기부여·커리어 관리

결론

탐색적 연구 + 숙련된 연구자 → 핸즈오프
목표 지향적 실행 + 주니어 → 핸즈온

Q8. Bell Labs나 Xerox PARC 같은 전통 연구소를 참고했나?

A. 거의 아니다.

실제 영향:
- 대학원 경험
- Google Brain, DeepMind 문화
맨해튼 프로젝트 같은 사례가 언급되긴 했지만
→ 체계적 분석은 없었다
대부분 현장에서 즉흥적으로 진화

Q9. 왜 요즘 RL에서 Value Function이 잘 안 쓰이나?

A.

현재 RLHF / 짧은~중간 horizon 작업에서
- 분산 감소 효과가 거의 없음
원인은 명확하지 않음
하지만:

“언젠가는 다시 돌아올 거라고 본다.”

Q10. Continual Learning(지속 학습)은 어떻게 해결될까?

A.

단일 해법은 없을 것
조합:
- 컨텍스트 길이 증가
- LoRA/파라미터 파인튜닝
예상:
- 짧은 시간대 → in-context learning 강점
- 긴 시간대 → weight update가 승리

Q11. 일반화 실패가 AGI의 병목이 될까?

A.

아직 판단 불가
인간은:
- 진화 덕분에 수십 년 단위 자기 수정 메커니즘 보유
모델은:
- 집요하긴 하나
- 긴 작업에서 쉽게 막힘
이게:
- 일시적 현상인지
- 근본적 한계인지는 아직 모름

Q12. GAN, Debate 같은 옛 아이디어들은 쓸모 있을까?

A.

Generator + Verifier 공동 학습은 매우 유망
게임 기반 학습:
- 자동 커리큘럼
- 자기대전(self-play)
Debate 구조는 여전히 강력한 아이디어

Q13. John Schulman은 AI를 어떻게 쓰나?

A.

코딩: Cursor, Claude Code
연구:
- GPT-5 Pro로 문헌 조사
- 아이디어 초안 확장
글쓰기:
- 1차 피드백용으로 적극 활용
단:

“연구 코드에서는 모든 줄을 이해하는 게 중요하다.”

Q14. 연구자에게 필요한 역량은 예전과 달라졌나?

A.

기본 조언(노트 작성, 논문 읽기)은 여전히 유효
변화:
- 엔지니어링 역량 중요도 대폭 상승
- 대규모 코드베이스 이해 능력 필수
“지금은 Jupyter에서 혼자 다 짜는 시대가 아니다.”

Q15. 연구자 수는 폭증했는데 ‘큰 아이디어’는 늘지 않은 것 아닌가?

A.

그렇게 단정하긴 이르다
실제로는:
- 실험 엄밀성 ↑
- 기준선 비교 ↑
과거:
- 장난감 실험 하나로도 명논문
지금:
- 품질 기준이 훨씬 높음

Q16. AGI 타임라인 예측은 왜 항상 틀릴까?

A.

연구자들은 항상 낙관적으로 과소추정
경험적 보정:
- 예측 × 2~3배
자율주행차가 좋은 비유
다만:
- AI가 AI 개발을 가속하는 피드백 루프는 변수

Q17. Thinking Machines의 Tinker는 뭔가?

A.

저수준 파인튜닝 API
특징:
- GPU/분산 시스템 신경 안 써도 됨
- 거의 모든 포스트 트레이닝 알고리즘 표현 가능
대상:
- ML 숙련자
목표:
- 연구 조직이 인프라 없이 바로 모델 개발

Q18. Thinking Machines의 다음 계획은?

A.

자체 모델 공개 (내년)
Tinker:
- 멀티모달
- 대규모 스케일 확장
- 점점 더 사용자 친화적으로

한 줄 총평

“ChatGPT는 기적이 아니라, 뒤늦게 이해한 레시피 + 스케일링 + 조직 문화의 산물이다.”

전체 0

« 데미스 하사비스 "지난 1년은 체감상 10년치 진보가 압축된 해"

목록보기 답글쓰기

글수정 글삭제

Powered by KBoard