인터뷰/예측

Cohere CEO 에이단 고메즈 "추론 모델 다음은 경험으로부터 학습하는 능력"

작성자
하이룽룽
작성일
2025-11-18 00:06
조회
409

Cohere CEO Aidan Gomez 인터뷰 주요 내용 정리

Transformer 논문과 Google

Q: "Attention Is All You Need" 논문이 어떻게 탄생했나요?

A: 19세 학부생 인턴으로 Google에서 8명과 함께 공동 저술했다. 전체 프로젝트가 12-16주, 약 4개월 만에 완성되었다. 논문 제출 밤에 사무실에서 잠을 잤고, Ashish Vaswani가 "이건 큰일이 될 거다"라고 말했지만 당시엔 그 의미를 몰랐다.

Q: 논문의 핵심 통찰은 무엇이었나요?

A: 효율성이었다. 매우 단순한 아키텍처로 여러 GPU에서 확장하기에 극도로 적합했다. 당시 "많은 GPU"는 수십 개였고, 지금은 수만~수십만 개다. 모델 확장이 가장 중요한 속성이 되었고, 가장 잘 확장되는 모델이 지배했는데 그게 Transformer였다.

Q: Google이 공개하지 않았다면 어땠을까요?

A: 당시 이미 여러 아이디어들이 공기 중에 떠다니고 있었다 - Bitnet, WaveNet, seq2seq 등. Google이 비밀로 했다면 12-18개월 내에 다른 누군가가 비슷한 걸 만들었을 것이다. 커뮤니티가 작은 씨앗을 받아 키워나간 것이다.

Q: Google의 AI 대응을 어떻게 평가하나요?

A: Demis Hassabis가 Google을 구했다고 생각한다. 사람들이 "Google이 AI를 놓쳤다"고 했지만, 엄청나게 강하게 돌아왔다. 지금 만드는 모델들이 잠재적으로 최고이며, OpenAI를 앞질렀을 수도 있다. 돈 버는 기계, 데이터 생산 기계, 인재 집중도 모두 가지고 있다. 기술적으로는 따라잡았고, 다음 큰 의문은 제품 관점에서 경쟁할 수 있느냐는 것이다.

모델 확장과 한계

Q: 확장 법칙이 계속 적용될 것으로 생각했나요?

A: 완전히 놀라웠다. Cohere를 시작할 때도 확신이 없었다. 그냥 아직 짤 게 남아있다고 생각했고, 언젠가 한계에 부딪힐 거라 생각했다. GPT-5가 이전 모델보다 작다는 소문이 있고, 훨씬 큰 Orion 시리즈가 실패했기 때문이다. 순수한 확장 전략에서 더 나은 데이터, 더 나은 훈련 방법으로 초점이 이동하고 있다.

Q: 다음 모델들에서 수익 체감이 있을까요?

A: 경제적 질문이다. 수백억 달러를 쓰는 연구실들이 지난 몇 세대에서 대부분 포화 상태에 도달했다. 진전 속도가 상당히 느려졌고, 지출과 규모는 줄이지 않는다. 소비자는 실질적 차이를 느끼지 못하고, 10배 더 지불할 의향이 없다. 비경제적 영역에 들어가고 있다.

단, 과학 분야는 다르다 - 암 치료의 가치는? 정부나 거대 기관들이 거의 무제한으로 지불할 용의가 있을 것이다.

AI 업계 비판

Q: 모델 회사들의 주장에 불만이 있는 것 같은데요?

A: 매우 불만이다. AGI/ASI 종말론, 골대 이동하기... "GPT-3를 공개하면 세상이 망할 수도 있다", "적의 데이터센터를 폭격해야 한다" 같은 주장들. "가장 똑똑한 모델을 가진 첫 번째가 모든 걸 가져간다"고 했지만, 실제로는 5-7개 모델이 모두 같은 지점으로 수렴했다. 서로 교체 가능할 정도로 차이가 거의 없다.

이 모든 주장들이 시간이 지나면서 명백히 거짓으로 판명되었다. 이런 허세는 다른 사람들을 겁주기 위한 것이었다 - "절대 따라잡을 수 없다", "나와 내 친구들만 훈련할 수 있어야 한다" 같은 식으로 사다리를 걷어차는 매우 효과적인 전략이었다. 투자자들, 규제 당국, 정책 입안자들을 겁주었다.

지적으로 극도로 부정직했다. 이 기술이 세상을 파괴할 거라는 단계는 이제 끝났다. 이 기술은 세상을 구할 수 있다. 두려워할 게 아니라 달려들어야 한다. 가능한 한 빨리 배포해야 한다.

다음 돌파구: 학습 능력

Q: 추론 모델 다음은 무엇인가요?

A: 경험으로부터 학습하는 능력이다. Cohere는 내 첫 회사고 모든 실수를 했지만, 인간은 경험에서 배운다. 하지만 LLM과 한 달 작업하고 "새 채팅"을 누르면 처음으로 돌아간다. 지능의 명백한 특성이 빠져있다.

Q: 이게 GPT-6가 될까요?

A: 그렇다고 믿는다. 다음 주요 업데이트가 이 능력일 것이다. 새 모델을 훈련하지 않고도 시간이 지나면서 더 똑똑해질 것이다. 당신에 대해, 기업에 대해 더 배울 것이다. 처음엔 인턴처럼 일반 지식만 있지만, 시간이 지나면 극적으로 더 생산적이고 효과적이 된다.

Q: 자기 개선으로 이어질까요?

A: 이미 많은 자기 개선이 있다. **합성 데이터(Synthetic data)**가 그것이다. 몇 년 전만 해도 사람들은 믿지 않았다 - "인간 지네(human centipede) 같다", "모델이 자신의 데이터로 더 똑똑해질 수 없다"고 했다. 지금은 모든 연구실에서 데이터의 대부분이 합성 데이터다. 모델들이 자신의 데이터를 더 효과적으로 학습할 수 있는 방식으로 재구성하고, 더 나은 데이터를 필터링하고, 더 나은 방식으로 구조화한다.

Cohere 비즈니스 모델

Q: Cohere는 뭘 하나요?

A: 모델링 회사다. 모델을 만들고, 기업에 배포하는 프레임워크와 플랫폼도 만든다. 모델이 조직 내에서 생산적이려면 인간에게 부여하는 것과 같은 수준의 접근과 신뢰가 필요하다 - 영업, HR, 마케팅, 이메일, 캘린더, 공급망 소프트웨어 등 모든 것.

핵심 차별점: 클라우드뿐만 아니라 온프레미스(on-prem) 배포 가능. 에어갭(airgapped) 환경에서도 작동한다. 공공 부문, 에너지, 금융, 의료, 통신 등 데이터가 국가 안보 문제인 중요 산업에 집중한다.

Q: 왜 2 GPU 제약을 뒀나요?

A: 기업 시장은 가장 큰 모델을 소비할 수 없다. 수억 명의 소비자가 없어서 그렇게 많이 쓸 의향이 없다. 2 GPU 안에서 최대한의 지능을 짜내는 것이 목표다. 3-4 GPU 필요하면 그 모델은 만들지 않는다.

Q: 얼마나 모금했나요?

A: $1.7 billion. 컴퓨트, 사람, 글로벌 확장에 쓴다. 80%가 컴퓨트, 데이터, 인재에 간다.

인재 경쟁

Q: S티어 연구자는 몇 명이나 되나요?

A: 150-200명? 모두가 누군지 안다. 마스터 리스트가 있다. 숫자가 늘고 있긴 하지만, 여전히 작고 경쟁적인 집단이다.

Q: Meta의 연봉 1억 달러와 경쟁하나요?

A: 경쟁하지 않는다. 그렇게 용병 같은 인재는 원하지 않는다. 금방 떠난다. 미션과 목적 중심의 인재를 원한다. Cohere에서 세대적 조직을 만들기 위해 싸울 사람. 그리고 업사이드가 있다 - Meta는 10배 안 되지만 Cohere는 최소 10배는 해야 한다.

기업 AI 채택

Q: 기업들의 AI 도입이 지속 가능한가요?

A: 식욕이 줄어든다는 데는 동의하지 않는다. 구멍은 좁아지지만, 실제로는 낮은 식욕이었다. 30개 유스케이스를 5명씩 테스트하는 건 별로 많지 않다. 지금은 범위를 좁혔지만 수만~수십만 명의 직원에게 배포하고 있다. 확신이 생긴 곳에 실제로 프로덕션에 투입한다.

지난 1년간의 변화: POC에서 실제 배포로. 많은 POC가 실패했지만, 이제 기업들은 어디서 작동하고 안 하는지 알고, 베팅을 전사적으로 확장하고 있다. 이것이 실제 ROI가 보이기 시작하는 단계다.

Q: 모델이 멈춰도 기업 기회가 있나요?

A: 엄청나다. 오늘 것만으로도 할 일이 산더미다. 아직 매우 초기 단계 - "이메일 요약해줘", "회의록 요약해줘" 같은 기초적인 것들. 모델들은 아직 우리 경제의 일부가 아니다. 여전히 테스트 단계거나 가장 낮은 가치의 일만 한다.

점점 더 많은 부분을 할 것인데, 특히 화이트칼라 노동자들의 일을. 공급이 제약되어 있는 시장이다 - 희귀한 기술이라 높은 연봉을 받는다. 수요는 많은데 사람이 부족하다. 그리고 모델들이 바로 이런 사람들이 하는 일을 가장 잘한다. 공장 노동자가 아니다. 코딩이 홈런인 이유, 법률이 홈런인 이유다.

경제 성장과 미래

Q: 향후 5-10년간 명백한데 다른 사람들이 놓치는 것은?

A: 이 기술이 경제에 스며들 것이다. 회사 생산성에서 흥미로운 효과를 볼 것이다. 노동 시장 영향이 걱정되긴 한다. 이전에는 불가능했던 제품들이 만들어지고, 수십만 명이 하던 일을 천 명 팀이 할 것이다.

희망은 선진국들에서 성장과 생산성이 재개되는 것이다. 캐나다, 영국, 유럽, 아시아 상당 부분에서 1인당 GDP가 지난 10-15년간 정체되거나 감소했다. 파이가 커지지 않으면 제로섬이 되고, 외국인 혐오, 영토 분쟁이 생긴다. 경제 성장 부족이 권위주의로의 퇴보를 만든다.

이 기술을 경제에 확산시켜 반세기~1세기의 성장 시대를 재개하고, 권위주의에서 벗어나 자유 민주주의를 향한 꾸준한 행진을 계속하길 바란다.

유럽에 대한 견해

Q: 유럽의 문제는 뭔가요?

A: 보호주의다. EU는 다른 나라 기술 회사의 경찰이 되기로 결정한 것 같다. 규제, 규제, 규제... 해머가 그것뿐이다. 프레임은 항상 "우리 자신의 기술 회사를 만들어야 한다"였어야 했다.

USB-C 표준 강제한 걸 자랑하는데, 플러그 따위는 신경 안 쓴다. 경쟁력 있는 폰을 만들어라. 하드웨어를 만들어라. 좋은 소프트웨어 회사를 만들어라. 훌륭한 대학들, 자본 풀이 있는데도 불구하고... 유럽인들은 차세대 위대한 기업들을 만들기 위해 스스로를 조직해야 한다. 다른 회사로부터 보호하는 것이 아니라 자신들의 회사를 만드는 것만이 유럽을 강화하는 유일한 방법이다.

개인 배경

Q: 어떻게 AI에 입문했나요?

A: 토론토에서 태어나 캐나다 야생 150에이커에 아버지가 직접 지은 통나무집에서 자랐다. 컴퓨터를 사랑했고 - Wii 해킹, PlayStation 탈옥 등. 2013-2014년에 토론토 대학교에 갔는데, 인공지능이 가장 흥미로운 미해결 문제였다.

UofT에 Ilya Sutskever, Geoffrey Hinton 등이 있었다. 토론토가 AI 지식의 집중지였다. 물리학은 많이 알지만, 지능이 무엇인지, 우리가 어떻게 이렇게 똑똑해졌는지는 위대한 미스터리다. 인간을 다른 모든 종과 질적으로 다르게 만든 한 가지가 지능이다. 탐구하기에 가장 흥미롭고 아름다운 것이었다.

Q: OpenAI에 합류하지 않은 이유는?

A: PhD를 하고 싶었다. Oxford에 가서 계속 배우기로 했다. 매우 감사하다. OpenAI도 좋았겠지만, 이 선택 덕분에 훨씬 더 흥미로운 위치에 있다. 지금 같은 상황이라도 100% 같은 결정을 할 것이다.

핵심 수치

  • Transformer 프로젝트 기간: 12-16주 (약 4개월)
  • 공동 저자: 8명
  • 당시 나이: 19세
  • S티어 연구자: 150-200명 (최대 800명?)
  • Cohere 모금액: $1.7 billion
  • 목표 GPU 제약: 2 GPU
  • Cohere 직원 수: 약 500명
  • 글로벌 오피스: Toronto, SF, NY, Montreal, Paris, London, Seoul, Riyadh(예정)
  • Transformer 논문 인용: 수십만 건
전체 1

  • 2025-11-18 11:55

    A: 매우 불만이다. AGI/ASI 종말론, 골대 이동하기... "GPT-3를 공개하면 세상이 망할 수도 있다", "적의 데이터센터를 폭격해야 한다" 같은 주장들. "가장 똑똑한 모델을 가진 첫 번째가 모든 걸 가져간다"고 했지만, 실제로는 5-7개 모델이 모두 같은 지점으로 수렴했다. 서로 교체 가능할 정도로 차이가 거의 없다.

    이 모든 주장들이 시간이 지나면서 명백히 거짓으로 판명되었다. 이런 허세는 다른 사람들을 겁주기 위한 것이었다 - "절대 따라잡을 수 없다", "나와 내 친구들만 훈련할 수 있어야 한다" 같은 식으로 사다리를 걷어차는 매우 효과적인 전략이었다. 투자자들, 규제 당국, 정책 입안자들을 겁주었다.

    지적으로 극도로 부정직했다. 이 기술이 세상을 파괴할 거라는 단계는 이제 끝났다. 이 기술은 세상을 구할 수 있다. 두려워할 게 아니라 달려들어야 한다. 가능한 한 빨리 배포해야 한다.

    사이다