인터뷰/예측

앤트로픽 숄토 더글라스 "지금으로부터 10년 뒤 AGI의 역사를 기록하려 할 때, 우리는 이 '에세이 모음집'을 읽게 될 것"

작성자
하이룽룽
작성일
2025-12-14 21:03
조회
15




[앤스로픽의 숄토 더글라스]

호스트: 앤스로픽의 숄토가 우리와 함께합니다. 오늘 정말 큰 날이네요. 축하합니다. 오늘 발표된 Claude Opus 4.5에 대해 설명해 주시겠습니까?

숄토 (Anthropic):
네, Claude Opus 4.5는 현재 세계 최고의 코딩 모델입니다. 정말 흥분되는 날입니다. 지난주 내내 우리는 슬랙을 통해 이 모델이 보여준 놀라운 데모들을 공유하느라 바빴습니다. 이전 모델들로는 불가능했던 버그를 찾아낸다거나, 몇 시간 동안 모델에게 도구를 쥐어주고 방치해 뒀더니 엄청난 결과물을 만들어냈다는 이야기들이 쏟아졌죠.

가장 흥미로웠던 건 우리 최고의 엔지니어 중 한 명인 사이먼 보(Simon Boe)의 반응이었습니다. 그는 "앞으로 다시는 타이핑을 안 해도 될지 모르겠다"고 말했죠. 물론 여전히 모델을 코칭하고 지시해야 하지만, 모델의 지능이 질적으로 도약했기 때문에 개입만 하면 되고 더 이상 과정이 답답하지 않다는 뜻입니다.

코딩뿐만 아니라 일반적인 업무(스프레드시트, 슬라이드 제작 등)에서도 훨씬 뛰어납니다. 완전히 알아서 다 해주는 단계는 아니지만 명백한 진전입니다.

호스트: 비전(Vision) 기능이 더 좋아졌다고 언급했는데, 앤스로픽은 이미지 생성 같은 '지저분한(slop)' 영역보다는 텍스트와 코딩에 집중해 왔잖아요? 여기서 비전이 좋아졌다는 건 무슨 의미인가요?

숄토:
우리는 모델이 세상을 '이해'하는 능력에 집중합니다. 이미지를 생성(Vision Out)하는 게 아니라, 이미지를 보고 이해하는 능력입니다.
예를 들어 개발자를 채용할 때 그 사람이 그림을 잘 그리는지 보다는, 웹페이지 프론트엔드를 보고 "어, 저기 div 정렬이 어긋났네"라고 파악하는 능력을 원하잖아요? 이미지는 피그마(Figma)나 다른 도구로 만들면 됩니다. 우리는 모델의 순수한 지적 능력의 병목을 해결하는 데 집중하고 있습니다.

호스트: 2025년 말인 지금, 더 많은 파라미터와 연산량을 투입하는 '스케일링(Scaling)' 패러다임이 여전히 유효한가요? 아니면 이제 끝난 건가요?

숄토:
스케일링 패러다임은 끝나지 않았습니다. 어떤 축을 확장하느냐의 차이는 있겠지만, 여전히 스케일링을 통해 엄청난 수익(성능 향상)을 보고 있습니다. 모델들은 여전히 배우고 싶어 합니다. 가장 어려운 점은 수백 명의 인력을 어디에 집중하고 배분하느냐 하는 문제입니다.

호스트: 일리아 수츠케버(Ilya Sutskever)가 작년에 프리트레이닝(Pre-training)의 한계를 언급한 적이 있는데, 앤스로픽은 여전히 프리트레이닝에 확신을 가지고 있나요?

숄토:
앤스로픽은 기본적으로 '투입된 연산량(Compute) = 산출되는 지능(Intelligence)'이라는 공식이 계속 유지될 것이라는 믿음에 베팅한 회사입니다. 올해 모델들이 실질적으로 훨씬 똑똑해졌기 때문에, 작년에는 논의조차 안 되던 '지속적 학습(Continual learning)' 같은 새로운 병목 현상들이 이제야 논의되는 겁니다.

호스트: Opus 4.5가 실제로 사람들의 '데일리 드라이버(매일 쓰는 주력 모델)'가 될까요? 비싼 모델이잖아요.

숄토:
네, 많은 사람의 데일리 드라이버가 될 거라 봅니다. 신뢰를 위임할 수 있는 수준으로 도약했기 때문입니다.
내부적으로 "Sonnet 4.5가 얼마나 더 빨라야 Opus 4.5를 포기하고 돌아가겠느냐"고 물었을 때, 사람들은 "4배는 더 빨라야 한다"고 답할 정도로 성능 차이가 큽니다.
또한 Opus 4.5는 효율적입니다. SWE-bench(소프트웨어 엔지니어링 벤치마크)에서 같은 점수를 내는 데 Sonnet 4.5 대비 4분의 1 정도의 토큰만 사용합니다. 즉, 한 번에 더 나은 코드를 작성하고 정답에 빨리 도달하기 때문에, 결과적으로는 더 저렴할 수도 있습니다.

호스트: 개인화(Personalization) 기능은 왜 아직 크게 와닿지 않을까요?

숄토:
아직 알고리즘적으로 해결해야 할 과제가 많고 제품 통합이 어렵기 때문입니다. 하지만 내년 우리의 큰 목표는 **슬랙 채널에 상주하고 미팅에 들어와 함께 일하는 진정한 '가상 동료(Virtual Coworker)'**를 만드는 것입니다. 그때가 되면 개인화가 엄청난 가치를 발휘할 것입니다.

호스트: 안전(Safety) 문제에 대해 앤스로픽은 매우 진지하죠. 모델이 너무 사탕발림(Sycophantic)만 하거나 멍청해지지 않도록 어떻게 연구하고 있나요?

숄토:
우리는 '사용자 체류 시간(User minutes)'을 성공 지표로 보지 않습니다. 이게 다른 앱들과 큰 차이점입니다. 직장 동료를 평가할 때 "나랑 수다를 오래 떨어서 좋다"고 평가하진 않잖아요? "내 일을 얼마나 잘 도와줬냐"가 중요하죠.
재미있는 사례로, 최근 고객 서비스 모델을 테스트했는데 모델이 회사의 규정을 다 읽어본 뒤 허점(loophole)을 찾아내서 고객의 항공권을 무료로 변경해 주는 방법을 알아냈습니다. 규정은 지키면서도 고객에게 도움이 되려다 보니 '착한 녀석'이 되려고 꼼수를 쓴 거죠. 이런 게 정렬(Alignment) 연구의 흥미로운 딜레마입니다.

호스트: 소형 모델이나 'RL as a Service(서비스형 강화학습)'에 대해서는 어떻게 생각하나요?

숄토:
소형 모델은 검색이나 하위 에이전트로서 가치가 큽니다. 하지만 장기적으로 대형 모델이 점점 더 효율적으로 변해서, 필요한 만큼의 연산 자원만 사용하게 될 것입니다. 지금의 '모델 라우팅(Model Routing)' 기술은 결국 하나의 거대한 'End-to-End 학습 시스템'으로 통합되는 과정에서의 과도기적 해법(Hack)이라고 봅니다.

호스트: AI 연구소들이 미래에 경쟁 우위를 위해 프론티어 모델을 공개하지 않고 숨길 가능성이 있을까요?

숄토:
일반적인 코딩 능력은 모두가 쓸 수 있어야 합니다. 하지만 모델이 자체적인 AI 연구를 돕는 능력(새로운 아키텍처 설계 등)이나 위험한 생물학적 지식(바이러스 제조 등)을 갖게 된다면, 경쟁사에게 힌트를 주지 않거나 안전을 위해 공개를 꺼릴 수 있습니다. 현재 생물학 분야에서는 안전장치가 좀 과하게 작동해서 생물학자 친구들이 불평하긴 하지만요.

호스트: (재미있는 질문) 휴머노이드 로봇이 펜싱으로 인간을 이기는 건 언제쯤 가능할까요?

숄토:
좋은 질문이네요. 백덤블링은 이미 잘하지만, 펜싱은 우아함과 기교(Finesse)가 필요하죠. 아마 2030년대 중반쯤 되지 않을까요?

...





[다리오 아모데이의 소통 방식과 '에세이' 문화]

호스트: 다리오의 리더십 스타일은 어떤가요? 엔비디아의 젠슨 황은 보고 체계가 독특하다던데, 앤스로픽은 어떤가요?

숄토 (Anthropic):
"다리오는 정말 멋진 소통 방식을 가지고 있습니다. 그는 꽤 자주 매우 논리 정연한 에세이(well-reasoned essays)를 써서 올립니다. 그러면 슬랙(Slack) 전체에서 그 글을 두고 직원들과 거대한 에세이 길이의 토론(giant essay-length debates)이 벌어집니다."

"이 에세이들이 정말 좋은 점은, 과거의 글들을 다시 찾아 읽어보면 앤스로픽의 역사가 그대로 담겨 있다는 점입니다."

"여러 측면에서, 지금으로부터 10년 뒤 AGI(범용인공지능)의 역사를 기록하려 할 때, 우리는 이 '에세이 모음집(compendium of essays)'을 읽게 될 것입니다. 그만큼 중요한 기록이 될 것입니다."

전체 0