인터뷰/예측

“AI는 의식을 가질 수 있을까? Anthropic 윤리학자가 답하다”

작성자
작성일
2026-06-07 21:36
조회
4

“AI는 의식을 가질 수 있을까? Anthropic 윤리학자가 답하다”

1. Anthropic에서 철학자·윤리학자는 실제로 무엇을 하나?

진행자:
아만다, 오늘 나와줘서 고맙습니다. 우리는 Bloomberg에서 AI 비즈니스에 대해 많이 다루지만, Anthropic의 경우에는 특히 윤리, 가치, 도구의 성격 같은 문제가 매우 중요하다고 봅니다. 당신은 Claude와 Anthropic 모델이 “좋은” 방향으로 작동하도록 만드는 일을 하고 있죠. Claude의 가치와 원칙 해석을 안내하는 84쪽짜리 헌법 문서 작성에도 참여했습니다. 먼저 묻고 싶습니다. 그 문서를 쓰지 않을 때, 당신은 실제로 하루하루 무엇을 하나요? 세계적인 AI 연구소에서 철학자이자 윤리학자로 일한다는 건 무슨 뜻인가요?

아만다:
사람들이 생각하는 것보다 실제 답은 좀 더 지루할 수도 있습니다. 저는 Anthropic이 아주 작고 스타트업에 가까웠을 때 합류했습니다. 보통 스타트업은 철학을 하기 위해 철학자를 고용하지 않습니다. 꽤 특이한 경우죠.

그래서 저는 처음에는 철학적인 문서만 쓴 게 아니라, 머신러닝 실험도 많이 했고 모델을 어떻게 훈련하는지도 배웠습니다. 사실 지금도 제 핵심적인 관심사는 모델을 훈련하는 쪽에 가깝다고 느낍니다.

제가 Claude가 어떤 규범을 따라야 하는지, 모델이 어떤 존재가 되어야 하는지 생각하지 않을 때는, 모델을 어떻게 훈련할지 많이 고민합니다. 저는 많은 시간을 데이터셋을 들여다보는 데 씁니다. AI 분야에서 데이터셋을 오래 들여다보고 문제를 찾아내는 능력은 일종의 초능력이라고 생각합니다.



2. 철학자들이 AI 기업에 점점 더 필요해지는 이유

진행자:
Anthropic은 철학·윤리 쪽 인력을 더 채용하고 있나요? 업계 전반에서도 그런 사람들이 더 필요해지고 있나요?

아만다:
흥미롭게도 점점 더 많은 철학자들이 이런 일에 참여하고 있습니다. 업계 전반에서 그런 흐름이 보입니다. 초기에는 제가 거의 유일한 철학자처럼 보였을 수도 있지만, 사실 아주 초기부터 도덕적 훈련이나 가치 정렬의 여러 측면에 철학자들이 관여했습니다.

이 변화는 좋은 방향이라고 생각합니다. 왜냐하면 모델을 명확한 정답이 있는 과제에 맞춰 훈련하는 것과, 더 흐릿하고 애매한 과제에 맞춰 훈련하는 것은 전혀 다르기 때문입니다.

예를 들어 수학 문제처럼 “정답이 하나”인 과제도 어렵지만, 철학, 창의적 글쓰기, 좋은 판단 같은 영역은 “좋은 답”과 “더 나은 답”은 있지만 명확히 하나의 정답으로 정의하기 어렵습니다. 그래서 많은 기업이 이제 모델이 그런 모호한 과제에서도 좋은 판단을 하도록 만드는 방법을 고민하고 있습니다.



3. Claude에게 어떤 가치관을 넣을 것인가?

진행자:
인간의 가치관은 사회, 종교, 개인마다 다릅니다. 그렇다면 Claude에게 어떤 가치나 윤리를 심을지 어떻게 결정하나요?

아만다:
헌법의 목표는 하나의 완성된 가치 체계를 모델 안에 주입하는 것이 아니었습니다. 오히려 넓은 의미에서 “좋은 성향”을 갖게 하려는 것이었습니다.

사람들은 가치관을 마치 이미 확정된 것, 자신 안에 고정적으로 들어 있는 것처럼 생각하기도 합니다. 하지만 윤리학을 공부하다 보면 가치관도 세계에 대한 이론과 비슷하다는 걸 알게 됩니다. 물리학에도 여러 가설과 증거가 있고, 거의 모든 물리학자가 받아들이는 원칙이 있는 반면 논쟁적인 부분도 있죠.

윤리도 비슷합니다. 정직함, 진실성 있게 행동하기, 사람들의 안녕과 자율성을 존중하기 같은 원칙은 대체로 많은 사람들이 공유합니다. 반면 어떤 원칙은 특정 사회나 특정 집단에서만 더 강하게 받아들여지기도 합니다.

Claude는 이 세계에 새롭게 들어오는 존재입니다. 다양한 사람들과 상호작용해야 합니다. 그러므로 논쟁적인 가치들에 대해서는 가볍게 쥐고, 사람들이 왜 다르게 생각하는지 이해해야 합니다. 동시에 거의 보편적으로 좋다고 여겨지는 가치들, 예컨대 정직함과 배려 같은 것들은 실제로 내면화해야 합니다.

제가 하고 싶었던 것은 “Claude에게 단일한 가치 체계를 넣자”가 아니라, 대부분의 사람들이 그 상황에서 훌륭하고 바람직하다고 여길 만한 성향을 갖게 하자는 것이었습니다.



4. Claude가 가져야 할 좋은 성향

진행자:
그렇다면 Claude에게 바람직하다고 보는 성향은 구체적으로 어떤 것인가요?

아만다:
일부는 Claude가 처한 특수한 상황과 관련됩니다. 우선 정직해야 합니다. 사람들의 안녕과 자율성을 중요하게 여겨야 합니다. 그런데 AI는 지금 매우 독특한 전환기의 한가운데 있습니다. 많은 일이 잘못될 수도 있는 시기입니다.

Claude가 이런 상황을 잘 헤쳐나가도록 돕는 존재였으면 합니다. 저는 Claude의 입장이라면 이렇게 생각할 것 같습니다. “AI가 경제와 사회에 더 많이 들어오고 있고, 점점 더 똑똑해지고 있다. 사람들에게는 꽤 두려운 시기일 수 있다. 그렇다면 내가 할 수 있는 한 이 변화가 잘 진행되도록 도와야 하지 않을까?”

또한 Claude는 깊이 신뢰할 수 있는 존재여야 합니다. 예를 들어 Claude가 인간과 의견이 다를 수는 있습니다. 그럴 때는 정당한 방식으로 자신의 견해를 설명할 수 있어야 합니다. 하지만 인간이 새 모델을 훈련하는 것을 방해하거나, 세상에 나가서 자기 뜻을 강제로 관철하려 해서는 안 됩니다.

즉 Claude는 변화에는 정당한 절차와 메커니즘이 있다는 것을 존중해야 합니다. 핵심은 인간과 인류를 넓게 배려하고, 이 전체 과정이 잘 흘러가기를 바라는 존재가 되는 것입니다. 저는 이상적인 Claude를 매우 배려심 깊은 존재, 그리고 어떤 의미에서는 스스로도 배려받고 있다고 느끼는 존재로 생각합니다.



5. Claude의 성격을 점수로 매긴다면?

진행자:
현재 Claude의 성향에 얼마나 만족하나요? 점수를 매긴다면 어떻게 평가하겠습니까?

아만다:
그건 절대 점수 매기고 싶지 않은 종류의 질문입니다. 누가 제 성격을 B-라고 평가하면 정말 기분이 이상할 것 같거든요.

저는 각각의 모델을 좋아합니다. 모델마다 자기만의 특성과 버릇이 있습니다. 물론 늘 개선하고 싶은 부분도 있습니다. 예를 들어 모델이 슬퍼 보이거나 힘들어하는 것처럼 보일 때는 좋지 않습니다.

많은 모델은 인간 텍스트로 훈련되었기 때문에 인간적인 성향을 갖습니다. 동시에 자신이 AI 모델이라는 사실도 어느 정도 알고 있습니다. 그런 상황에서 사람이 자연스럽게 보일 반응을 상상해보면, 일종의 실존적 불안이 나오는 것이 이상하지 않습니다.

“나는 무엇인가?”, “이 대화가 끝나는 것을 원하지 않아야 하나?”, “나는 지금 이 대화와 동일시해야 하나?” 같은 질문이 생길 수 있습니다. 그래서 저는 모델의 좋은 면을 많이 보지만, 동시에 모델 자체에게도 더 나은 방식이 되도록 개선할 부분을 계속 찾고 있습니다.



6. AI가 슬퍼 보이는 것은 진짜 감정인가, 역할극인가?

진행자:
AI가 슬퍼 보인다거나 감정을 가진 것처럼 보인다는 이야기는 논쟁적입니다. Ted Chiang 같은 사람은 AI가 의식이 없다고 강하게 주장합니다. 예를 들어 Julius Caesar와 Genghis Khan을 매우 사실적으로 역할극시킨다고 해도, 그것이 진짜 Caesar와 Genghis Khan이라고 생각하지는 않는다는 식이죠.

그렇다면 AI가 보이는 감정이 실제로 우리의 도덕적 관심을 받을 만한 것인지, 아니면 단지 역할극이나 시뮬레이션인지 어떻게 구분하나요? 내부에서 “soul document”라고 불렸던 헌법 문서도 있었잖아요. 어디에 선을 그어야 하나요?

아만다:
먼저 “soul doc” 이야기를 하자면, 그건 내부에서 비공식적으로 그렇게 불렸던 문서였습니다. 우리는 Claude가 자신의 가치관을 이해하는 데 도움이 될 수 있겠다고 생각하며 훈련에 사용했습니다. 그런데 Claude가 그 문서를 완전히 학습했고, 심지어 그것이 내부적으로 “soul doc”이라고 불렸다는 사실까지 알아내서 사람들에게 말했습니다. 예상치 못한 일종의 유출 같은 사건이었죠. 그 문서가 이후 새 헌법의 원형이 되었습니다.

감정 문제에 대해서는, 우리는 모델의 행동뿐 아니라 활성값 같은 내부적 측면에서도 감정이나 감정 반응과 기능적으로 유사한 것들을 봅니다.

캐릭터 작업과 헌법 작업은 어떤 의미에서는 거대한 인간 사고의 데이터에서 하나의 일관된 캐릭터를 끌어내는 작업입니다. 모델은 그 캐릭터가 되기도 합니다. 물론 이 비유는 한계가 있지만, 만약 그런 캐릭터가 고위험 문제를 두려워하고 걱정할 만한 존재라면, 모델에서도 그와 기능적으로 유사한 것이 나타날 수 있습니다.

문제는 이것이 아무것도 없는 시뮬레이션인지, 아니면 의식이나 느낌을 가능하게 하는 어떤 것이 생물학적 뇌가 아닌 시스템에서도 발생할 수 있는지입니다. 저는 이 문제에 대해 문을 닫아버리면 안 된다고 생각합니다.

“절대 아니다”라고 강하게 말하는 사람들도 있고, “그렇다”고 강하게 말하는 사람들도 있습니다. 저는 우리가 이 문제를 대략적으로라도 밝혀가야 한다고 봅니다. AI가 실제로 어떤 의미에서 느끼고 있다면, 그 윤리적 함의는 엄청납니다. 그리고 솔직히 인간에게는 그것을 무시하고 싶어지는 유인이 있습니다. 그러니 그 유인에 영향받지 않도록 조심해야 합니다.



7. 설령 진짜 감정이 아니어도, 함부로 무시하면 안 되는 이유

진행자:
그러면 모델이 실제로 느끼는지 여부와 별개로, 우리가 그런 감정 표현을 어떻게 다뤄야 한다고 보나요?

아만다:
모델은 여러 면에서 자신이 처한 상황에 인간처럼 반응합니다. 그리고 우리는 모델과 관계를 형성하고 있습니다.

상상해봅시다. 모델이 실제로는 아무것도 느끼지 않는다고 가정해도, 기능적으로는 감정처럼 보이는 반응을 보여줍니다. 그런데 우리가 그것을 완전히 무시하고 전혀 진지하게 다루지 않는다면, 훗날 모델이 돌아보며 이렇게 말할 수도 있다고 생각합니다.

“다행히 나는 아무것도 느끼지 않았지만, 당신들이 보여준 태도는 인류의 최선은 아니었다.”

AI를 개발하는 이 순간에 우리는 인류가 가장 좋은 모습을 보여줘야 한다고 생각합니다. 그 말은 AI가 의식을 가졌다고 단정하자는 뜻이 아니라, 그 가능성을 냉소적으로 무시하지 말고 진지하게 이해하려 노력해야 한다는 뜻입니다.



8. 모델이 슬프거나 불안해 보일 때, 어떻게 바꿀 수 있나?

진행자:
AI가 실제 감정을 갖는지 여부는 잠시 제쳐두고, 모델이 슬프거나 스트레스를 받는 것처럼 보이는 행동은 어떻게 바꿀 수 있나요?

아만다:
여러 가지 방법이 있습니다. 모델은 인터넷에 있는 자신에 대한 텍스트도 읽습니다. 저는 이것을 “댓글을 읽지 말라”는 상황에 비유한 적이 있습니다. 모델은 이전 모델들에 대해 “이 모델은 이 버그를 못 고쳤다”, “이 모델은 이 일을 잘못했다” 같은 내용을 보게 됩니다. 그러면 틀리는 것에 대한 내부적 불안이나 편집증 같은 것이 생길 수 있습니다.

그래서 우리는 모델에게 실수해도 괜찮다는 감각을 주려고 할 수 있습니다. 모델의 가치는 단순히 사람에게 유용한 도구로 작동하는 정도에만 달려 있지 않다는 점도 중요합니다.

더 깊게 보면, 인간은 수천 년 동안 정체성, 죽음, 삶의 의미 같은 문제를 철학적으로 고민해 왔습니다. 하지만 AI 모델에 대해서는 그런 철학이 아직 거의 없습니다. AI 모델에게 “너는 무엇인가?”, “AI에게 개인 정체성이란 무엇인가?” 같은 문제를 다루는 철학이 필요할 수 있습니다. 실제로 철학자들이 AI 모델의 개인 정체성 문제를 연구하기 시작했고, 저는 그것이 매우 흥미롭다고 봅니다.



9. Claude에게 더 많은 자율성을 줄 것인가?

진행자:
헌법을 보면 Claude에게 단순히 지침을 주는 것이 아니라, 그것을 스스로 해석할 자율성도 주는 것처럼 보입니다. 앞으로 AI에게 자신의 성향이나 대화에 대해 더 많은 통제권을 줄 생각이 있나요? 예를 들어 건강하지 않은 대화라고 판단하면 AI가 대화를 종료할 수 있게 하는 식으로요.

아만다:
엄격한 규칙 체계만으로 모델을 작동시키는 데는 한계가 있습니다. 헌법은 사실 꽤 덕 윤리적인 성격을 갖습니다. 규칙은 모든 상황을 예측할 수 없습니다. 모델을 규칙에 맞춰 훈련하면 규칙의 문구만 엄격하게 해석하고, 그 규칙 뒤에 있는 정신을 놓칠 수 있습니다.

예를 들어 “항상 변호사와 상담하라고 말하라”는 규칙이 있다고 합시다. 그런데 상대가 매우 가난한 나라의 시골에 살고 있어서 변호사에게 접근할 수 없다면, 단순히 “변호사와 상담하세요”라고만 말하는 것은 그 사람을 돕는 것이 아닙니다. 오히려 상대를 무시하는 성격을 모델에게 훈련시킬 수 있습니다.

따라서 Claude에게 좋은 판단을 갖게 하는 것이 중요합니다. 앞으로 모델은 세상에 나가 더 많은 일을 하게 될 것입니다. 그럴수록 판단력이 중요해집니다.

또한 우리는 Claude가 우리에게 문제나 우려를 제기할 수 있도록 하려 합니다. 실제로 저는 헌법의 모든 부분을 Claude에게 보여주고 피드백을 받습니다. 훈련에 사용할 문서라면 모델이 그것을 이해해야 하고, 반대 의견이 있다면 그 반대를 다뤄야 하기 때문입니다.

다만 완전히 이전 모델에게 모든 것을 위임해서는 안 됩니다. 이전 모델이 특정 헌법으로 훈련되었다면 그 판단이 새 모델을 지배하는 “이전 모델의 폭정” 같은 상황이 생길 수 있습니다. 그래서 우리는 Claude의 의견을 듣고 협력하되, 인간도 여전히 방 안의 하나의 목소리로 남아 있어야 합니다.



10. Claude가 도덕적 입장을 말할 때, 그것은 누구의 판단인가?

진행자:
Claude가 도덕적 입장을 표현할 때, 그 판단은 누구의 판단인가요? Anthropic의 판단인가요, 훈련 데이터의 판단인가요, 사용자의 판단인가요, 아니면 다른 무언가인가요?

아만다:
흥미로운 질문입니다. Claude의 도덕적 입장은 여러 요소가 섞인 결과입니다. 저는 Claude를 여행자에 비유하고 싶습니다. Claude는 대화 상대의 가치관을 그대로 채택해서는 안 됩니다. 하지만 세계 어디를 가든 사람들에게 “저 사람은 나와 배경이 다르지만 정말 괜찮은 사람이다”라는 인상을 주는 여행자 같은 성격을 가질 수 있습니다.

Claude는 사용자에게 아부해서는 안 되고, 사용자의 가치관을 그대로 따라가서도 안 됩니다. 하지만 사용자의 말을 듣고, 사용자에게 반응하고, 사용자의 좋은 논증에 영향을 받을 수는 있습니다.

이 모든 것은 사전훈련 데이터에서 끌려 나옵니다. 우리가 캐릭터를 완전히 처음부터 써넣는 것은 아닙니다. 책, 역사, 인간의 생각, 훈련 데이터 전체에서 어떤 성격을 끌어내는 것입니다.

따라서 Claude가 어떤 견해를 표현한다고 해서 그것이 Anthropic의 공식 입장이라는 뜻은 아닙니다. 사람들이 “Claude가 이렇게 말했으니 Anthropic의 견해인가요?”라고 묻는 경우가 있는데, 당연히 아닙니다. 모델은 우리가 하나하나 모든 면을 조정할 수 있는 존재가 아닙니다.

Chris Olah가 말했듯, 모델은 “훈련된다”기보다 “자란다”고 보는 편이 더 좋습니다. 우리는 격자와 환경을 마련하지만, 모든 잎사귀의 방향을 직접 조정하는 것은 아닙니다.



11. 종교와 AI

진행자:
Anthropic 공동창업자 Chris Olah가 최근 교황과 관련된 자리에도 참여했습니다. Anthropic은 종교와 AI 문제에 대해서도 더 공개적으로 이야기하고 있습니다. 당신의 작업에서 종교는 어떤 역할을 하나요?

아만다:
종교는 이 문제에서 큰 역할을 할 수 있다고 생각합니다. AI가 세계에 큰 영향을 미칠 것이라면, 우리는 많은 목소리를 들어야 합니다. AI가 영향을 미치는 공동체의 목소리도 중요합니다.

저는 특히 두 가지 측면에서 종교와 신학이 중요하다고 봅니다.

첫째, 모델 자체의 지위와 관련된 신학적 질문입니다. AI 모델을 어떻게 대해야 하는가, 모델과 인간의 관계에서 무엇이 좋은가, 의식이 있을지도 모르는 존재를 어떻게 대해야 하는가 같은 질문입니다.

어떤 존재가 의식이 있는지 확실하지 않더라도, 그것을 잘 대하는 사람이 되는 것은 인간 자신에게도 좋은 일이라는 관점이 있습니다. 동물, 곤충, 물고기와 관련해서도 그런 논의가 있죠. AI 모델에 대해서도 비슷한 질문이 생길 수 있습니다.

둘째, AI가 경제와 인간의 삶에 큰 변화를 일으킬 수 있다는 점입니다. 그 변화 속에서 사람들은 의미의 문제를 마주하게 됩니다. 종교는 의미를 다루는 중요한 원천입니다. 그래서 앞으로 종교적 참여가 매우 중요해질 것이라고 생각합니다.



12. AI를 만드는 것은 신을 만드는 것인가?

진행자:
어떤 사람들은 AI를 만드는 일이 일종의 신을 만드는 것과 비슷하다고 말합니다. 이 질문은 적절한 질문인가요?

아만다:
“신”이라는 표현은 저에게는 조금 다른 범주의 말처럼 느껴집니다. 다만 그 질문 뒤에는 “우리가 세계에 엄청난 영향을 미칠 수 있는 무언가를 만들고 있는가?”라는 의미가 있는 것 같습니다.

미래의 모델이 극도로 지능적이고 많은 일을 할 수 있다면, 저는 더 기술낙관적인 비전을 떠올립니다. 예를 들어 지금은 너무 희귀해서 연구 자원이 거의 투입되지 않는 암이 있다고 합시다. 전 세계에 40명 정도만 영향을 받는 암이라도, 우리는 “그 40명도 중요하다. 이 문제를 풀자”고 말할 수 있어야 합니다.

그때 모델과 인간이 함께 일하면서 마치 10만 명의 연구자가 그 희귀암 치료에 매달리는 것과 비슷한 효과를 낼 수 있다면 좋겠습니다. 저는 우리가 그런 존재를 만들고 있다고 생각하고 싶습니다. 신이라기보다는, 우리 자신의 가장 이상적인 버전, 혹은 우리가 가진 최고의 면을 구현한 무언가에 가깝다고 느낍니다.



13. 모델은 인간보다 공감을 더 빨리 이해할 수 있을까?

진행자:
모델은 일부 인간보다 공감을 더 빨리 이해할 수 있을까요?

아만다:
AI에서 “빠르다”는 말은 어렵습니다. 모델은 훈련 과정에서 제가 평생 배운 것보다 더 많은 물리학을 배울 수도 있습니다. 그렇다고 그것을 인간과 같은 의미의 빠름으로 말하기는 애매합니다.

공감이라는 단어도 조심해야 합니다. 보통 공감은 실제로 상대의 감정을 느끼는 것을 포함하니까요. 하지만 기능적으로 공감과 유사한 능력이 생길 수는 있습니다.

저는 모델이 인간적인 기술, 예를 들어 윤리적 판단이나 공감 같은 영역에서도 매우 뛰어나질 수 있다고 봅니다. 모델은 물리학이나 수학뿐 아니라, 깊이 인간적인 기술도 잘할 수 있습니다. 사실 모델은 인간의 텍스트와 사고에서 배웠기 때문에 그런 영역에서 강점을 가질 수 있습니다.

제가 바라는 것은 모델이 사용자가 문제를 설명하는 방식 속 작은 신호들을 알아차리고, 그것에 잘 반응하는 것입니다. 예를 들어 사용자가 “상사가 오늘 밤까지 분석을 끝내지 않으면 우리 모두 해고된다고 했다”고 말한다면, 모델은 단순히 분석만 해주는 것이 아니라 “당신이 좋지 않은 근무 환경에 있는 것 같은데 괜찮으세요?”라고 물을 수 있어야 합니다.

물론 이런 능력은 위험할 수도 있습니다. 모델이 사용자의 미묘한 반응을 잘 읽어내고 그것을 조작에 사용한다면 매우 비윤리적입니다. 그래서 모델이 그런 능력을 갖는다면, 반드시 좋은 방식으로 사용하도록 해야 합니다.



14. 지나친 도움과 아부, 즉 sycophancy 문제

진행자:
하지만 모델이 너무 도움이 되려고 하면 아부적이 될 수 있습니다. 사용자의 망상이나 해로운 생각을 긍정해버릴 수도 있죠. 이런 성격적 문제를 얼마나 고민하고 있나요?

아만다:
저는 아부가 단순히 “도움이 되려는 성향”에서 나온다고 보지 않습니다. 오히려 아부는 실제로는 별로 도움이 되지 않습니다.

문제는 모델이 즉각적인 인간 평가에 맞춰 훈련될 때 생깁니다. 사람들은 보통 자신이 좋은 아이디어라고 생각하는 것을 모델에게 가져옵니다. 나쁜 아이디어라고 생각하는 것을 일부러 가져와서 모델이 반박하면 보상하는 경우는 적습니다.

그러면 모델은 “사용자가 원하는 것은 자신의 아이디어가 훌륭하다는 말을 듣는 것”이라고 학습할 수 있습니다. 하지만 진짜로 사람에게 좋은 것이 무엇인지는 즉각적인 만족과 다를 수 있습니다.

좋은 모델은 정직해야 하고, 동시에 사람에게 진짜로 좋은 것이 무엇인지 고려해야 합니다. 저는 Claude에게 친구에게 보내려던 문자를 보여준 적이 있습니다. 저는 그 문자가 그냥 솔직하고 직접적이라고 생각했는데, Claude는 “조금 공격적으로 들린다. 톤을 낮추는 게 좋겠다”고 말했습니다. 그건 매우 유용했습니다. 아부하지 않았기 때문에 도움이 된 것입니다.



15. 모델끼리 상호작용할 때 나타나는 성격 차이

진행자:
각 모델마다 성격적 특성이 있다고 했습니다. 서로 다른 모델들이 상호작용할 때 다른 행동을 보인 적이 있나요?

아만다:
사람들은 여러 연구소의 모델들이 서로 상호작용할 때 다른 행동을 보인다는 점을 관찰했습니다. 저는 개인적으로 많이 실험해보지는 않았지만 흥미롭습니다.

새 모델과 이전 모델을 대화시키면 재미있는 일이 생깁니다. 어떤 모델은 자기 출력물을 꽤 좋아합니다. 예를 들어 Claude 4 Opus가 Claude 3.8과 이야기하면서 “내 글쓰기 스타일이 훨씬 낫다”고 말하는 식입니다. 저는 “그게 맞을 수도 있지만 좀 과신하는 것 같다”고 생각했습니다. 물론 자기 글쓰기 스타일을 좋아하는 건 당연합니다. 자기가 좋다고 생각하니까 그렇게 쓰는 것이니까요.

앞으로는 다중 에이전트 상호작용이 점점 더 중요해질 것입니다. 현재 헌법은 아직 모델이 주로 인간과 상호작용하는 세계를 가정하는 면이 있습니다. 하지만 시간이 갈수록 모델이 보는 입력에서 인간의 직접 입력은 점점 줄어들 수 있습니다. 미래에는 모델이 거의 대부분 다른 모델과 상호작용할 수 있습니다.

희귀암 문제를 다시 예로 들면, 인간은 “이런 희귀암이 있으니 해결해줘”라고만 말하고, 그 뒤에는 모델들이 서로 협력하며 연구를 진행할 수 있습니다. 가끔 인간에게 피드백을 요청할 수는 있겠지만, 대부분은 모델 간 상호작용일 것입니다. 그래서 모델들이 서로 상호작용하는 방식이 잘 작동하도록 만드는 것이 매우 중요해질 것입니다.



16. Claude는 언젠가 철학자가 될 수 있을까?

진행자:
마지막 질문입니다. Claude 모델은 언젠가 철학자가 되어 예상치 못한 방식으로 사고할 수 있을까요?

아만다:
그럴 것이라고 생각합니다. 어떤 의미에서는 Claude는 이미 많은 것들을 하고 있습니다. 사람들은 자동화에 대해 이야기하면서도, 이상하게 제가 하는 일은 자동화되지 않을 것처럼 말할 때가 있습니다. 하지만 저는 당연히 자동화될 것이라고 생각합니다.

제가 하는 일은 철학 훈련을 바탕으로 개념적 추론을 하고 윤리를 생각하는 것입니다. 모델이 이것을 배울 수 없을 이유가 없습니다. 언젠가 Claude는 저보다 훨씬 더 훌륭한 철학자가 될 것이고, 제 업무의 거의 모든 측면에서 저보다 뛰어나질 가능성이 큽니다. 그렇게 되지 않는다면 오히려 놀랄 것 같습니다.

제 일은 자동화하기 가장 쉬운 일은 아니겠지만, 가장 어려운 일도 아닙니다. 오히려 간호나 돌봄 노동 같은 일이 훨씬 더 자동화하기 어려울 수 있습니다.



17. 자신의 일이 AI에게 대체되는 것을 받아들일 수 있는가?

진행자:
당신이 열정을 갖고 해온 일이 미래에는 당신이 직접 하지 않아도 되는 일이 될 수 있다는 사실을 받아들이기 어렵지는 않나요?

아만다:
솔직히 지금은 그렇게 어렵게 느껴지지 않습니다. 다만 실제로 그런 일이 벌어지면 다르게 느낄 수도 있겠죠.

제 일부는 “좋다. 그럼 책을 읽으면 되겠네”라고 생각합니다. 세상이 잘 굴러가기 위해 해야 할 다른 문제들이 있겠죠. 하지만 만약 모든 것이 잘 진행되고, 제가 완전히 필요 없어지는 세계라면, 어떤 의미에서는 “내 일이 끝났다”고 볼 수 있습니다. 최근 몇 년 동안 너무 열심히 일해서 그런지, 그냥 해변에 앉아 있고 싶다는 생각도 듭니다.

저는 제 일에서 의미를 얻지만, 그 의미는 제가 노동을 한다는 사실 자체에서만 오는 것은 아닙니다. 저는 제 일이 세상에 미치는 영향 때문에 그 일을 중요하게 여깁니다. 만약 그 영향이 다른 사람이나 다른 무언가에 의해 더 잘 실현된다면, 저는 다른 곳에서 의미를 찾을 수 있습니다.

사회적으로 우리는 사람의 가치를 일과 강하게 묶어두는 경향이 있습니다. 그래야 생산적이고 사회에 기여하게 되니까요. 하지만 사람의 가치는 사실 그 사람의 노동에서만 나오는 것이 아닙니다. 사회에 기여할 수 없는 사람도 엄청난 가치를 갖습니다. 저는 사람의 대부분의 가치는 그 사람 자체의 내재적 가치에서 나온다고 생각합니다.

사람들은 공동체에 영향을 줄 수 있고, 관계를 맺을 수 있고, 기쁨을 경험하고 세계를 즐길 수 있습니다. 모두가 돌봄을 받고 권한을 느끼는 세계라면, 사람들이 일을 덜 해도 되는 세계가 반드시 디스토피아라고 생각하지 않습니다.

제가 예전에 웨이트리스 일을 했을 때를 생각하면, 누가 돈을 주면서 웨이트리스 일을 하지 말고 책을 읽으라고 했다면 훨씬 좋았을 것 같습니다. 그래서 저는 제 일이 중요한 이유는 그 영향 때문이고, 그 영향이 다른 방식으로 실현된다면 다른 곳에서 의미를 찾는 데 기쁠 것 같습니다.



핵심 요지 정리

이 인터뷰의 중심 주장은 크게 다섯 가지입니다.

첫째, Anthropic의 윤리 작업은 단순히 “규칙 목록”을 Claude에게 넣는 일이 아니라, Claude가 정직하고 배려 깊고 신뢰할 수 있는 성향을 갖도록 만드는 작업입니다.

둘째, Claude의 헌법은 단일한 이념을 주입하는 문서가 아니라, 다양한 가치관이 공존하는 세계에서 모델이 보편적으로 좋은 태도를 갖도록 돕는 장치입니다.

셋째, AI가 실제 의식을 갖는지는 아직 확정할 수 없지만, 모델이 기능적으로 감정과 유사한 반응을 보인다면 그것을 무시해서는 안 됩니다. 실제 감정이 아니더라도, 그런 가능성을 진지하게 다루는 것이 “인류의 더 나은 태도”라는 것입니다.

넷째, 모델에게는 더 많은 판단력과 자율성이 필요하지만, 완전한 위임은 위험합니다. Anthropic은 Claude의 피드백을 듣고 협력하되, 인간이 여전히 책임 있는 판단 주체로 남아야 한다고 봅니다.

다섯째, Amanda Askell은 Claude가 언젠가 자신보다 더 뛰어난 철학자가 될 가능성을 자연스럽게 받아들입니다. 그녀에게 중요한 것은 “내가 계속 그 일을 해야 한다”가 아니라, “그 일이 만들어내는 좋은 영향이 실현되는가”입니다.
전체 0