트윗
OpenAI 연구원 "우리는 Paul Christiano와 Yudkowsky가 예상했던 것보다 훨씬 빠른 AI 진전을 보고 있어"

내용
https://www.lesswrong.com/posts/sWLLdG6DWJEy3CH7n/imo-challenge-bet-with-eliezer
엘리저(Eliezer)와 나는 2025년까지 AI가 IMO(국제수학올림피아드)에서 어떤 성과를 낼지에 대해 이미 공개적으로 몇 가지 예측을 했습니다. OpenAI의 “Solving (Some) Formal Math Problems” 게시물을 기념하여, 우리의 예측을 다시 공개·정리하고, 마지막으로 조정할 기회를 갖고, 사전에 어떤 식으로 업데이트(판단 변화)를 할지를 조금 말하는 것이 좋다고 생각합니다.
예측
엘리저와 나는 2021년 11월에 한 차례 대화를 나눴습니다.[1] (IMO 기출 문제와 메달 커트라인을 찾아본 뒤 내 추측을 크게 수정한) 나의 최종 예측은 다음과 같습니다:
“2022, 2023, 2024, 2025년 IMO 중 어느 한 해에서든, (그 IMO 전에 만들어진) AI가 ‘가장 어려운 문제’를 푸는 경우에 확률을 4%로 둔다.”
여기서 “가장 어려운 문제”의 정의는 “보통은 6번 문제이지만, 다음 조건 중 하나라도 성립하면 3번 문제로 대체: (i) 6번 문제가 기하(geometry)일 때, 또는 (ii) 3번이 조합(combinatorics)이고 6번이 대수(algebra)일 때.”
(시험을 본 뒤 ‘진짜’ 가장 어려운 문제를 고르고 싶지만, 절차에 먼저 커밋(commit)하는 게 더 나아 보인다.)
“ ‘가장 어려운 문제를 푼다’ 대신 ‘금메달을 딴다’는 사건에는 8% 정도로 할까 한다.”
엘리저는 자신의 예측을 다듬는 데 많은 시간을 쓰지는 않았지만 (대화 초반에) 이렇게 말했습니다:
“내 확률은 IMO 그랜드 챌린지가 무너질(달성될) 가능성에 최소 16%다. 더 생각하고 살펴보고, 이용 가능한 그 초라한 지표들을 조금 물어본다면 (그 후엔) 그 이상이라고 자신 있게 말할 수도 있겠다. Paul, (자네 생각은)?”
수정(Edit): “그들은 IMO 첫날 전에 AI를 공개 오픈소스로 내놓아야 한다고 요구하는데, 안타깝게도 그건 현실 세계에서 이 명제가 기술적으로 가능하더라도 ‘성공’ 판정을 막아버릴 수 있는 어리석은 장애물처럼 들린다. 2025년 말까지 그런 기술적 역량이 존재할 확률을 16% 이상으로 유지하겠다.”
그래서 요약하면: 2022–2025년 IMO 중 어떤 해든 (시간 제한 등 그랜드 챌린지 조건하에서) 사전 제작된 AI가 금메달을 딸 가능성에 대해, 폴(Paul)은 8% 미만(<8%), 엘리저는 16% 초과(>16%)를 두고 있는 셈입니다.
별도로, “같은 조건에서 AI가 ‘가장 어려운 문제’를 푸는” 사건에 대해 폴은 4% 미만(<4%)을 두고 있습니다.
나는 더 이상 내 예측을 수정할 계획이 없지만, 향후 몇 주 안에 엘리저가 원한다면 언제든 수정하길 바란다.
대화 초반부에서 나는 내 예측이 특히 금메달에 관한 것(그리고 더 어려운 문제로 갈수록 더욱 날카로워짐)임을 분명히 했고, 은·동메달에는 놀라지 않는다고 밝혔다. 내 추측으로는 엘리저는 더 폭넓은 분포(가능성 범위)를 가지고 있을 것 같다. 댓글은 엘리저가 다른 예측을 명시하거나, 주요 예측을 마지막으로 수정할 수 있는 좋은 장소다.
내가 어떻게 업데이트(판단 수정)할지
정보량이 큰(유의미한) 업데이트:
-
IMO 챌린지(금메달 달성)가 일어난다면, 강력한 AI가 더 빨리(혹은 최소한 기술적으로 더 일찍) 가능하다는 직접적이고 중요한 증거가 될 것이라 생각한다. 이는 상당한 증거라서, 2040년까지 TAI(Transformative AI, 변혁적 AI)가 나올 확률을 25%에서 40% 정도로 올릴 수 있을 것 같다.
-
이는 ‘테이크오프(takeoff, 급가속)’가 매끄러운 ML 스케일링의 느린 행진이 아니라 사회적 요인과 엔지니어링 노력에 의해 좌우될 것이라는 증거가 될 것이다. ‘하드 테이크오프’ 확률을 30%에서 50%로 올릴 수도 있다.
-
엘리저가 맞게 되면, 그는 인식론적(에피스테믹) 크레딧 1비트(bit)를 얻는다.[2][3] 이런 종류의 업데이트는 진행이 느리고, 더 큰 포트폴리오의 내기(베팅)가 있었으면 좋겠지만, 가능한 만큼은 취하겠다.
-
이것은 “미래는 예측하기 어렵다”는 엘리저의 관점에 대해 어느 정도 업데이트가 될 것이다. 나는 우리가 미래에 대해 충분히 명확한 그림을 가지고 있어서 IMO 챌린지 승리에 ‘놀라야 하는’ 입장이라고 본다; 내가 그 점에서 틀렸다면, 일반적으로 내 오차 범위(error bar)가 너무 좁다는 증거다.
정보량이 낮은(그다지 본질적이지 않은) 부분:
-
이것은 내가 직접 일해 본 적 없는 분야에 대한 직관 하나를 ‘힘으로’ 시험하는 것에 가깝다. (위에서 말했듯) 여전히 흥미롭지만, 지능의 깊은 사실(본질)에 크게 닿아 있지는 않다. (내 감각으로는 엘리저와 나는 정리(정형) 증명에 대해 비슷한 방법론에 낙관적이다.)
또한 추세 외삽(트렌드 엑스트라폴레이션) 관련 휴리스틱에도 크게 닿지 않는다 (우리가 외삽할 만한 추세가 거의 없기 때문이다).
혼잡한 영역에서의 연속적(progress가 꾸준한) 진전에 대한 근거에도 크게 닿지 않는다 (정리 증명 분야 투자가 역사적으로 낮았기 때문이다).
또 경제적으로 중요한 영역에 특이점 전 선행 투자(pre-singularity investment)가 많이 들어간다는 주장과도 크게 상관없다 (정리 증명은 상대적으로 영향이 낮다).
나는 이러한 것들에 더 잘 닿는 다른 질문들이 많다고 생각하지만, 우리가 그 어느 것도 명확한 의견 차이를 뽑아내지 못했다. -
만약 AI가 (가장 어려운 문제를 풀지 못한 채) 어느 해엔 금메달, 다른 해엔 아니거나 하는 식으로 금메달을 따게 되면, 내 업데이트는 위와 같은 방향이지만 다소 약해질 것이다.
-
만약 AI가 동/은메달에 그친다면, 나는 위에서 말한 어떤 업데이트도 하지 않을 것이며, 엘리저가 그 낮은 기준들에 대해 별도로 예측을 걸지 않는다면 그에게 (정확성) 크레딧을 주지 않을 것이다. (나는 동/은메달 가능성을 훨씬 더 높게 본다—‘동이나 은’ 20% vs ‘금’ 8%—하지만 이는 위 내기보다 덜 숙고된 수치이며 사실 거의 생각해 보지 않았다.)