트윗
OpenAI&MS AI연구원 "추론계산은 훈련계산과 같다"
작성자
admin
작성일
2024-07-03 20:27
조회
1499
노엄 브라운:
수년간 저는 포커나 외교 같은 게임에서 AI 셀프 플레이와 추론을 연구해 왔습니다. 이제 이러한 방법을 실제로 일반화하는 방법을 조사하겠습니다. 성공한다면 언젠가는 GPT-4 🌌 보다 1,000배 더 나은 LLM을 보게 될 것입니다.
2016년에는 알파고가 이세돌을 꺾고 AI 분야의 이정표를 세웠습니다. 하지만 그 핵심은 각 움직임 전 ~1분 동안 "숙고"하는 AI의 능력이었습니다. 그게 얼마나 개선됐나요? AlphaGoZero의 경우 사전 훈련을 ~100,000x (검색 포함 ~5200 Elo, 검색 제외 ~3000)로 확장하는 것과 같습니다.
2016년에도 포커에서도 비슷한 현상이 목격됐다. 이러한 통찰력은 처음으로 최고의 인간을이긴 Libratus 포커 AI로 이어졌습니다. @andy_l_jones 은 Hex에서 훈련 시간/테스트 시간 컴퓨팅 트레이드오프를 자세히 조사한 결과 유사한 패턴을 발견했습니다.
이전 방법은 모두 게임에만 적용됩니다. 그러나 일반 버전을 발견할 수 있다면 이점은 엄청날 수 있습니다. 그렇습니다. 추론은 1,000배 더 느리고 비용이 더 많이 들 수 있지만, 새로운 항암제에 대해 지불해야 하는 추론 비용은 얼마입니까? 아니면 리만 가설의 증거를 위해서인가요?
향상된 성능은 항상 위험하지만, 이 연구가 성공한다면 안전 연구에도 가치가 있을 수 있습니다. 더 유능한 미래 모델이 어떤 모습일지 알아보기 위해 추론에 100만 달러를 지출할 수 있다고 상상해 보세요. 그것은 우리에게 5/가 부족하다는 경고를 줄 것입니다.
이 문제나 유사한 문제에 관심이 있으시면 우리와 함께 하세요! 저는 2012년에 금융에서 AI로 전환했는데, 그것이 제가 내린 최고의 결정이었습니다. AI 분야 전체가 뒤집힌 지금이 특히 시작하기에 좋은 시기입니다.
--
시탈 샤:
셀프 플레이/MCTS/Q* wrt LLM에 대한 최근 관심에 대한 참고 사항입니다.
지난 몇 년 동안 이에 대해 몇 번 포스팅한 적이 있었는데 갑자기 관심이 다시 생겨서 반가웠습니다 🙂 .
현재 LLM에 대한 가장 큰 비판 중 하나는 계획을 세울 수 없다는 것입니다. 이에 대해 생각해 보면 이 "계획" 기능이 디코딩을 통해 완전히 구현될 수 있다는 사실을 깨달을 수 있습니다. 다음 토큰을 예측할 때 실제로 표준 RL에서와 마찬가지로 궤적을 예측합니다. 현재 우리는 단순히 탐욕스러운 디코딩, 핵 샘플링 또는 보다 모험적인 빔 검색을 사용합니다. 그러나 이들 모두는 진정한 계획자를 대신하는 다소 원시적인 대체물입니다.
훨씬 더 정교한 디코딩을 수행하려는 경우 생성된 궤적의 품질이 극적으로 향상됩니다. 문제는 디코딩 속도가 엄청나게 느려진다는 것입니다. 그럼에도 불구하고 마치 훈련을 확장한 것처럼 추론을 개선함으로써 모델 품질이 극적으로 향상된다는 점은 분명합니다.
그러나 제가 몰랐던 것은 이러한 상충관계의 정량화였습니다. 최근 증거에 따르면 추론 계산과 훈련 계산의 절충안은 거의 동일합니다!! 이것이 의미하는 바는 더 큰 모델을 훈련하기 위해 1000배 더 많은 훈련 컴퓨팅을 투입하거나 현재 크기의 모델을 사용하여 추론 시 해당 컴퓨팅을 사용하여 동일한 품질을 얻을 수 있다는 것입니다. 즉, 모델이 매우 느려질 수 있지만 최대 1000배 크기로 확장하지 않고도 리만 가설에 대한 증거를 조금씩 생성할 수 있습니다.
계획은 LLM 실무자들이 거의 완전히 무시하는 근본적인 문제입니다. GPT-4는 이미 꽤 좋은 "세계 모델"입니다. 우리가 이미 알고 있는 다양한 방법을 통해 계획을 추가할 수 있다면 이는 다음의 근본적인 돌파구가 될 수 있습니다!
전체 0