인터뷰/예측

메타 라마3 사후훈련 리더 "6월부터 라마4 훈련"

작성자
하이룽룽
작성일
2024-07-24 02:03
조회
1284
https://www.latent.space/p/llama-3

" 제 직감으로는 웹은 텍스트 측면에서 엉터리로 가득 차 있고, 그 토큰에 대한 학습은 컴퓨팅의 낭비입니다 . "

Dense = 1 MoE

[00:28:06]: 저는 그 질문을 많이 들었습니다. 다양한 측면이 있죠. 왜 미래에 MoE가 아닌가요? 다른 점은, 저는 dense 모델이 기본적으로 한 명의 전문가가 있는 MOE에 대한 하이퍼파라미터에 대한 모델의 특정 변형일 뿐이라고 생각합니다. 그래서 그것은 우리가 아직 많이 최적화하지 않은 하이퍼파라미터일 뿐이지만, 우리는 진행 중인 몇 가지 작업이 있고 그것은 우리가 미래에 탐구할 하이퍼파라미터입니다.

 

Thomas [00:15:46]: 네, 하지만 FP8로 훈련하는 것도 있습니다. FP8로 훈련하지 않는다면, FP0은 아마 말도 안 되겠지만, 어느 정도까지, 얼마나 멀리 갈 수 있을지 알죠? 그리고 2, 3년 전 32나 64에서 사용하던 것과 비교했을 때 매번 잠금을 해제하면 확장성 측면에서 엄청난 진전이 있습니다.

...

Thomas [00:46:39]: 네, 알다시피, 1년 전에 Gaia General Assistant Benchmark를 출판했습니다. 제가 정말 좋아하는 방향을 따랐습니다. AI에 열정적이고 Jarvis를 구축하려는 모든 사람이 거기에 갈 것입니다. 그래서 저는 Toolformer와 증강 모델에 대한 설문 조사를 했습니다. 사실, 알다시피, 돌이켜보면, 저는 Galactica가 있고, Llama1이 있고, Toolformer가 있고, 당시에는 GPT 3.5와 Llama4가 있었습니다. 지침을 따르기 위한 좋은 지침 모델이 없다면 Toolformer의 확장과 미래는 제한적입니다. 그래서 우리는 그것에 대해 작업해야 합니다. 그리고 우리는 Llama2를 했고 지금은 Llama3을 했습니다. 매우 흥미롭습니다. General Assistant Benchmark에서 Gaia, 언어 모델로 구동되는 에이전트는 GPT 3.5에서는 0%, GPT 4에서는 30, 40%, 60%와 같이 매우 중요한 성과를 보입니다. 그래서 여기에는 지능의 격차가 있습니다. 그리고 저는 이 지능의 격차, 제로 위협 함수 호출 측면에서 통과하는 이 임계값, 제약 조건의 페이지가 넘을 수 있는 복잡한 지침을 따르는 것, 오늘날 React 루프, 사전 계획, 다단계 추론, 함수 호출을 사용하는 에이전트를 실제로 작동하게 만드는 것들이 지능의 격차와 같다고 생각합니다. 이제 Llama3가 있으니 에이전트로 돌아가겠습니다. 사전 계획, 사후 계획에서 점진적이고 상당한 진전을 기대하지만, 모델을 더 복잡한 시스템으로 에이전트에 잘 연결하여 계획을 수행하고, 백트래킹을 수행하고, 조치를 취하고, 웹을 탐색하고, 코드를 실행함으로써 어느 정도 규모를 확장할 수 있기를 바랍니다

6월 부터 라마4 훈련 시작
전체 2

  • 2024-07-24 03:28

    여름에 큰거 온다그랬으니 8월에는 진짜 큰거 오려나? 아님 11월 뒤까지 기다려야할까?


    • 2024-07-24 08:50

      5월에 gpt4o 기능도 다 안 풀린 상태에서 큰 거 풀리기는 어려울 거 같음 정치인들은 계속 규제걸려고 하고 있고 반발이 심해서 더 기다려야 할 수도 있을 듯 ㅜㅜ