인터뷰/예측

OpenAI 연구원 "데이터셋이 전부"

작성자
dd
작성일
2024-07-04 09:43
조회
1935
https://nonint.com/2023/06/10/the-it-in-ai-models-is-the-dataset/

저는 OpenAI에서 거의 1년 동안 일했습니다. 그동안 저는 많은 생성 모델을 훈련했습니다. 누구보다도 더 많이 훈련할 권리가 있습니다. 저는 다양한 모델 구성과 하이퍼파라미터를 조정하는 효과를 관찰하는 데 시간을 보냈고, 제게 가장 큰 인상을 준 것은 모든 훈련 실행 간의 유사성입니다.

이 모델들이 데이터 세트를 믿을 수 없을 정도로 근사화하고 있다는 것이 제게는 매우 분명해지고 있습니다. 이는 개나 고양이가 되는 것의 의미뿐만 아니라, 사람이 찍을 가능성이 높은 사진이나 사람이 일반적으로 쓰는 단어와 같이 중요하지 않은 분포 사이의 간극 빈도를 학습한다는 것을 의미합니다.

이것이 나타내는 것은 – 충분히 오랫동안 동일한 데이터 세트에서 학습하면, 충분한 가중치와 학습 시간을 가진 거의 모든 모델이 동일한 지점으로 수렴한다는 것입니다. 충분히 큰 확산 conv-unets은 ViT 생성기와 동일한 이미지를 생성합니다. AR 샘플링은 확산과 동일한 이미지를 생성합니다.

놀라운 관찰입니다! 이는 모델 동작이 아키텍처, 하이퍼파라미터 또는 옵티마이저 선택에 의해 결정되지 않는다는 것을 의미합니다. 이는 데이터 세트에 의해 결정되며, 그 외의 것은 없습니다. 그 외의 모든 것은 해당 데이터 세트를 근사화하기 위해 컴퓨팅을 효율적으로 전달하는 수단입니다.

그러면 "Lambda", "ChatGPT", "Bard", 또는 "Claude"를 언급할 때, 당신이 언급하는 것은 모델 가중치가 아닙니다. 그것은 데이터 세트입니다.
전체 0