최신논문
확산 모델은 실시간 게임 엔진입니다.
작성자
하이룽룽
작성일
2024-08-28 11:50
조회
689
https://arxiv.org/abs/2408.14837
https://gamengen.github.io/
우리는 긴 궤적을 통해 복잡한 환경과 고품질로 실시간 상호작용을 가능하게 하는 신경 모델로 전적으로 구동되는 최초의 게임 엔진인 GameNGen을 소개합니다. GameNGen은 단일 TPU에서 초당 20프레임 이상으로 고전 게임 DOOM을 대화형으로 시뮬레이션할 수 있습니다. 다음 프레임 예측은 손실이 있는 JPEG 압축과 비슷한 29.4의 PSNR을 달성합니다. 인간 평가자는 게임의 짧은 클립과 시뮬레이션 클립을 구별하는 데 있어 무작위 확률보다 약간 더 나을 뿐입니다. GameNGen은 두 단계로 훈련됩니다. (1) RL 에이전트가 게임을 플레이하는 방법을 배우고 훈련 세션을 기록합니다. (2) 확산 모델은 이전 프레임과 동작의 시퀀스에 따라 다음 프레임을 생성하도록 훈련됩니다. 조건 증강을 통해 긴 궤적에서 안정적인 자기 회귀 생성이 가능합니다.
https://gamengen.github.io/
우리는 긴 궤적을 통해 복잡한 환경과 고품질로 실시간 상호작용을 가능하게 하는 신경 모델로 전적으로 구동되는 최초의 게임 엔진인 GameNGen을 소개합니다. GameNGen은 단일 TPU에서 초당 20프레임 이상으로 고전 게임 DOOM을 대화형으로 시뮬레이션할 수 있습니다. 다음 프레임 예측은 손실이 있는 JPEG 압축과 비슷한 29.4의 PSNR을 달성합니다. 인간 평가자는 게임의 짧은 클립과 시뮬레이션 클립을 구별하는 데 있어 무작위 확률보다 약간 더 나을 뿐입니다. GameNGen은 두 단계로 훈련됩니다. (1) RL 에이전트가 게임을 플레이하는 방법을 배우고 훈련 세션을 기록합니다. (2) 확산 모델은 이전 프레임과 동작의 시퀀스에 따라 다음 프레임을 생성하도록 훈련됩니다. 조건 증강을 통해 긴 궤적에서 안정적인 자기 회귀 생성이 가능합니다.
1. GameNGen이라는 새로운 AI 모델을 소개했습니다. 이 모델은 전통적인 게임 엔진 대신 신경망을 사용해 실시간으로 게임을 시뮬레이션할 수 있습니다.
2. 고전 게임 'DOOM'을 대상으로 실험했으며, 초당 20프레임 이상의 속도로 게임플레이를 생성할 수 있었습니다.
3. 모델은 두 단계로 학습됩니다: 먼저 강화학습 에이전트가 게임 플레이를 학습하고, 그 다음 diffusion 모델이 이전 프레임들과 행동들을 조건으로 다음 프레임을 생성하도록 학습됩니다.
4. 생성된 게임플레이의 품질이 원본 게임과 매우 유사하여, 짧은 클립에서는 인간 평가자들이 실제 게임과 구별하기 어려울 정도였습니다.
5. 이 기술은 복잡한 3D 환경을 신경망만으로 실시간 상호작용이 가능하게 시뮬레이션할 수 있음을 보여줍니다.
이 연구의 중요성을 비유하자면 다음과 같습니다:
"이 연구는 마치 자동차 산업에서 내연기관에서 전기 모터로 전환하는 것과 같은 패러다임 전환의 가능성을 보여줍니다. 전통적인 프로그래밍 방식의 게임 엔진 대신 AI 모델을 사용해 게임을 구동한다는 것은, 게임 개발의 근본적인 접근 방식을 바꿀 수 있는 혁신적인 아이디어입니다.
이는 마치 스마트폰이 등장하면서 모바일 앱 개발이 훨씬 더 접근성 있고 다양해진 것처럼, 게임 개발도 더 쉽고 창의적으로 변할 수 있는 가능성을 제시합니다. 또한 이 기술은 게임뿐만 아니라 가상현실, 시뮬레이션 훈련, 디지털 트윈 등 다양한 분야에 적용될 수 있어, AI가 현실 세계와 상호작용하는 방식을 크게 변화시킬 수 있는 잠재력을 가지고 있습니다."