Компания Google представила – первый игровой движок, полностью основанный на нейронной модели, способный в реальном времени взаимодействовать со сложной игровой средой и обеспечивать высокое качество на длительных траекториях. GameNGen позволяет интерактивно симулировать классическую игру DOOM с частотой более 20 кадров в секунду на одном TPU. Точность предсказания следующего кадра достигает PSNR 29,4, что сопоставимо с потерями при сжатии JPEG. Тесты показали, что люди с трудом отличают короткие фрагменты игры от симуляции.
Процесс обучения GameNGen разделен на два этапа. На первом этапе используется агент, обучающийся на основе методов глубокого обучения с подкреплением (RL). Он играет в игру, записывая свои действия и наблюдения, которые затем используются для обучения генеративной модели. На втором этапе обучается диффузионная модель, которая предсказывает следующий кадр на основе последовательности предыдущих действий и кадров. В ходе обучения добавление гауссовского шума к предыдущим кадрам позволяет модели корректировать ошибки, улучшая стабильность визуального отображения на длительных отрезках времени.
Для улучшения качества изображения была проведена тонкая настройка декодера модели Stable Diffusion v1.4, что позволило устранить артефакты, возникавшие при предсказании игровых кадров, особенно на деталях, таких как HUD на нижней панели экрана.
Таким образом, GameNGen представляет собой значительный шаг вперед в области симуляции игр, используя передовые достижения в области диффузионных моделей и машинного обучения для создания качественного игрового процесса в реальном времени.