ИИ играет в бога: Genie научился создавать новые 3D-вселенные… на 20 секунд

В марте Google представила первую версию модели искусственного интеллекта Genie, способную превращать текстовые описания и изображения в простые 2D-игры. Теперь компания сделала шаг вперёд, представив Genie 2 – модель, которая генерирует уже трёхмерные виртуальные миры. В этих мирах можно управлять персонажами, передвигаясь от первого или третьего лица. Google называет технологию фундаментальной и особенно подчёркивает её значение для развития искусственного интеллекта.

Виртуальные пространства, которые создает Genie 2, можно использовать не только для развлечений, но и для обучения других ИИ. Симуляции помогают моделям развивать определенные способности в реалистичных, но безопасных условиях. Исследования уже показывают, что навыки, приобретённые в таких симуляциях, могут быть полезны, например, в робототехнике. По мнению Google, мы уже на пути к созданию универсального искусственного интеллекта, способного решать самые разные задачи.

Принцип работы Genie 2 схож с предыдущей версией: нейросеть получает на вход текст или изображение, а затем строит анимацию, дополняя её реакциями на команды пользователя. Например, можно приказать персонажу идти вперёд, прыгнуть или взаимодействовать с объектами. Однако точные детали процесса обучения не раскрываются. Известно лишь, что Google использовала огромный объём данных, превышающий 30 000 часов видеоматериалов, задействованных для первой версии.

На демонстрациях Google Genie 2 генерирует интерактивные сцены с самыми разными персонажами: деревянные марионетки, роботы или даже лодки, качающиеся на воде. Все эти элементы реагируют на команды пользователя, и для их работы не требуется заранее созданный игровой движок. Но насколько эти технологии пригодны для реального использования, пока не совсем понятно.

Помимо прочего, Genie 2 запоминает объекты, которые временно исчезают из поля зрения. Если персонаж выйдет за пределы кадра, программа сможет восстановить окружающую обстановку, когда он вернётся. Для генеративных моделей это сложная задача, и у других разработчиков она часто вызывает проблемы. Например, OpenAI недавно признала, что их Sora не может сохранить целостность виртуального мира при создании длинных видеороликов. В Genie 2 такие ошибки сведены к минимуму, хотя её память ограничена временными рамками: стабильность мира поддерживается всего около минуты, а чаще всего – в пределах 10-20 секунд.

Ограничения Genie 2 делают её скорее инструментом для экспериментов и быстрого создания прототипов, чем для разработки полноценных игровых пространств. Представьте RPG-игру вроде Skyrim, где вы покидаете город, а затем возвращаетесь и видите, что игра “забыла” его облик и сгенерировала новый. Пока что Genie 2 подходит больше для визуализации идей, чем для реализации сложных игровых механик.

Google предлагает использовать свой инструмент для преобразования концепт-арта в интерактивные сцены. Это может быть полезно художникам и дизайнерам, которые хотят увидеть свои идеи в действии, не тратя время на разработку. Однако некоторые считают, что для создания сложных игр эта технология в принципе не подходит. Британский геймдизайнер Сэм Барлоу, например, отмечает: сначала важно выстроить логику и структуру игрового мира, а уже потом заниматься визуализацией. В противном случае мир получается хаотичным и бессмысленным.

Другой важный вопрос – скорость работы модели. Первая версия Genie могла генерировать всего один кадр в секунду, что делало её совершенно непригодной для работы в режиме реального времени. В случае Genie 2 заявлено, что “оптимизированная” версия модели способна работать быстрее, но с потерей качества. Как сильно падает качество при ускорении, Google пока не уточняет.

Для сравнения, в начале года была представлена другая ИИ-модель – Oasis , которая генерирует миры, похожие на Minecraft, со скоростью 20 кадров в секунду. Её создатели, однако, признают, что для достижения таких показателей пришлось сильно упростить визуализацию. Genie 2, хотя и более разнообразна в своих возможностях, сталкивается с похожими трудностями. На показанных видео заметно, как детали размываются, а объекты теряют чёткость при быстрых движениях. Картинка ниже – хороший пример. Пятно по центру изначально было вполне четким солдатом.

Genie 2 – это ещё один пример того, как искусственный интеллект может менять подходы к созданию виртуальных миров. Пока она остаётся экспериментальной технологией, но её развитие может открыть новые перспективы не только в индустрии игр, но и в исследовательских проектах.

Public Release.