Новая модель Blackout Diffusion генерирует изображения из пустоты

В рамках недавно прошедшей Международной конференции по машинному обучению (International Conference on Machine Learning, ICML ) была представлена новая революционная система искусственного интеллекта под названием Blackout Diffusion. Технология позволяет генерировать изображения из абсолютно пустого изображения, что отличает её от других существующих генеративных моделей, таких как DALL-E или Midjourney. Отличительной особенностью Blackout Diffusion является отсутствие необходимости в начальных данных для запуска процесса генерации.

Исследователь ИИ из Национальной лаборатории Лос-Аламоса и соавтор работы Хавьер Сантос сказал, что генеративные модели запускают новую промышленную революцию, позволяя автоматизировать многие задачи, например, генерацию кода, юридических документов и даже произведений искусства.

Важным достижением Blackout Diffusion является возможность работы в дискретных пространствах, в отличие от существующих моделей, которые функционируют в непрерывных пространствах. Это расширяет потенциал применения технологии в научных исследованиях и других областях.

Генерация изображений на основе Blackout Diffusion

Диффузионные модели создают образцы, аналогичные данным, на которых они обучаются. Такие модели работают, беря изображение и неоднократно добавляя шум, пока изображение не станет неузнаваемым. На протяжении всего процесса модель пытается научиться возвращать ее в исходное состояние. Текущим моделям требуются входные данные, чтобы начать создавать изображения. Blackout Diffusion убирает такую необходимость.

Лидер проекта Blackout Diffusion, физик из Лос-Аламоса Йен-Тинг Лин, утверждает, что качество изображений, создаваемых с помощью системы, сопоставимо с результатами текущих моделей, но при этом требует меньших вычислительных ресурсов. Команда протестировала технологию на нескольких стандартных наборах данных:

базу данных Национального института стандартов и технологий (National Institute of Standards and Technology, NIST);
набор данных CIFAR-10, содержащий изображения объектов 10 различных классов;
набор данных атрибутов CelebFaces, который состоит из более чем 200 000 изображений человеческих лиц.

Ключевое отличие между дискретным и непрерывным пространствами заключается в том, что в дискретном пространстве значения ограничены и не могут быть произвольными в пределах диапазона, в то время как в непрерывном пространстве значения могут быть любыми в пределах определенного спектра. Дискретное и непрерывное пространства отличаются по типу значений, которые они могут содержать:

Дискретное пространство: Значения разделены и отдельны друг от друга. Например, количество людей в комнате (1, 2, 3…) или категории цветов (красный, синий, зеленый). Вы не можете иметь половину человека или цвет, который находится между красным и синим в дискретной категории.
Непрерывное пространство: Значения могут изменяться непрерывно и занимать любую точку в диапазоне. Например, температура в комнате может быть 20.5 градусов, 20.51 градуса, и так далее. Значения не ограничены конкретными отдельными точками.

Технология Blackout Diffusion открывает новые возможности для применения в научных исследованиях и различных областях, таких как текстовые и научные приложения. Кроме того, было доказано, что Blackout Diffusion может значительно сократить время научных симуляции на суперкомпьютерах, способствуя научному прогрессу и сокращая углеродный след вычислительной науки. Некоторые из разнообразных примеров, которые ученые упоминают, – это химические модели для создания лекарств, а также изучение экспрессии генов для понимания биохимических механизмов в живых организмах.

Public Release.