Цифровые двойники: как ‘Animate Anyone’ угрожает вашей идентичности

Исследователи из Института Интеллектуальных Вычислений Alibaba Group разработали новую технологию генерации видео под названием ” Animate Anyone “. Этот прорыв значительно превосходит предыдущие системы преобразования изображений в видео, такие как DisCo и DreamPose, которые были актуальны ещё летом, но теперь устарели.

“Animate Anyone” позволяет создавать убедительные видео из статичных изображений, переходя от “несовершенных академических экспериментов” к качеству, достаточному для обмана взгляда. Такое качество уже достигнуто в области статичных изображений и текстовых диалогов, вызывая сбои в нашем восприятии реальности.

Модель начинает с извлечения деталей, таких как черты лица, узоры и позы, из исходного изображения, например, фотографии модели в платье. Затем создаются серии изображений, где эти детали накладываются на слегка изменённые позы, которые могут быть захвачены в движении или извлечены из другого видео.

Ранние модели демонстрировали возможность такого подхода, но существовали проблемы, такие как “галлюцинации” – необходимость модели изобретать правдоподобные детали, например, как движется рукав или волосы при повороте человека. Это приводило к созданию странных изображений, делая видео неперекончительным. Однако “Animate Anyone” значительно улучшил этот процесс, хотя и не достиг совершенства.

Технические детали новой модели сложны для понимания, но важно отметить новый промежуточный этап, который “позволяет модели всесторонне изучать связь с исходным изображением в едином пространстве характеристик, что значительно улучшает сохранение деталей внешности”. Улучшение сохранения базовых и тонких деталей позволяет создавать более качественные изображения.

Результаты демонстрируются в различных контекстах: модели в модной одежде принимают произвольные позы без деформации; 2D-аниме-персонажи оживают и убедительно танцуют; Лионель Месси выполняет несколько общих движений. Однако модель все еще испытывает трудности, особенно с глазами и руками, а также с позами, сильно отличающимися от оригинала.

Эта технология вызывает беспокойство, так как с её помощью злоумышленники могут заставить человека делать что угодно на видео, используя всего лишь одно качественное изображение. На данный момент технология слишком сложна и нестабильна для широкого использования, но в мире ИИ вещи быстро меняются.

Команда разработчиков пока не планирует публиковать код в открытом доступе. На их странице GitHub указано, что они активно работают над подготовкой демонстрации и кода для общественного доступа, но конкретная дата выпуска пока не назначена.

Остаётся вопрос: что произойдет, когда интернет заполнится поддельными видео? Ответ, вероятно, мы узнаем раньше, чем нам хотелось бы.

Public Release.