Будущее дезинформации: могут ли водяные знаки стать спасением от дипфейков?

Крупные технологические компании, такие как Google, Amazon и OpenAI, еще в июле заявили, что в целях безопасности будут помечать водяными знаками контент, созданный искусственным интеллектом. Однако исследователи из Университета Мэриленда предупреждают , что метод вряд ли окажется эффективным.

Водяные знаки – это невидимые или едва заметные метки, которые создатель вставляет в изображения, видео или аудио для закрепления авторства. Цель корпораций – дать людям возможность распознавать ИИ-контент (с помощью специальных механизмов), даже если кто-то попытается выдать его за человеческий. А также противодействовать распространению дезинформации и дипфейков.

По данным недавно опубликованного исследования, проблема заключается в противоречиях между надежностью и точностью обнаружения меток. Чем выше точность (меньше ложных срабатываний), тем ниже надежность (больше упущений).

Были протестированы две модели потенциальных атак. Первая схема ориентирована на полностью невидимые знаки. Обычно для их создания разработчики добавляют слабый шум или небольшие искажения пикселей. Исследователи же использовали метод “диффузионной очистки изображений”, эффективно устраняющий искажения.

На защищенное изображение наложили дополнительный шум, а затем применили математический алгоритм для его удаления, который “заодно” стер и водяные знаки.

Для картинок с явно видимыми водяными знаками, на которых не подействует метод “диффузии”, создали механизм имитации. Он заставляет чистые изображения выглядеть так, будто на них уже есть метки.

“Модели, добавляющие водяные знаки к изображениям, получают задание пометить изображение с белым шумом. После этого “шумное” изображение с водяным знаком интегрируется с обычными. Этот трюк позволяет обмануть детектор, заставляя его думать, что все материалы защищены” – говорится в статье.

По словам исследователей, в будущем, возможно, появятся новые, более совершенные методы маркировки, но и мошенники непременно ответят еще более изощренными атаками. Выходит, “гонка вооружений” в этой области неизбежна.

Кроме того, ученые отмечают параллели между описанной проблемой и ситуацией с тестами CAPTCHA, которые тоже теряют свою эффективность по мере развития компьютерного зрения.

Машинное обучение стремительно продвигается вперед и вскоре сможет не только распознавать визуальные образы, но и генерировать максимально реалистичный текст и мультимедиа. Это значит, что в какой-то момент отличить контент, созданный человеком, от ИИ-материалов, станет совершенно невозможно.

Несмотря на усилия технологических компаний, проблема надежной идентификации ИИ-материалов остается открытой.

Public Release.