SWARM: новая угроза для ИИ-моделей в облаке

В эпоху больших данных обучение моделей Vision Transformer (ViT) на обширных наборах данных стало стандартом для улучшения производительности в различных ИИ-задачах. Визуальные подсказки (VP), которые вводят обучаемые параметры для конкретных задач, позволяют эффективно адаптировать модели без полной донастройки. Однако возможные риски безопасности VP остаются неизученными.

Аналитики из отдела безопасности Tencent, а также учёные из Университета Цинхуа, Чжэцзянского университета, Исследовательского центра искусственного интеллекта и лаборатории Пэн Ченг обнаружили новую угрозу для VP в облачных сервисах. Злоумышленники могут добавить или удалить специальный токен “переключатель”, чтобы скрытно переключаться между обычным и заражённым режимами работы модели.

Исследователи назвали выявленный ими метод переключаемой атакой на предварительно обученные модели (Switchable Attack Against Pre-trained Models, сокращённо SWARM).

SWARM оптимизирует промпты и токен-переключатель таким образом, чтобы без переключателя модель работала в нормальном режиме, но буквально сходила с ума при его активации.

Эксперименты показывают высокую эффективность и незаметность SWARM. В облачных сервисах злоумышленники могут управлять входными промптами, не имея доступа к пользовательским данным. В обычном режиме модель обрабатывает данные корректно, а в заражённом – успешно выполняет атаку при активации триггера.

Специалисты отмечают, что злоумышленники могут настраивать свои промпты в зависимости от данных, используя обучаемые токены после слоя встраивания. Пользователи могут применять различные техники для смягчения рисков, такие как Neural Attention Distillation (NAD) и I-BAU. Однако SWARM достигает 96% и 97% успешности соответственно, в большинстве случае обходя эти техники.

Китайские инженеры подчёркивают способность SWARM обходить обнаружение и смягчение угроз, что увеличивает его опасность для жертв. SWARM демонстрирует новые механизмы атак и стимулирует дальнейшие исследования в области защиты.

Таким образом, новое исследование поднимает вопросы о безопасности использования визуальных подсказок в предварительно обученных моделях ViT и призывает к разработке новых методов защиты от подобных угроз.

Public Release.