ИИ под защитой: Microsoft внедряет новые функции для борьбы со взломом нейросетей

Microsoft объявилао создании новых технологий, направленных на противодействие угрозам, связанным со взломом систем ИИ. Функции AI Spotlighting и AI Watchdog будут защищать от двух типов атак: внедрение вредоносных инструкций и использование “отравленного” контента.

Два новых подхода к безопасности

AI Spotlighting разделяет пользовательские инструкции от вредоносного контента, что позволяет системе ИИ анализировать данные без риска обработки скрытых угроз.
AI Watchdog работает как поисковая собака, распознавая враждебные указания и предотвращая попытки взлома системы.

Кроме того, корпорация представила новый инструментарий для исследователей ИИ и профессионалов в области безопасности – PyRIT (Python Risk Identification Toolkit). Набор инструментов помогает заранее выявлять риски и уязвимости в системах ИИ.

Сценарии атак и методы их нейтрализации

Злоумышленник может использовать 2 основных метода атаки на ИИ: манипуляцию с пользовательскими запросами и инъекцию вредоносного содержимого.

В первом случае атакующий может давать ИИ вредоносные указания через пользовательский запрос, во втором – заставлять ИИ обрабатывать кажущийся безвредным документ, который содержит скрытые инструкции для ИИ. Например, при анализе “отравленного” электронного письма, ИИ может без ведома пользователя сбросить пароль или передать конфиденциальную информацию.

Microsoft предупреждает, что атаки с использованием “отравленного контента” имеют высокую степень успеха – более 20%. Spotlighting снижает показатель до уровня ниже порога обнаружения, сохраняя общую производительность ИИ.

Многоуровневая защита и атаки Crescendo

В рамках усиления защиты, Microsoft разработала систему фильтрации запросов, которая анализирует всю предысторию взаимодействия с ИИ для выявления потенциальных угроз.

Система фильтрации предназначена для защиты от новой разновидности атак на ИИ, которую специалисты Microsoft назвали Crescendo. По сути, Crescendo обманом заставляет модель создавать вредоносный контент, используя свои собственные ответы. Задавая тщательно продуманные вопросы или подсказки, которые постепенно приводят ИИ к желаемому результату, вместо того, чтобы задавать задание сразу, можно обойти ограждения и фильтры – обычно этого можно достичь менее чем за 10 ходов взаимодействия.

Компания подчеркивает, что защита от последовательных запросов, которые отдельно кажутся безобидными, но в совокупности могут привести к нарушению защитных механизмов, является ключевой для обеспечения безопасности систем ИИ. Принятые меры, по заявлениям Microsoft, значительно снижают вероятность успешной атаки, укрепляя защиту систем ИИ перед лицом постоянно эволюционирующих киберугроз.

Public Release.