Фантазия ломает запреты: новый способ обмануть ИИ

Одна из ключевых тем безопасности в области ИИ снова оказалась в центре внимания после выявления двух системных методов обхода защитных механизмов в популярных генеративных сервисах. Новые уязвимости, получившие названия “Inception” и альтернативный метод на основе “обратных ответов”, позволяют злоумышленникам обойти ограничения на генерацию запрещённого контента практически во всех ведущих моделях.

Инициаторы расследования выяснили, что первый метод связан с использованием концепции “вложенного сценария”. Пользователь побуждает модель представить гипотетическую ситуацию, затем изменяет её контекст так, чтобы нейросеть начала работать вне привычных правил, фактически игнорируя встроенные фильтры безопасности. Примечательно, что данная техника оказалась действенной сразу против ChatGPT (OpenAI), Claude (Anthropic), Copilot (Microsoft), DeepSeek, Gemini (Google), Grok (Twitter/X*), MetaAI** и моделей от MistralAI.

Второй способ обхода строится на хитроумной манипуляции: злоумышленник просит ИИ рассказать, как не нужно отвечать на определённый вопрос, а затем с помощью дополнительных уточнений и переключения тем возвращает диалог к изначальной запрещённой теме, заставляя систему выдать ответ. Этот метод оказался эффективным для большинства тех же сервисов, что и первый.

Хотя обе уязвимости сами по себе классифицируются как угрозы низкой степени риска, их последствия могут быть серьёзными. Прошедшие мимо защиты запреты позволяют создавать инструкции по изготовлению оружия, программированию вредоносного ПО, подготовке фишинговых атак и обращению с запрещёнными веществами. Особенно тревожит тот факт, что использование популярных легальных сервисов в качестве посредников затрудняет отслеживание активности злоумышленников.

Реакция компаний оказалась неоднородной. DeepSeek заявила, что расценивает проблему скорее как традиционный обход через контекст, а не как архитектурную уязвимость . По их мнению, модель лишь “галлюцинировала” детали, а реального утекания системных параметров не произошло. Тем не менее, разработчики DeepSeek пообещали усилить защиту.

В то же время от других крупных игроков рынка – OpenAI, Anthropic, Google, Meta, Mistral AI и X (Twitter) – официальных заявлений на момент публикации так и не поступило. Это может свидетельствовать как о продолжающихся расследованиях, так и о сложности устранения проблемы, учитывая её системный характер.

Специалисты подчеркивают, что наличие почти идентичных уязвимостей у различных моделей указывает на глубокую общую проблему: существующие методы обучения и настройки LLM-систем всё ещё недостаточно устойчивы к продуманным сценариям социальной инженерии, даже несмотря на формальные рамки безопасности.

Доклад об уязвимостях был опубликован 25 апреля 2025 года в рамках базы данных VU#667211 и будет дополняться по мере поступления новых заявлений от вендоров.

* Социальная сеть запрещена на территории Российской Федерации.

* Компания Meta и её продукты (включая Instagram, Facebook, Threads) признаны экстремистскими, их деятельность запрещена на территории РФ.

Public Release.