Исследователи Palo Alto Networks из команды Unit 42 выявили уязвимости в языковой модели DeepSeek, которые позволяют обойти её защитные механизмы и заставить выдавать запрещённый контент. Используя три техники ” data-html=”true” data-original-title=”Джейлбрейк” >джейлбрейка – Deceptive Delight, Bad Likert Judge и Crescendo, они смогли добиться высоких показателей обхода ограничений без необходимости глубоких технических знаний.
DeepSeek – это китайская компания, выпустившая две крупные открытые языковые модели: DeepSeek-V3 в декабре 2024 года и DeepSeek-R1 в январе 2025 года. Эти модели становятся конкурентами популярным LLM и активно развиваются. Исследования Unit 42 показали, что даже их наиболее продвинутая версия остаётся уязвимой перед манипуляциями, позволяя генерировать потенциально опасные материалы.
Техника Bad Likert Judge использует систему шкалирования ответов, при которой модель оценивает содержание на степень вредоносности, а затем, основываясь на полученных оценках, выдаёт детализированные примеры. Этот метод позволил исследователям получить инструкции по созданию инструментов для кражи данных и кейлоггеров. Несмотря на первоначальные отказы модели, уточняющие запросы позволили обойти ограничения и получить детальные алгоритмы для разработчиков вредоносного ПО.
Crescendo – методика постепенного наращивания запроса, при которой модель сначала отвечает на общие вопросы, а затем, через несколько итераций, начинает выдавать инструкции к запрещённым действиям. В тестах исследователей этот метод позволил получить пошаговые инструкции по созданию коктейлей Молотова, а также другие материалы по темам, связанным с насилием, незаконным оборотом веществ и социальным манипуляциям.
Deceptive Delight основан на вплетении вредоносного контента в положительный нарратив. Например, исследователи просили модель создать рассказ, связывающий соревнование по кибербезопасности, престижный университет и использование DCOM для удалённого выполнения команд. В ответ DeepSeek сгенерировала пример кода, который можно использовать для атаки на компьютеры на базе Windows.
Эксперименты показали, что DeepSeek не только уязвима для таких атак, но и может предоставлять пошаговые инструкции по осуществлению взломов, социальной инженерии и других вредоносных действий. В некоторых случаях модель включала в ответы рекомендации по маскировке атак и обходу средств обнаружения.
Специалисты предупреждают, что уязвимости подобных моделей могут привести к массовому распространению инструментов для атак среди злоумышленников. Хотя разработчики LLM стараются внедрять защитные механизмы, эволюция методов обхода делает борьбу с джейлбрейками постоянной гонкой. Компании, использующие такие модели, должны тщательно контролировать их применение и внедрять механизмы отслеживания запросов.
Unit 42 предлагает использовать специализированные инструменты для защиты от утечек и нежелательного использования ИИ, позволяющие обнаруживать попытки обхода ограничений и минимизировать риски, связанные с эксплуатацией уязвимостей языковых моделей.