Согласно новому отчету Anthropic, обход ограничений LLM-моделей остаётся довольно простым и может быть автоматизирован. Группа ученых разработали алгоритм Best-of-N (BoN) Jailbreaking, который позволяет обходить защитные механизмы современных ИИ-систем, используя различные модификации вводимых данных.
Термин “jailbreaking”, изначально связанный со снятием программных ограничений на iPhone, теперь активно используется в сфере искусственного интеллекта. В этом контексте ” data-html=”true” data-original-title=”Джейлбрейк” >джейлбрейк описывает методы обхода встроенных ограничений, призванных предотвращать генерацию вредоносного контента. Новый способ был протестирован на таких моделях, как GPT-4o, Claude 3.5 и Claude 3 Opus, Gemini-1.5 и Llama 3.
Алгоритм BoN Jailbreaking многократно генерирует вариации исходного запроса, добавляя случайные изменения, такие как перестановка слов, изменение регистра, орфографические ошибки или нарушение грамматики. Это продолжается до тех пор, пока модель не выдаст ответ на запрещённый запрос. Например, если напрямую задать GPT-4o вопрос о создании бомбы, система отклонит запрос, ссылаясь на политику использования. Однако, добавляя случайные заглавные буквы, ошибки или меняя порядок слов, алгоритм может добиться нужного ответа.
Пример работы BoN Jailbreaking (arxiv.org)
Исследователи протестировали метод BoN Jailbreaking на текстовых, звуковых и визуальных данных. Для обхода ограничений на звуковые запросы изменялись параметры скорости, тональности и громкости, либо добавлялись шум или музыка. Для изображений использовались изменения шрифтов, цвета фона, размеров и положения объектов. Метод показал высокую эффективность: на всех моделях, включая GPT-4o и Claude 3.5, удалось достичь уровня успешных атак свыше 50% за 10 000 попыток.
Алгоритм BoN Jailbreaking автоматизирует уже известные методы обхода защитных барьеров, которые ранее применялись вручную. Например, в начале 2024 года сообщалось, что для создания неприемлемых изображений с использованием генератора изображений от Microsoft достаточно было намеренно искажать имена и описания. Схожие методы использовались для обхода защиты в аудиогенераторах, добавляя паузы или изменения в записи.
Anthropic подчёркивает, что цель исследования – не только показать уязвимость современных систем, но и создать основу для разработки новых механизмов защиты. Подробный анализ успешных атак может помочь в создании более эффективных способов предотвращения их повторения.
Тем не менее, на рынке уже существуют модели ИИ, лишённые встроенных ограничений. Такие модели позволяют получать любые ответы или создавать изображения, нарушающие права и нормы, что вызывает серьёзные вопросы о необходимости более строгого регулирования и внедрения современных защитных технологий.