Джейлбрейк для Gemini: как взломать крупную языковую модель от Google?

В недавнем отчёте компании HiddenLayer исследователи выявили ряд уязвимостей в крупной языковой модели Gemini от Google. Эти уязвимости представляют вполне реальную угрозу безопасности и затрагивают как пользователей Gemini Advanced в Google Workspace, так и компании, использующие API этой языковой модели.

Первая уязвимость связана с возможностью обхода защитных механизмов для утечки системных подсказок, что может позволить модели генерировать вредоносный контент или выполнять косвенные атаки путём инъекций. Это становится возможным благодаря уязвимости моделей к так называемой атаке синонимами, позволяющей обходить защиту и ограничения контента.

Второй тип уязвимостей касается использования сложных техник “джейлбрейкинга” для того, чтобы заставить модели Gemini генерировать дезинформацию по таким темам, например, как выборы, или распространять потенциально незаконную и опасную информацию.

Третья уязвимость может привести к тому, что Gemini сольёт конфиденциальную информацию в системной подсказке, если передать ей серию необычных токенов в качестве ввода.

В исследовании также упоминается метод, использующий Gemini Advanced и специально подготовленный документ Google, что позволяет обойти инструкции модели и выполнять вредоносные действия.

Компания Google в ответ заявила, что регулярно проводит Red Teaming и тренирует свои модели для защиты от враждебных действий, таких как инъекции подсказок, джейлбрейкинг и более сложные атаки. Также сообщается о введении компанией ограничений на ответы на запросы, связанные с выборами, в знак предосторожности.

Раскрытие этих уязвимостей подчёркивает необходимость постоянного тестирования моделей на атаки с использованием подсказок, атаки с извлечением данных, манипулированием, враждебными примерами, отравлением данных и эксфильтрацией.

Специалисты отметили, что такие уязвимости отнюдь не являются чем-то новым и присутствуют во многих других ИИ-моделях. Учитывая это, все игроки ИИ-индустрии должны проявлять как можно большую бдительность и осторожность при обучении и настройке своих языковых моделей.

Public Release.