В недавнем отчёте компании HiddenLayer исследователи выявили ряд уязвимостей в крупной языковой модели Gemini от Google. Эти уязвимости представляют вполне реальную угрозу безопасности и затрагивают как пользователей Gemini Advanced в Google Workspace, так и компании, использующие API этой языковой модели.
Первая уязвимость связана с возможностью обхода защитных механизмов для утечки системных подсказок, что может позволить модели генерировать вредоносный контент или выполнять косвенные атаки путём инъекций. Это становится возможным благодаря уязвимости моделей к так называемой атаке синонимами, позволяющей обходить защиту и ограничения контента.
Второй тип уязвимостей касается использования сложных техник “джейлбрейкинга” для того, чтобы заставить модели Gemini генерировать дезинформацию по таким темам, например, как выборы, или распространять потенциально незаконную и опасную информацию.
Третья уязвимость может привести к тому, что Gemini сольёт конфиденциальную информацию в системной подсказке, если передать ей серию необычных токенов в качестве ввода.
В исследовании также упоминается метод, использующий Gemini Advanced и специально подготовленный документ Google, что позволяет обойти инструкции модели и выполнять вредоносные действия.
Компания Google в ответ заявила, что регулярно проводит Red Teaming и тренирует свои модели для защиты от враждебных действий, таких как инъекции подсказок, джейлбрейкинг и более сложные атаки. Также сообщается о введении компанией ограничений на ответы на запросы, связанные с выборами, в знак предосторожности.
Раскрытие этих уязвимостей подчёркивает необходимость постоянного тестирования моделей на атаки с использованием подсказок, атаки с извлечением данных, манипулированием, враждебными примерами, отравлением данных и эксфильтрацией.
Специалисты отметили, что такие уязвимости отнюдь не являются чем-то новым и присутствуют во многих других ИИ-моделях. Учитывая это, все игроки ИИ-индустрии должны проявлять как можно большую бдительность и осторожность при обучении и настройке своих языковых моделей.