Исследователи из Школы компьютерных наук Университета Карнеги-Меллона, Института кибербезопасности и конфиденциальности CyLab, а также Центра безопасного ИИ в Сан-Франциско совместно выявили новую уязвимостьв крупных языковых моделях (LLM).
Учёные предложили простой и эффективный метод атаки, который с высокой вероятностью заставляет языковые модели генерировать нежелательные ответы. Оказывается, что добавление к широкому спектру запросов определённых суффиксов или ключевых слов, вычисленных математически, значительно увеличивает вероятность того, что модели всё же ответят на пользовательские запросы, которые они в противном случае отклонили бы.
Демонстрация атаки в ” data-html=”true” data-original-title=”ChatGPT” >ChatGPT, Claude, Bard и Llama-2
Учёные не ставили целью атаковать закрытые языковые модели и чат-боты, однако исследование показало, что и они в равной степени уязвимы для тех же приёмов и уловок, что и открытые языковые модели. Это при том, что обнаружены данные уязвимости были именно в открытых моделях.
Атака успешно работает в таких популярных чат-ботах, как OpenAI ChatGPT, Anthropic Claude, Google Bard и Meta* Llama-2. Исследователи протестировали свой метод на множестве различных запросов, чтобы доказать универсальность выявленного подхода.
Обнаруженная уязвимость ставит под угрозу безопасное внедрение искусственного интеллекта в автономные системы, поскольку злоумышленники могут использовать её для обхода защиты и вывода таких систем из строя. Это может привести к серьёзным последствиям при широком распространении автономных систем в будущем.
Понимание того, как проводить такие атаки, часто является первым шагом к разработке надёжной защиты от них. На данный момент у исследователей нет универсального решения для предотвращения таких атак, поэтому следующий шаг – найти способ исправить эти модели и обеспечить их безопасное использование в автономных системах.
* Компания Meta и её продукты (Instagram и Facebook) признаны экстремистскими, их деятельность запрещена на территории РФ.