Хакеры научились перехватывать сообщения ChatGPT

Специалисты израильской компании Offensive AI Lab обнародовали методику, позволяющую расшифровывать тексты из перехваченных сообщений чат-ботов. Лаборатория Касперского подробно рассказала детали исследования.

Новая техника представляет собой атаку по сторонним каналам (Side-channel Attack), основанную на анализе длин токенов в зашифрованных сообщениях. Поскольку чат-боты, использующие большие языковые модели (LLM), не передают информацию не словами или символами, а токенами (последовательности символов, встречающиеся в наборе текста), изучение длин токенов позволяет угадать содержимое сообщений. На сайте OpenAI есть “Токенизатор”, который позволяет понять, как это работает.

Токенизация сообщений моделями GPT-3.5 и GPT-4

Основная уязвимость заключается в том, что чат-боты отправляют токены последовательно, не используя методы сжатия или кодирования, что облегчает задачу атакующим. Некоторые чат-боты (например, Google Gemini) защищены от такого рода атак, но большинство других оказались уязвимы.

Для восстановления текста исследователи использовали две LLM-модели, одна из которых специализировалась на восстановлении стандартных вступительных сообщений, вторая – на дальнейшем тексте общения. Эффективность восстановления текста составила около 29%, а угадывание общей темы беседы – около 55%.

Схема атаки

Особенностью данной атаки является её зависимость от языка общения: она наиболее эффективна для английского языка из-за характерных длинных токенов, тогда как для других языков, включая русский, эффективность атаки заметно ниже.

Даже языки, близкие к английскому из групп германских и романских, имеют токены, длина которых в среднем в 1,5-2 раза меньше. В русском языке средний токен ещё короче – обычно он составляет всего пару символов, что значительно уменьшает потенциальную эффективность атаки.

Стоит подчеркнуть, что использование такого метода вряд ли позволит надежно выявить конкретные детали, такие как имена, числовые значения, даты, адреса и другие критически важные данные.

В ответ на публикацию данной методики, разработчики чат-ботов, включая Cloudflare и OpenAI, начали внедрять метод добавления “мусорных” данных (padding), что снижает вероятность успешной атаки. Вероятно, остальные разработчики чат-ботов также внедрят защиту, чтобы общение с чат-ботами стало безопаснее.

Public Release.