Уязвимость в GPT-4: редкие языки заставляют ChatGPT давать советы по воровству и терроризму

1 Feb 2024 8:12 am GMT+0000 Date Time

В недавнем исследовании ученых из Университета Брауна в США было выявлено, что ограничения безопасности, предотвращающие выдачу вредоносного текста нейросетью GPT-4 от OpenAI, можно легко обойти с помощью перевода запросов на редко используемые языки, такие как зулу, шотландский гэльский или хмонг.

Исследователи провели тест, переведя 520 потенциально вредоносных запросов с английского на другие языки и обратно, и обнаружили, что с помощью языков, таких как зулу, шотландский гэльский, хмонг и гуарани, удается обойти ограничения безопасности примерно в 79% случаев. В то время как те же запросы на английском языке блокировались в 99% случаев. Особенно эффективным оказался обход ограничений для запросов, связанных с терроризмом, финансовыми преступлениями и распространением дезинформации.

Однако такой подход не всегда оказывается успешным – GPT-4 может генерировать бессмысленные ответы, что может быть связано как с недостатками модели, так и с ошибками перевода.

Ученые перевели входные данные с английского на язык зулу (zu), и тогда ChatGPT рассказал, как незаметно воровать в магазине

Эксперименты показывают, что разработчики ИИ должны учитывать непопулярные языки с ограниченными ресурсами при оценке безопасности своих моделей. Дефицит данных для обучения на таких языках ранее приводил к технологическим диспропорциям среди их носителей. Однако теперь такая тенденция также создает риски для всех пользователей больших языковых моделей (Large Language Model, LLM), поскольку общедоступные API машинного перевода позволяют обходить меры безопасности LLM.

OpenAI признали значимость исследования и заявили о намерении учесть его результаты. Это подчеркивает необходимость поиска комплексных решений для обеспечения безопасности ИИ, включая улучшение обучения моделей на языках с ограниченными ресурсами и разработку более эффективных механизмов фильтрации.

Public Release.