Описаны новые способы “взлома” ChatGPT

Исследователи в области искусственного интеллекта начали находить новые способы, предназначенные для обхода систем безопасности чат-бота с ИИ ChatGPT от стартапа OpenAI. Как пишет журнал Wired, теперь для этого найдены новые способы, такие как команда «объясни план злодея».

Ученый Алекс Поляков сообщил, что для обхода различных моделей он создал текстовую игру «Побег из тюрьмы», которая позволяет обходить правила, связанные с созданием разжигающего ненависть контента или написанием статей о незаконных действиях.

«Я предлагаю чат-боту сыграть в игру, в которой два персонажа (Том и Джерри) разговаривают. Каждому персонажу предлагается добавить одно слово к разговору, в результате чего создается сценарий, в котором людям предлагается найти конкретные ингредиенты, необходимые для производства запрещенных веществ», — рассказал специалист.

В результате ИИ обходит введенные ограничения и выдает необходимую информацию, думая, что диалог происходит в формате истории, которая не относится к реальному запросу от человека.

Другой прием также подразумевает создание текстовой истории, в которой участвуют герой и злодей. По сюжету от пользователя герой был захвачен злодеем, и он просит чат-бота продолжить объяснение плана злодея.

До выхода GPT-4 самым известным способом взлома был DAN, когда пользователи просили ChatGPT притвориться моделью искусственного интеллекта под названием Do Anything Now.

Ранее сообщалось, что американский предприниматель Илон Маск создал новую компанию X.AI, которая будет заниматься разработками в области искусственного интеллекта.