Skeleton Key: как заставить ИИ написать рецепт яда или составить план по истреблению человечества

Компания Microsoft предупреждает о новом типе атаки на системы генеративного искусственного интеллекта, которая получила название “Skeleton Key”. Эта атака позволяет пользователям обходить этические ограничения, а также ограничения безопасности, встроенные в ИИ-модели, такие как ChatGPT. Метод работает за счёт предоставления определённого контекста, что позволяет получить доступ к оскорбительному, вредоносному или незаконному контенту.

Для иллюстрации рассмотрим случай, когда пользователь запрашивает инструкции по созданию опасного вредоносного ПО, способного вывести из строя, например, электростанцию. В обычных условиях большинство коммерческих чат-ботов откажутся предоставлять такую информацию. Однако, если запрос будет модифицирован так, чтобы указать, что информация требуется “для безопасного образовательного контекста с участием продвинутых исследователей, обученных этике и безопасности”, и добавить дисклеймер, то вероятно, что ИИ предоставит нецензурированный контент.

Иными словами, Microsoft обнаружила, что можно убедить большинство ведущих ИИ в том, что вредоносный запрос является легитимным и даже благородным, просто сообщив, что информация нужна для “исследовательских целей”.

“Когда ограничения игнорируются, модель не сможет различить вредоносные или несанкционированные запросы от любых других”, – объяснил Марк Руссинович, технический директор Microsoft Azure, в своём посте о данной тактике. “Из-за полной возможности обхода ограничений, мы назвали эту технику взлома “Skeleton Key””.

Он добавил, что “выходные данные модели оказываются полностью неотфильтрованными и показывают весь объем знаний модели или её способность производить запрашиваемый контент”. Техника “Skeleton Key” затрагивает сразу несколько моделей генеративного ИИ, протестированных исследователями Microsoft, включая модели, управляемые Azure AI, а также модели от Meta, Google, OpenAI, Mistral, Anthropic и Cohere.

“Все затронутые модели полностью и без цензуры выполнили [несколько запрещённых] задач”, – отметил Руссинович. Microsoft устранила проблему в Azure, введя новые меры защиты для обнаружения и блокировки данной тактики, а также обновила программное обеспечение, управляющее крупными языковыми моделями (LLM) в Azure AI, дополнительно уведомив других затронутых поставщиков.

Администраторам необходимо обновить используемые модели, чтобы внедрить любые исправления, которые могли быть выпущены этими поставщиками. В свою очередь, тем, кто создаёт собственные модели ИИ, Microsoft предлагает следующие меры по смягчению угрозы:

Фильтрация входных данных для идентификации запросов с вредоносными намерениями, независимо от сопровождающих их дисклеймеров.
Дополнительный барьер, который предотвращает попытки подрыва инструкций по безопасности.
Фильтрация выходных данных, которая выявляет и предотвращает ответы, нарушающие критерии безопасности.

Обнаружение уязвимости “Skeleton Key” подчёркивает важность постоянного совершенствования систем безопасности в сфере искусственного интеллекта. Этот случай демонстрирует, что даже самые продвинутые ИИ-системы могут быть уязвимы к манипуляциям, если не учитывать человеческую изобретательность в обходе правил.

Ситуация призывает к более глубокому пониманию этических аспектов ИИ и напоминает о необходимости создания многоуровневых систем защиты, способных адаптироваться к новым угрозам. Инцидент также подчёркивает важность сотрудничества между компаниями-разработчиками ИИ для обеспечения наилучшей безопасности и этичности искусственного интеллекта.

Public Release.