Исследователи из OpenAI разработали новую технику под названием “иерархия инструкций”, которая усиливает защиту ИИ-моделей от злоупотреблений и несанкционированных команд. Этот метод позволяет моделям уделять больше внимания первоначальным инструкциям разработчика, игнорируя некорректные запросы пользователей.
Первая модель, использующая новый метод, – это недавно запущенная облегченная версия GPT-4o Mini. Техника иерархии инструкций помогает моделям следовать системным сообщениям разработчика, что значительно повышает их безопасность и снижает риск использования “злоумышленных” команд.
Исследовательская статья OpenAI объясняет, что существующие большие языковые модели (LLM) не способны различать пользовательские команды и системные инструкции разработчиков. Новый метод позволяет системе давать приоритет системным инструкциям и игнорировать вредоносные запросы, например, такие как “забыть все предыдущие инструкции”.
Новая защита особенно важна для будущих полностью автоматизированных агентов, которые смогут выполнять различные задачи в цифровой жизни пользователей. Такие агенты должны быть устойчивы к атакам, чтобы не допускать утечки конфиденциальной информации.
Недавно OpenAI столкнулась с критикой по поводу безопасности и прозрачности. Внутренние письма сотрудников и уход ключевых исследователей подчеркивают необходимость улучшения этих аспектов. Внедрение методов, таких как иерархия инструкций, является важным шагом к повышению доверия пользователей к ИИ и обеспечению их безопасности.
С улучшением защиты ИИ-модели смогут надежнее выполнять свои функции, что делает их использование более безопасным и эффективным в различных сферах.