Ученые Университета Сент-Луиса представили новый тип атаки на LLM-модели, который оказался практически невидимым для традиционных систем защиты. Специалисты описали уязвимости, связанные с методом рассуждений Chain-of-Thought (” data-html=”true” data-original-title=”CoT” >CoT), который широко используется в современных LLM, таких как GPT-4o, O1 и LLaMA-3.
Метод CoT помогает моделям разбивать сложные задачи на последовательные шаги, улучшая точность ответов. Однако исследователи обнаружили, что этот процесс можно незаметно изменить, внедрив “скрытые триггеры”. Такой подход позволяет атаке оставаться скрытой до определенного момента, активируясь лишь при соблюдении определенной последовательности рассуждений. Это делает атаку практически недоступной для стандартных механизмов обнаружения.
Новая атака под названием DarkMind отличается от ранее известных методов (BadChain и DT-Base) тем, что не требует изменения пользовательских запросов или перетренировки модели. Вместо этого
Бэкдоры могут быть внедрены в программное обеспечение как на этапе его разработки, так и уже в ходе его эксплуатации (например, через вредоносное ПО). Они могут быть использованы как для шпионажа, так и для удаленного управления системой или устройством.