RAID открывает “черный ящик”: большинство детекторов ИИ-текстов не работают

С момента выпуска GPT-2 в 2019 году технологии, использующие большие языковые модели (LLM), значительно продвинулись вперед. Теперь машины способны создавать тексты, настолько похожие на написанные человеком, что даже опытные читатели часто не могут распознать, что текст создан искусственным интеллектом. Такая ситуация вызывает серьезные вопросы о том, какие риски могут возникнуть при использовании таких технологий.

Технологии LLM используются для ускорения процесса создания текстов, а также для повышения креативности, однако их мощь не всегда приносит пользу. Нередко она оборачивается злоупотреблением и наносит вред, что уже заметно в различных областях, где потребляется информация. Невозможность точно определить, кем создан текст – человеком или машиной – усиливает этот риск.

Сегодня как академическое сообщество, так и коммерческие компании прилагают усилия к улучшению методов распознавания текстов, созданных ИИ. Ирония в том, что для этого используются те же самые машины. Модели машинного обучения способны выявлять тонкие закономерности в выборе слов и грамматических конструкциях, которые человек может упустить.

Многие коммерческие детекторы утверждают, что могут обнаруживать машинно-сгенерированные тексты с точностью до 99%. Но действительно ли это так? Профессор компьютерных и информационных наук Крис Каллисон-Берч и аспирант его исследовательской группы Лиам Дуган решили разобраться в этом вопросе. Их работа была представлена на 62-й Ежегодной встрече Ассоциации вычислительной лингвистики и опубликована на сервере препринтов arXiv.

Каллисон-Берч отмечает, что по мере развития технологий обнаружения машинно-сгенерированных текстов совершенствуются и методы уклонения от таких детекторов. Это настоящая гонка вооружений, и хотя стремление создать надежные детекторы важно, существует множество ограничений и уязвимостей в доступных на сегодняшний день решениях, добавил проффесор.

Для изучения этих ограничений и поиска путей создания более надежных детекторов исследовательская группа разработала Robust AI Detector (RAID) – набор данных, включающий более 10 миллионов документов: рецепты, новостные статьи, записи в блогах и многое другое, как созданное ИИ, так и написанное людьми. RAID стал первым стандартизированным эталоном для проверки способности детекторов обнаруживать машинно-сгенерированные тексты.

Кроме того, они создали таблицу лидеров, которая публично ранжирует эффективность всех детекторов, протестированных с использованием RAID, что позволяет оценивать их работу объективно и прозрачно. Дуган отметил, что использование таблицы лидеров уже стало ключом к успеху во многих аспектах машинного обучения, таких как компьютерное зрение. RAID – это первый такой рейтинг, созданный для детекторов текстов, сгенерированных ИИ. Исследователи надеются, что их работа стимулирует прозрачность и высококачественные исследования в этой быстро развивающейся области.

После публикации работы и релиза RAID-набора данных, исследователи заметили, что им заинтересовались компании, разрабатывающие детекторы. Дуган поделился, что вскоре после того, как работа стала доступной, их данные начали активно скачивать, и с ними связалась компания Originality.ai, специализирующаяся на разработке детекторов для текстов, созданных ИИ. Компания поделилась работой исследователей в своем блоге, включила свой детектор в рейтинг и использует RAID для выявления ранее неизвестных уязвимостей и улучшения своего инструмента обнаружения.

Однако, как показывает RAID, многие современные детекторы не соответствуют заявленным характеристикам. Например, детекторы, обученные на текстах, созданных ChatGPT, практически бесполезны при попытке обнаружить тексты, сгенерированные другими LLM, такими как Llama, и наоборот. Детекторы, обученные на новостных статьях, плохо справляются с анализом рецептов или креативного письма. Исследователи пришли к выводу, что многие детекторы работают эффективно только в очень узких случаях, когда анализируемый текст схож с тем, на котором они были обучены.

Неудачные детекторы могут представлять собой не меньшую опасность, чем инструменты ИИ, используемые для создания текстов. Например, если университеты или школы полагаются на узконаправленные детекторы для выявления использования ChatGPT студентами при написании заданий, они могут несправедливо обвинить студентов в мошенничестве, хотя на самом деле те не пользовались ИИ. Кроме того, такие детекторы могут не распознать работы других студентов, которые действительно использовали LLM для выполнения домашних заданий.

Но дело не только в обучении детектора. Исследователи также изучили, как легко сбить с толку детектор с помощью атак, таких как замена букв на символы, схожие по написанию, или использование альтернативных орфографий и синонимов. Оказалось, что существует множество правок, которые пользователь может внести, чтобы избежать обнаружения.

Исследование завершилось выводом, что современные детекторы пока не достаточно надежны, чтобы быть полезными в обществе. Однако открытая оценка детекторов на больших, разнообразных и общедоступных ресурсах критически важна для ускорения прогресса и повышения доверия к технологиям обнаружения ИИ. Прозрачность и дальнейшие исследования в этом направлении позволят создать детекторы, которые смогут справляться с различными задачами.

Как отметил Дуган, оценка надежности особенно важна для детекторов, и ее значимость будет только возрастать по мере расширения их использования. Важно понимать, где и как создается текст, и это исследование является шагом на пути к устранению пробелов в знаниях как в научном, так и в общественном сообществе.

Public Release.