Специалисты из Оксфордского университета предупреждают о том, что увеличение количества контента, созданного с помощью искусственного интеллекта (ИИ), может привести к краху моделей машинного обучения, если отрасль не сможет снизить риски. Об этом сообщает издание The Register.
Команда исследователей обнаружила, что использование наборов данных, сгенерированных ИИ, для обучения будущих моделей может привести к возникновению тарабарщины, известной как коллапс модели. В качестве примера они приводят модель, которая начала текст о средневековой европейской архитектуре и закончила его бессмысленными рассуждениями о кроликах.
В статье, опубликованной в журнале Nature, авторы под руководством Ильи Шумайлова, сотрудника Google DeepMind и аспиранта Оксфордского университета, отмечают, что ИИ может не замечать менее распространенные строки текста в обучающих наборах данных. Это означает, что последующие модели, обученные на выходе, не могут учесть эти нюансы, что ведет к рекурсивному циклу.
Разработчики языковых моделей уже столкнулись с долгосрочными атаками, такими как фермы кликов, контента и троллей, которые вводят в заблуждение социальные сети и поисковые алгоритмы. Однако масштабы возможного отравления контента значительно возрастут с появлением крупномасштабных языковых моделей (LLMS).
Доцент кафедры электротехники и вычислительной техники Университета Дьюка Эмили Венгер проиллюстрировала коллапс модели на примере системы, генерирующей изображения собак. Если модель будет чрезмерно представлять определенные породы собак, например, золотистых ретриверов, то последующие модели, обучающиеся на основе сгенерированного ИИ набора данных, могут забыть о существовании менее распространенных пород. В результате модель рухнет и станет неспособной генерировать значимый контент.
Один из способов решения этой проблемы – нанесение водяных знаков на контент, созданный с помощью ИИ.
Ранее нейросеть Илона Маска без разрешения пользователей начали обучать на постах в X.