Исследователи из Великобритании и Канады предупреждают об опасности обучения моделей искусственного интеллекта (ИИ) на данных, сгенерированных другими моделями ИИ. В статье, опубликованной на сайте arXiv.org под названием “Проклятие рекурсии: обучение на сгенерированных данных заставляет модели забывать”, они показали, что такой подход может привести к постепенному ухудшению качества и реалистичности этих данных и в конечном итоге к “коллапсу модели”.
Коллапс модели – это вырождающийся процесс, в результате которого модели со временем забывают истинное распределение данных и начинают неправильно интерпретировать то, что они считают реальным, укрепляя свои собственные убеждения. Это явление напоминает катастрофическое забывание и отравление данных, которые также могут негативно влиять на обучение ИИ. При катастрофическом забывании модель “забывает” предыдущие данные при изучении новой информации. Отравление данных – это злонамеренное внедрение ложной информации в источники данных.
Авторы статьи провели эксперименты с текстовыми и графическими моделями ИИ и обнаружили, что обучение на данных, произведенных другими моделями, приводит к быстрому ухудшению качества сгенерированных данных. “Мы были удивлены наблюдать, как быстро происходит коллапс модели: модели могут быстро забыть большую часть исходных данных, из которых они изначально учились”, – сказал один из авторов статьи Илья Шумайлов из Оксфордского университета.
Причиной такого поведения является то, что модели ИИ склонны переобучаться на популярных данных и неправильно понимать или представлять менее популярные данные. В результате в датасете уменьшается представленность малопопулярных или редких событий. Как сказал другой автор статьи Росс Андерсон из Университета Кембриджа и Университета Эдинбурга: “Так же, как мы засорили океаны пластиковым мусором и наполнили атмосферу углекислым газом, так мы собираемся наполнить интернет бессмыслицей”.
Исследователи предлагают несколько способов борьбы с коллапсом модели. Один из них – сохранять оригинальные, созданные человеком данные для обучения будущих моделей. Другой – учитывать меньшинства и редкие события в датасетах. Третий – контролировать качество и источники данных, используемых для обучения ИИ. В противном случае, интернет может превратиться в гигантскую кучу бесполезного цифрового шума.