Содержание, созданное с помощью искусственного интеллекта, начинает заполнять интернет, и это может стать плохой новостью для будущих моделей AI. Языковые модели, такие как ChatGPT, обучаются на основе контента, найденного в интернете. По мере того как AI создает все больше “синтетического” контента, может возникнуть инженерная проблема, известная как “коллапс модели”.
Фильтрация синтетических данных из обучающих моделей становится важной областью исследований, и, вероятно, будет расти по мере того как контент AI будет заполнять интернет. Оуроборос – это древний символ змеи, поглощающей свой собственный хвост. В эпоху AI эта символика приобретает новый, острый смысл. Когда редакционный контент, созданный языковыми моделями AI, начинает заполнять интернет, это сопровождается множеством ошибок.
Интернет является источником, на котором обучаются эти языковые модели. Другими словами, AI “поглощает” себя. AI может начать обучение на данных, полных ошибок, до тех пор, пока то, что он пытался создать, не станет полной чепухой. Это то, что исследователи AI называют “коллапсом модели”. В одном из недавних исследований была использована языковая модель для генерации текста о английской архитектуре. После многократного обучения AI на этом синтетическом тесте, ответ 10-й модели был полностью бессмысленным.
Чтобы эффективно обучать новые модели AI, компаниям нужны данные, не испорченные синтетически созданной информацией. Алекс Димакис, содиректор Национального института AI по основам машинного обучения, говорит, что небольшая коллекция данных высокого качества может превзойти большую синтетическую. На данный момент инженерам приходится просеивать данные, чтобы убедиться, что AI не обучается на синтетических данных, которые он создал сам.