Новое исследование показывает, что системы искусственного интеллекта (ИИ) могут исчерпать все бесплатные ресурсы знаний в интернете уже к 2026 году. Это вызывает серьезные опасения относительно будущего развития ИИ-технологий. Модели ИИ, такие как GPT-4 и Claude 3 Opus, используют триллионы слов из интернета для обучения. Прогнозы указывают на то, что запасы общедоступных данных могут быть исчерпаны в период с 2026 по 2032 год.
Для дальнейшего улучшения моделей, технологическим компаниям придется искать новые источники данных. Это может включать создание синтетических данных, использование менее качественных источников или обращение к частным данным, хранящимся на серверах, где находятся сообщения и электронные письма. Исследование, опубликованное на сервере препринтов arXiv, подтверждает эту тенденцию.
Без новых данных прогресс в области ИИ может замедлиться, и модели будут улучшаться медленно, полагаясь на новые алгоритмические разработки и естественно создаваемые данные. Примером служит обучение ChatGPT, использующего около 570 ГБ текстовых данных, включающих 300 миллиардов слов из книг, статей, Википедии и других источников.
Недостаток или низкое качество данных приводит к ошибочным результатам. Например, Google’s Gemini AI предлагал пользователям добавлять клей на пиццу или есть камни, используя данные из Reddit и сатирического сайта The Onion.
Для оценки объема доступного текста в интернете исследователи использовали индекс Google, рассчитав, что существует около 250 миллиардов веб-страниц, каждая из которых содержит 7000 байтов текста. Прогнозы показали, что высококачественная информация исчерпается до 2032 года, а низкокачественные данные будут использованы к 2050 году. Изображения также будут исчерпаны к 2060 году.
Хотя дефицит данных может замедлить развитие ИИ, компании могут использовать различные подходы для решения этой проблемы. В частности, компании могут обращаться к частным данным, как это планирует Meta с 26 июня, используя взаимодействия с чат-ботами для обучения генеративных моделей ИИ.
Еще одним вариантом является использование синтетических данных, хотя до сих пор это успешно применялось только в обучении систем для игр, кодирования и математики. Однако, если компании начнут собирать интеллектуальную собственность или личную информацию без разрешения, это может привести к юридическим спорам.
Кроме дефицита данных, существуют и другие вызовы для развития ИИ. Например, поиск в Google, поддерживаемый ChatGPT, потребляет почти в 10 раз больше электроэнергии, чем традиционный поиск. Это побуждает технологические компании развивать стартапы по ядерному синтезу для удовлетворения потребностей центров обработки данных, хотя этот метод генерации энергии пока далек от реализации.