В БД для обучения AI-моделей Common Crawl выявлено около 12 тысяч API-ключей и паролей

3 Mar 2025 8:15 pm GMT+0000 Date Time

Исследователи из компании Truffle Security опубликовали результаты анализа публичного набора данных Common Crawl, используемого при обучении больших языковых моделей (например, DeepSeek). В исследовании использован декабрьский архив Common Crawl, включающий 400 терабайтов данных с содержимым 2.67 миллиардов web-страниц.

Сканирование показало, что в наборе присутствует 2.76 миллионов web-страниц, в которые встроены пароли и ключи доступа к API. Всего в архиве зафиксировано 11908 уникальных ключей и паролей, встроенных в HTML-разметку или JavaScript-код web-страниц и успешно прошедших проверку (учитывались только действующие учётные данные, которые позволили успешно подключиться к связанным с ними сервисам). 63% ключей и паролей повторно использовались на нескольких страницах. Например, ключ к API WalkScore присутствовал на 57 тысячах страниц, связанных с 1871 поддоменом.

Из наиболее интересных находок отмечается использование на стороне web-фронтэнда ключа для доступа к хранилищу AWS S3 и наличие на одной из web-страниц одновременно 17 webhook-ов к каналам Slack. Наиболее часто встраиваемыми учётными данными оказались API-ключи к Mailchimp – выявлено около 1500 подобных ключей, которые были указаны прямо в HTML-формах или JavaScript-коде, вместо использования переменных окружения на серверной стороне. Некоторые компании-разработчики ПО использовали одни и те же API-ключи на сайтах разных клиентов.

Предполагается, что использование небезопасного кода при обучении AI-моделей может негативно повлиять на качество работы модели и привести к генерации небезопасного вывода. Предпосылкой к изучению встроенных в web-страницы ключей послужило то, что большинство популярных больших языковых моделей в ответ на запрос кода для интеграции со Slack и Stripe выдали небезопасные примеры, использующие встраивание ключей прямо в web-страницу. Исследователи заинтересовались данным вопросом и попытались изучить насколько часто подобный уязвимый код встречается в данных, задействованных при обучении.

Release. Ссылка here.