Компании Apple, Nvidia, Anthropic и Salesforce обвинили в использовании субтитров к сотне тысяч видео с YouTube для обучения своих ИИ-моделей без разрешения авторов. Об этом сообщает Wired со ссылкой на расследование канала Proof News.
В ходе расследования было обнаружено, что 172,5 тыс. видеороликов с более чем 48 тыс. каналов были включены в базу данных под названием The Pile. Примечательно, что для анализа использовались только субтитры без видеоряда или звукового сопровождения. Среди каналов, которые стали источником обучения ИИ, значатся такие гиганты, как MrBeast (303 млн подписчиков), PewDiePie (111 млн), Jacksepticeye (31 млн), MKBHD (19 млн), а также ток-шоу Стивена Колберта, Джона Оливера и Джимми Киммела. Кроме того, в датасет вошли субтитры с образовательных каналов Массачусетского технологического института и Гарвардского университета.
По данным Proof News, компании Apple, Anthropic, Nvidia и Salesforce использовали The Pile в своих исследованиях и для обучения ИИ-моделей. Например, Apple применяла The Pile для обучения Apple Intelligence и модели OpenELM, которая была представлена в апреле этого года.
Права на The Pile принадлежат некоммерческой организации EleutherAI. Proof News утверждает, что организация не получала разрешения на использование видео с YouTube для сбора данных, при этом сам датасет “доступен любому, у кого есть интернет”. В The Pile также вошли материалы из публикаций Европарламента и англоязычной Википедии.
Anthropic и Salesforce подтвердили Wired, что использовали The Pile для академических и исследовательских целей при разработке ИИ-моделей. Вице-президент Salesforce по исследованиям в области ИИ Цаймин Сюн отметил, что датасет расценивался компанией как общедоступный.
Ранее сообщалось, что Apple выпустила публичную бета-версию iOS 18 и других своих ОС для всех желающих.