ИИ требует жертв: как компании нарушают авторские права для обучения своих моделей

8 Apr 2024 9:45 am GMT+0000 Date Time

На протяжении последней недели медиа-платформы, такие как The Wall Street Journal и The New York Times , активно обсуждали тему сбора качественных данных для обучения искусственного интеллекта. Отчёты указывают на то, что ведущие компании в области ИИ, включая OpenAI и Google, сталкиваются с юридическими и этическими проблемами при попытке расширить свои информационные базы.

Как сообщается, OpenAI, компания, стоящая за разработкой модели GPT-4, использовала более миллиона часов видео с YouTube для обучения своей аудио-транскрибационной модели Whisper, несмотря на сомнения в законности таких действий. Грег Брокман, президент OpenAI, лично участвовал в сборе данных, что вызвало дискуссии о границах компании в “добросовестном использовании” информации.

В ответ на обвинения представители OpenAI и Google подчеркнули, что их компании используют разнообразные источники данных, в том числе публично доступные, а также исследуют возможность создания синтетических данных. Тем не менее, Google также признала использование контента с YouTube для обучения своих моделей, что, по словам их представителей, соответствует договорённостям с создателями контента на платформе.

Особый интерес вызывает изменение политики конфиденциальности Google, которое, как предполагается, было направлено на расширение возможностей использования потребительских данных.

Компания

* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.

Public Release.