Давний участник сообщества Debian под ником “samj” высказался против нового определения Open Source AI. samj считает, что определение – своеобразный форк, который искажает изначальные принципы Open Source, которые были основаны на руководствах Debian по свободному ПО, разработанных Брюсом Перенсом. По мнению критиков, Open Source должен оставаться в рамках прежней версии 1.9, и любые изменения можно вносить только при полном согласии сообщества через открытые и прозрачные процессы.
Недовольство возникло после обсуждений на форумах Debian. Многие разработчики обеспокоены тем, что новое определение позволит скрывать данные, используемые для обучения ИИ. Это может создать “барьер данных”, защищающий монополистов и не позволяющий другим разработчикам создавать свои версии ИИ. Некоторые считают, что это серьёзная ошибка для всего сообщества свободного ПО.
Тема закрытых данных становится всё более актуальной. Согласно исследованию,многие open source модели на самом деле открыты только на словах. Данные для обучения остаются недоступными, ресурсы для работы с ними слишком дороги для большинства разработчиков, а методы настройки очень сложны. Исследователи пришли к выводу, что такие проекты скорее усиливают власть крупных компаний, чем способствуют доступности технологий.
По словам samj, данные для обучения – это как исходный код для ИИ. Если изменить определение Open Source, это может негативно сказаться на реальных проектах. Однако в OSI (Open Source Initiative) с этим не согласны. В своём официальном заявлении представители инициативы поясняют, что данные для обучения – это не то же самое, что исходный код. Например, в медицине и других областях часто нельзя свободно делиться данными из-за законов и правил. Это может касаться как данных о здоровье людей, так и традиционных знаний коренных народов, которые защищены правовыми нормами.
Некоторые сторонники полного доступа ко всем данным считают, что без этого будет нарушена прозрачность и воспроизводимость ИИ-моделей. Но OSI предлагает более гибкий подход. По их мнению, пользователи должны сами решать, использовать ли открытые или закрытые данные для обучения ИИ. Такой подход позволит развивать Open Source AI даже в областях с повышенными требованиями к конфиденциальности, например, в здравоохранении.