Инициатива по отмене определения открытой AI-системы, как обесценивающего понятие Open Source

Бредли Кун (Bradley M. Kuhn), исполнительный директор и один из создателей правозащитной организации Software Freedom Conservancy (SFC), выступил c критикой недавно опубликованного организацией OSI (Open Source Initiative) определения открытой AI-системы (Open Source AI). По мнению Куна организация OSI поторопилась с публикацией финального варианта определения и утвердила его без длительного всестороннего обсуждения и на начальном этапе становления подобных систем. Для сравнения определение Open Source было дано после многих лет размышлений и обсуждений. Что касается опубликованного определения открытой AI-системы, то на данной стадии его следовало назвать не определением, а рекомендацией.

Кун опасается, что принятые в текущем виде критерии открытого AI будут иметь далеко идущие последствия, подорвут авторитет термина Open Source и приведут к разделению сообщества. Проблема в том, что вопреки возражениям, организация OSI пошла на компромисс и не включила требование предоставления данных, использованных для обучения модели. Причиной компромисса стало то, что в случае добавления подобного пункта, ни одна из существующих больших языковых моделей не получила бы статус открытой.

По мнению OSI, ведение определения открытой AI-системы, учитывающего сложившиеся реалии, позволит помешать манипуляциям производителей с термином “открытый”, которые в условиях неопределённости называют открытыми модели лишь на основании доступности весовых коэффициентов, даже если лицензия на модель ограничивает область её использования (например, многие модели запрещают применение в коммерческих проектах) и не раскрываются детали реализации.

В утверждённом OSI определении открытой AI-системы требуется лишь предоставить подробную информацию об использованных при обучении данных, но не сами данные. При этом без предоставления исходных данных, на которых обучена модель, невозможно полностью воспроизвести AI-систему, что расходится с концепцией открытого исходного кода. Таким образом, организация OSI ограничилась рассмотрением AI-модели лишь как технологии и не стала рассматривать их как целостный продукт.

Фактически принятое определение открытой AI-системы гарантированно предоставляет лишь две из четырёх свобод Open Source – возможность использовать и возможность распространять, при том, что возможности изменять и распространять изменённые версии обеспечены не полностью. Кроме того, отсутствие исходных данных затрудняет выявление подстановки бэкдоров в модели машинного обучения.

С другой стороны публикация исходных данных во многих случаях невозможна в силу причин, не зависящих от разработчика AI-модели, таких как необходимость сохранения конфиденциальности, использование материалов, защищённых авторским правом, лицензирование данных у сторонних поставщиков и т.п. По мнению критиков принятого определения, подобные проблемы не являются основанием для принижения и обесценивания понятия Open Source.

Бредли Кун намерен участвовать в следующих выборах руководства OSI и попытаться войти в совет директоров для того чтобы добиться отмены принятого определения и перевода его в разряд рекомендаций. Кроме организации Software Freedom Conservancy своё несогласие с определением открытого AI высказали некоторых разработчики проекта Debian, которые выступили с инициативой проведения общего голосования для привлечения внимания к проблеме. Над своим определением свободной AI-системы также работает Фонд СПО, который намерен ввести в своё определение требование доступности всех данных, но при этом признаёт наличие этических причин, не позволяющих в некоторых случаях раскрывать данные (например, если при обучении использованы медицинские или персональные данные).

Release. Ссылка here.