В минувший четверг появилась интересная информация в обновлённом судебном иске против Microsoft, GitHub и OpenAI по поводу задокументированнойсклонности помощника по программированию GitHub Copilot воспроизводить публичный код, защищённый авторским правом.
Сообщается, что специалисты платформы GitHub, принадлежащей Microsoft, намеренно настроили Copilot таким образом, чтобы инструмент генерировал небольшие изменения в предлагаемый разработчикам код, и чтобы выходные данные не помечались как прямая копия существующего программного обеспечения.
В иске, первоначально поданном ещё в ноябре прошлого года от имени четырех неустановленных истцов, утверждается, что Copilot, инструмент для помощи разработчикам в написании программного кода, созданный по модели Codex от OpenAI и коммерциализированный Microsoft GitHub – обучался на общедоступном коде, нарушая закон об авторском праве и требования к лицензированию программного обеспечения, так как инструмент представлял чужой код как свой собственный.
Компании пытались добиться прекращения дела, но им пока удалось только опровергнуть некоторые претензии. Судья оставил без изменений основные проблемы с авторским правом и лицензированием и позволил истцам повторно подать несколько исков с более подробной информацией.
Исправленный иск теперь охватывает восемь пунктов вместо двенадцати, сохраняя обвинения в нарушении закона об авторском праве, нарушении лицензии с открытым исходным кодом, нечестном обогащении и претензиях о недобросовестной конкуренции. Кроме того, добавляются несколько новых обвинений вместо тех, которые были отправлены на доработку: продажа лицензионных материалов в нарушение политики GitHub и преднамеренное вмешательство в предполагаемые экономические отношения.
Жалоба также включает в себя образцы кода, написанные истцами, которые Copilot, предположительно, воспроизвёл дословно. Судья, осуществляющий надзор за делом, разрешил истцам сохранять анонимность в судебных заявлениях из-за достоверных угроз насилия в адрес их адвоката, в связи с чем приведённый в качестве примера лицензионный код истцов был подвергнут изменениям, чтобы затруднить их идентификацию. Однако с большой долей вероятности истцы всё же известны ответчикам по этому делу.
В обновлённом судебном иске также говорится о том, что в июле 2022 года, в ответ на публичную критику Copilot, GitHub ввёл настраиваемый пользовательский фильтр под названием “Предложения, соответствующие общедоступному коду”, чтобы избежать просмотра предложений программного обеспечения, дублирующих работу других людей.
“Когда фильтр включен, GitHub Copilot сравнивает предложения кода длиной около 150 символов на соответствие общедоступному коду на GitHub. Если будет обнаружено совпадение, предложение пользователю показано не будет”, – объясняется в документации GitHub.
Однако в жалобе утверждается, что фильтр, по сути, бесполезен, поскольку он проверяет только точные совпадения и ничего не делает для обнаружения выходных данных, которые были слегка изменены. Фактически, истцы предполагают, что GitHub пытается избежать нарушений авторских прав и лицензий, самостоятельно изменяя выходные данные Copilot таким образом, чтобы казалось, что они были скопированы не в точности.
“В руках GitHub склонность к небольшим косметическим изменениям в выходных данных второго пилота является особенностью, а не ошибкой. Эти небольшие косметические изменения означают, что GitHub может предоставлять клиентам Copilot неограниченное количество изменённых копий лицензионных материалов, даже не запуская фильтр дословного кода”, – говорится в исправленной жалобе.
В судебном иске также утверждается, что модели машинного обучения, такие как Copilot, имеют некий параметр, который довольно точно контролирует степень изменения выходных данных. “Copilot – это оригинальный метод пиратства программного обеспечения”, заключили истцы в своей коллективной жалобе.
В свою очередь, представители Microsoft данные обвинения отрицают и заявляют, что делают всё для того, чтобы упростить процесс программирование и сделать разработчиков счастливее: “Мы уверены, что Copilot придерживается применимых законов, так как мы с самого начала были привержены ответственному внедрению инноваций в Copilot. Мы продолжим инвестировать в инструмент и отстаивать опыт разработки на базе искусственного интеллекта”.
Данный пример наглядно показывает, как в очередной раз развитие и повсеместное внедрение нейросетей, обученных на публичных данных, вызывает открытое недовольство со стороны общественности.
Ранее одним из громких примеров такого “легального пиратства” стала компания Stability AI, которая обучила свою нейросеть Stable Diffusion на десятках тысяч изображений с платного фотостока GettyImages. Этот факт быстро всплыл на поверхность из-за наличия фирменного водяного знака фотостока на изображениях, сгенерированных нейросетью, в связи с чем фотосток подал в суд на Stability AI.
Получится ли у Microsoft, GitHub и OpenAI выйти из схожей ситуации с Copilot более изящно, чтобы такое решение устроило всех – покажет лишь время.