Стартап Stability AI, известный своим ИИ-генератором изображений Stable Diffusion, представил новую открытую модель для создания звуков и песен. Эта модель, названная Stable Audio Open, обучалась исключительно на записях без авторских прав.
Stable Audio Open позволяет создавать музыкальные записи длительностью до 47 секунд на основе текстового описания, например: “Рок-бит, сыгранный в обработанной студии, сессионная барабанная игра на акустической установке”. Модель была обучена на ~ 486 000 образцах из библиотек FreeSound и Free Music Archive.
Модель может использоваться для создания барабанных битов, инструментальных риффов, фоновых шумов и “элементов производства” для видео, фильмов и телешоу, а также для “редактирования” существующих песен или применения стиля одной песни к другой.
“Ключевым преимуществом этого открытого релиза является возможность пользователям настраивать модель на своих собственных аудиоданных”, – пишет Stability AI в своём корпоративном блоге. “Например, барабанщик может настроить модель на образцах своих собственных барабанных записей для создания новых битов”.
Однако у Stable Audio Open есть ограничения. Она не может создавать полноценные песни, мелодии или вокалы – по крайней мере, качественные. Stability AI утверждает, что модель не оптимизирована для этого, и предлагает пользователям, ищущим такие возможности, воспользоваться платной услугой Stable Audio.
Кроме того, Stable Audio Open нельзя использовать в коммерческих целях; условия обслуживания это запрещают. Модель также не работает одинаково хорошо со всеми музыкальными стилями и культурами, а также с описаниями на других языках, кроме английского. Stability AI объясняет это предвзятостью обучающих данных.
Компания Stability AI, которая давно пытается улучшить свое финансовое положение, недавно оказалась в центре скандала после того, как вице-президент по генеративному аудио, Эд Ньютон-Рекс, подал в отставку из-за разногласий с позицией компании о том, что обучение генеративных моделей ИИ на защищённых авторским правом произведениях является “добросовестным использованием”. Похоже, что выпуск Stable Audio Open является попыткой изменить этот нарратив, одновременно рекламируя платные продукты Stability AI.
С ростом популярности музыкальных генераторов, включая продукты Stability AI, авторское право и возможные злоупотребления со стороны некоторых разработчиков становятся главной темой для обсуждения.
В мае этого года компания Sony Music, представляющая таких артистов, как Билли Джоэл, Doja Cat и Lil Nas X, направила письмо сразу 700 компаниям, занимающимся ИИ, с предупреждением против “неразрешённого использования” их контента для обучения аудиогенераторов. Тем временем, в марте, в американском штате Теннесси был принят первый в США закон, направленный на предотвращение злоупотреблений ИИ в музыке.