Обновление голосовых данных Mozilla Common Voice 19.0

Компания Mozilla обновила наборы голосовых данных Common Voice, включающие примеры произношения более 200 тысяч человек. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. По сравнению с прошлым обновлением объём речевого материала в коллекции увеличился с 31.8 до 32.6 тысяч часов речи, из которых более 20 тысяч часов прошли процедуру проверки. Число поддерживаемых языков увеличилось со 129 до 131.

В подготовке материалов на английском языке приняли участие 93.9 тысяч человек, надиктовавших 3587 часов речи (было 93.3 тысячи участников и 3554 часа). Набор для белорусского языка охватывает 8444 участников и 1846 часов речевого материала (было – 8400 участников и 1815 часов), русского языка – 3296 участников и 278 часов (был 3241 участник и 277 часов), узбекского – 2200 участников и 265 часов (было 2189 участников и 265 часов), украинского языка – 1104 участника и 114 часов (было 1091 участник и 113 часов).

Проект Common Voice нацелен на организацию совместной работы по накоплению базы голосовых шаблонов, учитывающей всё разнообразие голосов и манер речи. Пользователям предлагается озвучить выводимые на экран фразы или оценить качество данных, добавленных другими пользователями. Накопленную базу данных c записями различного произношения типовых фраз человеческой речи без ограничений можно использовать в системах машинного обучения и в исследовательских проектах.

Release. Ссылка here.