Компания Mozilla обновила наборы голосовых данных Common Voice, включающие примеры произношения более 200 тысяч человек. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. По сравнению с прошлым обновлением объём речевого материала в коллекции увеличился с 28.7 до 30.3 тысяч часов речи, из которых 19.7 тысяч часов прошли процедуру проверки. Число поддерживаемых языков увеличилось со 114 до 120 (добавлены идиш, латгальский, лигурийский, осетинский, телугу и западный сьерра-пуэбланский науатль).
В подготовке материалов на английском языке приняли участие 90.67 тысяч человек, надиктовавших 3438 часов речи (было 88.9 тысяч участников и 3347 часов). Набор для белорусского языка охватывает 8249 участников и 1641 час речевого материала (было – 8205 участников и 1632 часа), русского языка – 3133 участника и 265 часов (было 3053 участника и 260 часов), узбекского – 2151 участника и 264 часа (было 2141 участника и 263 часа), украинского языка – 1058 участников и 108 часов (было 1024 участника и 105 часов).
Проект Common Voice нацелен на организацию совместной работы по накоплению базы голосовых шаблонов, учитывающей всё разнообразие голосов и манер речи. Пользователям предлагается озвучить выводимые на экран фразы или оценить качество данных, добавленных другими пользователями. Накопленную базу данных c записями различного произношения типовых фраз человеческой речи без ограничений можно использовать в системах машинного обучения и в исследовательских проектах.