Компания Mozilla представила обновление наборов голосовых данных Common Voice, включающих примеры произношения около 200 тысяч людей. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. По сравнению с прошлым обновлением объём речевого материала в коллекции увеличился на 30% – с 13.9 до 18.2 тысяч часов речи. Число поддерживаемых языков возросло с 67 до 87.
Набор для русского языка охватывает 2452 участника и 193 часа речевого материала (было 2136 участников и 173 часов), для белорусского языка – 6160 участников и 987 часов (было – 3831 участник и 356 часов), для украинского языка – 684 участника и 76 часов (было 615 участников и 66 часов). В подготовке материалов на английском языке приняли участие более 79 тысяч человек, надиктовавших 2886 часов подтверждённой речи (было 75 тысяч участников и 2637 часов).
Напомним, что проект Common Voice нацелен на организацию совместной работы по накоплению базы голосовых шаблонов, учитывающей всё разнообразие голосов и манер речи. Пользователям предлагается озвучить выводимые на экран фразы или оценить качество данных, добавленных другими пользователями. Накопленную базу данных c записями различного произношения типовых фраз человеческой речи без ограничений можно использовать в системах машинного обучения и в исследовательских проектах.
По мнению автора библиотеки распознавания слитной речи Vosk недостатками набора Common Voice является однобокость голосового материала (преобладание людей мужского пола 20-30 лет, и недостаток материала с голосом женщин, детей и пожилых людей), отсутствие вариативности словаря (повторение одних и тех же фраз) и распространение записей во вносящем искажения формате MP3.
Дополнительно можно отметить выпуск инструментария NVIDIA NeMo 1.6, предоставляющего методы машинного обучения для создания систем распознавания речи, синтеза речи и обработки информации на естественном языке. В состав NeMo входят готовые натренированные модели для систем машинного обучения на базе фреймворка PyTorch, подготовленные компанией NVIDIA с использованием речевых данных Common Voice и охватывающие различные языки, акценты и формы речи. Модели могут оказаться полезными для исследователей, занимающихся созданием голосовых диалоговых систем, платформ для транскрипции и автоматизированных колл-центров. Например, NVIDIA NeMo применяется в автоматизированных голосовых сервисах МТС и Сбербанка. Код NeMo написан на языке Python с использованием PyTorch и распространяется под лицензией Apache 2.0.