Разработчики библиотеки Vosk опубликовали новые модели для распознавания русской речи: серверная vosk-model-ru-0.22 и мобильная Vosk-model-small-ru-0.22. В моделях используются новые речевые данные, а также новая нейро-сетевая архитектура, что позволило повысить точность распознавания на 10-20%. Код и данные распространяются под лицензией Apache 2.0.
Важные изменения:
- Новые данные, собранные в голосовых колонках, значительно улучшают распознавание речевых команд, произнесённых с расстояния.
- Новая схема извлечения звука позволила значительно улучшить точность распознавания для широкополосных записей. В то же время, точность распознавания телефонии тоже улучшилось.
- Пакет для дополнения словаря позволяет настроить распознавание сложных технических записей.
Для наилучшей точности рекомендуется обновить и версию Воска до 0.3.32. Также могут быть интересны новые возможности Воска – интеграции с Unity, Nativescript, Jigasi. Модели для распознавания казахского и украинского языков. Серверной модели для работы нужен современный процессор и 8Гб памяти. Мобильная модель может использоваться в телефонах и RaspberryPi 3+.