Состоялся выпуск открытой системы синтеза речи RHVoice 1.6.0, изначально развивавшейся для обеспечения качественной поддержки русского языка, но затем адаптированной и для других языков, включая английский, португальский, украинский, киргизский, татарский и грузинский. Код написан на С++ и распространяется под лицензией LGPL 2.1. Поддерживается работа в GNU/Linux, Windows и Android. Программа совместима с типовыми TTS-интерфейсами (text-to-speech) для преобразования текста в речь: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) и Android Text-To-Speech API, но также может использоваться в экранном ридере NVDA.
В новой версии добавлено 5 новых вариантов голосов для русской речи. Реализована поддержка албанского языка. Обновлён словарь для украинского языка. Проведена работа по устранению ошибок в приложении для платформы Android, а также добавлена поддержка платформы Android 11. В ядро движка добавлены новые настройки и функциональные возможности, включая g2p.case, word_break и поддержку фильтров эквализации.
Напомним, что в RHVoice применяются наработки проекта HTS (HMM/DNN-based Speech Synthesis System) и параметрический метод синтеза со статистическими моделями (Statistical Parametric Synthesis на базе HMM – Hidden Markov Model). Плюсом статистической модели являются низкие накладные расходы и нетребовательность к мощности CPU. Все операции выполняются локально на системе пользователя. Поддерживается три уровня качества речи (чем ниже качество – тем выше производительность и меньше время реакции).
Минусом статистической модели является относительно низкое качество произношения, которое не достигает уровня синтезаторов, генерирующих речь на основе комбинации фрагментов естественной речи, но тем не менее результат вполне разборчив и напоминает трансляцию записи с громкоговорителя. Для сравнения, проект Silero, предоставляющий открытый движок для синтеза речи на основе технологий машинного обучения и набор моделей для русского языка, по качеству превосходит RHVoice.
Для русского языка доступно 13 вариантов голосов, для английского – 5. Голоса формируются на основе записей естественной речи. В настройках можно изменять скорость, высоту и громкость. Для изменения темпа может применяться библиотека Sonic. Возможно автоматическое определение и переключение языка на основе анализа входного текста (например, для слов и цитат на другом языке может использоваться родная для данного языка модель синтеза). Поддерживаются голосовые профили, определяющие сочетания голосов для разных языков.