Опубликована открытая AI-модель Hertz-dev для полнодуплексного голосового общения

Компания Standard Intelligence объявила о публикации hertz-dev, первой открытой AI-модели для синтеза речи в полнодупексном режиме, которая может использоваться в качестве основы для создания систем голосового общения в реальном времени или генерации разговорной речи. Модель позволяет генерировать речь, близкую к голосовым данным, на которых она обучена, и обеспечивая взаимодействие в стиле живого человеческого общения без задержек, напоминающих прерывистый телефонный разговор. Наработки проекта распространяются под лицензией Apache 2.0.

На системе с GPU NVIDIA GeForce RTX 4090 средняя задержка перед генерацией составляет 120 мс (теоретически до 65 мс), что примерно в два раза быстрее, чем у имеющихся в открытом доступе существующих моделей. Опубликованный вариант построен с использованием архитектуры “трансформер“, охватывает 8.5 миллиардов параметров и обучен c использованием 500 миллиардов токенов. Размер учитываемого моделью контекста (число токенов, которые модель может обработать и запомнить при генерации речи) составляет 2048 токенов или примерно 4 минуты речи.

Release. Ссылка here.