Проект ChatTTS опубликовал модель и связанный с ней инструментарий машинного обучения для синтеза эмоциональной речи. Проект ChatTTS специально оптимизирован для использования в диалоговых системах, таких как интерактивные помощники, и нацелен на воспроизведение свойств естественного эмоционального общения. Поддерживается взаимодействие с несколькими говорящими и построение интерактивного диалога. Корректно отслеживаются и воспроизводятся при синтезе просодические элементы, такие как смех, паузы и междометия.
При тренировке модели использовано около 40 тысяч часов речевых записей (в не публичном варианте модели – 100 тысяч часов). По заявлению разработчиков по своим возможностям формирования интонаций модель превосходит все ранее доступные открытые модели синтеза речи. Для управления эмоциями при синтезе пока поддерживается только подстановка токенов, например, “[laugh]” для смеха. Для генерации 30-секундной записи требуется GPU с 4 ГБ памяти. На GPU NVIDIA GeForce RTX 4090D скорость генерации составляет приблизительно 7 семантических токенов в секунду. Поддерживается синтез женским и мужским голосом на английском и китайском языках (для русского языка можно рекомендовать фреймворк TTS и модель XTTS-v2, которые кроме синтеза поддерживают клонирование голоса по короткой записи речи, в том числе для синтеза на другом языке).
Модель ChatTTS опубликована под лицензией CC BY-NC-ND 4.0 (Creative Commons Attribution-NonCommercial-NoDerivatives 4.0), допускающей свободное распространение при указании автора, но запрещающей создание производных работ и использование в коммерческих проектах. Кроме того, для защиты от использования модели для совершения мошеннических и криминальных действий при обучении модели использована подстановка высокочастотного шума и задействован максимальный уровень сжатия звука, используя формат MP3.