Mozilla развивает инструментарий для распознавания речи Whisperfile

Компания Mozilla развивает инструментарий распознавания речи Whisperfile, включающий независимую высокопроизводительную реализацию модели машинного обучения Whisper, разработанной и открытой организацией OpenAI. Инструментарий создан на основе whisper.cpp, реализации модели Whisper на C/C++, созданной Георгием Гергановым (автор llama.cpp). Код написан на языке С++ и распространяется под лицензией MIT.

Whisperfile развивается командой Mozilla Ocho и дополняет собой проект llamafile, предназначенный для создания универсальных исполняемых файлов для запуска больших языковых моделей машинного обучения (LLM). По аналогии с llamafile проект whisperfile позволяет на основе файла с параметрами модели машинного обучения в формате GGUF сгенерировать исполняемый файл, который может запускаться в различных операционных системах на оборудовании с процессорами AMD64 и ARM64. Скомпилированный код может связываться со стандартной Си-библиотекой Cosmopolitan, дающей возможность создавать сборки приложений, запускаемые в Linux, FreeBSD, macOS, OpenBSD, NetBSD и Windows.

При запуске исполняемого файла в качестве входного параметра передаётся файл со звуком речи в формате wav, mp3, ogg или flac, а на выходе сохраняется распознанный текст. На практике проект может применяться для решения таких задач, как генерация текстовых титров для видео, создание лога голосовых и видео вызовов, преобразования записанных голосовых материалов в текст, организации голосового ввода. При помощи Whisperfile подобные задачи могут решаться на локальной системе без обращения к внешним сервисам.

Дополнительно поддерживается работа в роли HTTP-сервера, обрабатывающего запросы на распознавание речи через Web API. Для ускорения работы с моделью могут быть задействованы GPU и инструкции AVX. Инструментарий также может выводить коэффициенты достоверности, позволяющие раскрашивать распознанные слова в зависимости от точности их определения.

Использованная модель Whisper натренирована на 680 тысячах часов речевых данных, охватывающих разные тематические области и языки (2/3 данные на английском языке). Модель хорошо справляется с распознаванием речи с акцентом, определяет технический жаргон, поддерживает автоматическое определение языка и может работать при наличии фоновго шума. Для речи на английском языке система демонстрирует уровень надёжности и точности автоматического распознавания близкий к распознаванию человеком. Кроме транскрипции речи в текст, модель также может применяться для перевода речи на другой язык.

Release. Ссылка here.