Доступен новый выпуск Paperless-ngx, веб-приложения для работы с документами, которое преобразует бумажные документы в электронные, доступные для полнотекстового поиска, скачивания и хранения онлайн. Код написан на языке Python с использованием фреймворка Django и распространяется под лицензией GPLv3. Для ознакомления с возможностями системы подготовлен демонстрационный сайт demo.paperless-ngx.com (логин/пароль – demo/demo).
Paperless-ngx является ответвлением от проекта paperless-ng, который, в свою очередь, ответвился от оригинального проекта paperlsess (форки создавались для продолжения разработки после прекращения сопровождения прошлыми разработчиками). После загрузки отсканированного документа любым доступным способом (по FTP, через веб-интерфейс, через Android-приложение, по электронной почте через IMAP), программа осуществляет оптическое распознавание текста (OCR), используя движок Tesseract, далее в интерфейсе доступно тегирование (в том числе автоматическое с использованием машинного обучения), полнотекстовый поиск, а также загрузка версии документа в формате PDF/A или в форматах офисных пакетов.
В новой версии:
- Скрипты пре/пост обработки используют переменные окружения вместо аргументов командной строки.
- Миниатюры в веб-интерфейсе переведены в формат WebP вместо PNG.
- Настройки веб-интерфейса сохраняются в базе данных.
- При смене языка документа в интерфейсе появляется подсказка о необходимости перезагрузить страницу.
- При возникновении ошибки связи с Redis показывается более подробная информация.
- В веб-интерфейсе добавлена возможность просмотра очереди документов на обработку.