Сообщество LAION (Large-scale Artificial Intelligence Open Network), развивающее инструменты, модели и коллекции данных для создания свободных систем машинного обучения (например, коллекция LAION используется для обучения моделей системы синтеза изображений Stable Diffusion), представило первый выпуск проекта Open-Assistant, развивающего чат-бот с искусственным интеллектом, способный понимать и отвечать на вопросы на естественном языке, взаимодействовать со сторонними системами и динамически извлекать необходимую информацию.
Код проекта написан на языке Python и распространяется под лицензией Apache 2.0. Наработки OpenAssistant можно использовать для создания собственных интеллектуальных помощников и диалоговых систем, не завязанных на внешние API и сервисы. Для запуска достаточно обычного потребительского оборудования, например, возможна работа на смартфоне.
Помимо кода для обучения и организации работы бота на своём оборудовании, для использования предложена коллекция уже обученных готовых моделей и языковая модель, обученная на основе 600 тысяч примеров диалогов в форме запрос-ответ (инструкция-выполнение), подготовленных и рецензированных с привлечением сообщества энтузиастов. Также запущен online-сервис для оценки качества работы чатбота в котором задействована модель знаний OA_SFT_Llama_30B_6, охватывающая 30 миллиардов параметров.
Для повышения эффективности системы и ухода от необходимости хранения больших объёмов предопределённых параметров, в проекте предусмотрена возможность использования динамически обновляемой базы знаний, способной извлекать требуемую информацию через поисковые системы или внешние сервисы. Например, при формировании ответов бот может обращаться к внешним API для получения дополнительных данных. Из расширенных функций также отмечается поддержка персонализации, т.е. возможности адаптироваться под конкретного пользователя на основе его предыдущих фраз.
Проект не планирует останавливаться на повторении возможностей ChatGPT. Ожидается, что Open-Assistant подстегнёт развитие открытых разработок в области формирования контента и обработки запросов на естественных языках, как в своё время открытый проект Stable Diffusion стимулировал развитие средств для генерации изображений.