Создана крупнейшая в мире база изображений животных и растений для обучения ИИ

Американские специалисты из Университета штата Огайо создали самый большой в мире набор изображений биологических объектов для обучения моделей искусственного интеллекта (ИИ). Исследование опубликовано на портале научных публикаций arXive.

База данных получила названия TreeofLife-10M. Она состоит из 10 млн графических файлов с растениями, животными, грибами и другими организмами, охватывающими 454 тыс. таксонов (групп с общими признаками). Для сравнения, предыдущий крупнейший архив подобных данных содержал 2,7 млн изображений, относящихся к 10 тыс. таксонов.

Затем исследователи разработали модель BioCLIP для обучения на TreeofLife-10M. BioCLIP ориентируется на визуальные признаки изображений в сочетании с текстовыми подсказками и другими данными. Модель успешно классифицировала различные организмы, включая редкие виды, которых ИИ не видел во время обучения.

Результаты испытаний показали, что BioCLIP справляется с задачами на 17-20% лучше существующих аналогов.

Ранее ИИ помог ученым разгадать неизвестные свойства белков.