Машинное обучение – это мощный инструмент для анализа и предсказания данных, который может быть полезен в разных областях науки. Однако не все исследователи имеют достаточный опыт и ресурсы для создания и настройки моделей машинного обучения для своих задач. Как сделать этот процесс более доступным и эффективным?
Профессор Массачусетского технологического института Джим Коллинз и его коллеги предложили решение этой проблемы. Они разработали BioAutoMATED – автоматизированную систему машинного обучения, специально адаптированную для биологических данных. Об их работе они рассказали в журнале Cell Systems.
BioAutoMATED может самостоятельно выбирать и строить подходящую модель машинного обучения для заданного набора данных, а также выполнять предварительную обработку и форматирование данных, которые занимают большую часть времени проекта. Система может работать с разными типами моделей, такими как бинарная классификация, мультиклассовая классификация и регрессия, а также с разными типами данных, такими как ДНК, РНК, белки и гликаны.
“Фундаментальный язык биологии основан на последовательностях”, – объясняет Луис Соенксен, постдокторант в клинике машинного обучения Абдула Латифа Джамиля (клиника Джамиля) и первый соавтор статьи. “Биологические последовательности, такие как ДНК, РНК, белки и гликаны, обладают удивительным информационным свойством быть стандартизированными по своей сути, как алфавит. Многие инструменты AutoML разработаны для текста, поэтому имело смысл распространить его на [биологические] последовательности”.
BioAutoMATED может сократить многомесячный процесс до нескольких часов, что делает его очень удобным для исследователей, которые хотят использовать машинное обучение в своих проектах. “Наш инструмент исследует модели, которые лучше подходят для небольших и разреженных наборов биологических данных, а также для более сложных нейронных сетей”, – говорит Жаклин Валери, докторантка биологической инженерии в лаборатории Коллинза и первый соавтор статьи.
BioAutoMATED уже был протестирован на нескольких реальных задачах из области биологии и показал хорошие результаты. Например, система помогла предсказать функцию неизвестных белков на основе их последовательности, определить роль гликанов в иммунной системе человека и выявить потенциальные лекарственные мишени для лечения рака.
BioAutoMATED – это инновационный метод, который может помочь ускорить научные открытия в области биологии и медицины. Он может автоматизировать часть научного процесса и предлагать новые направления для исследований. Однако BioAutoMATED не заменяет человеческого ума и необходимости экспериментальной проверки гипотез. Он лишь является инструментом, который может расширить горизонты науки.