Команда профессора Франка Глориуса из Института органической химии Университета Мюнстера разработала эволюционный алгоритм, который позволяет выявлять структуры в молекуле, наиболее значимые для конкретных исследований. Эти структуры используются для кодирования свойств молекул в различных моделях машинного обучения. Разработка опубликована в журнале Chem .
Алгоритм, основанный на принципах эволюции – включая механизмы воспроизводства, мутации и отбора, – позволяет создавать индивидуализированные “молекулярные отпечатки”. Эти отпечатки уже использовались для предсказания химических реакций с высокой точностью. Метод также подходит для прогнозирования квантово-химических свойств и токсичности молекул.
Исследователи подчеркивают, что для использования машинного обучения необходимо сначала преобразовать молекулы в формат, считываемый компьютером. Различные научные группы уже решали эту задачу, разрабатывая разные методы. Однако сложно предсказать, какой из методов лучше всего подойдет для ответа на определенный вопрос, например, о вредности химического соединения для человека.
Новый алгоритм помогает находить оптимальный молекулярный отпечаток для каждого случая. Для этого алгоритм постепенно выбирает отпечатки, которые показывают лучшие результаты в прогнозировании из множества случайно сгенерированных.
“Следуя примеру природы, мы используем мутации, то есть случайные изменения отдельных компонентов отпечатков, или рекомбинируем компоненты двух отпечатков”, – объясняет аспирант Феликс Катценбург.
Преимущество метода в том, что он позволяет понять, почему модель делает тот или иной прогноз. Например, можно выявить, какие части молекулы положительно или отрицательно влияют на предсказание реакции, что позволяет исследователям целенаправленно изменять эти структуры.
Команда Мюнстера отмечает, что их метод не всегда дает наилучшие результаты. “Когда в выбор особенно важных молекулярных свойств вложен значительный объем человеческого опыта или доступны очень большие объемы данных, другие методы, такие как нейронные сети, иногда оказываются эффективнее”, – говорит Катценбург.
Однако одна из основных целей исследования заключалась в разработке метода кодирования молекул, который можно применять к любому набору молекулярных данных и который не требует специализированных знаний о лежащих в основе связях.