Evo: ИИ собирает новые биосистемы из ДНК-конструктора

Группа ученых из Института Arc разработала принципиально новую модель искусственного интеллекта под названием Evo, способную анализировать и интерпретировать биологические последовательности. В отличие от привычных языковых моделей вроде Google Gemini или ChatGPT, разработка обучалась не на текстах, а на генетическом материале миллионов микроорганизмов.

Создатели технологии поставили перед собой амбициозную задачу – создать фундаментальную модель для работы с геномными данными. Evo анализирует последовательности ДНК, РНК и белков подобно тому, как языковые модели обрабатывают слова и предложения. При этом каждая пара оснований ДНК воспринимается алгоритмом как отдельное “слово” в огромном биологическом тексте.

Обучающая база включает информацию о 2,7 миллионах геномов прокариот и фагов. Такой масштабный объем данных позволил модели не только изучать существующие последовательности, но и предсказывать, как небольшие изменения в генетическом коде могут повлиять на весь организм.

Создатели Evo подчеркивают сложность задачи – даже простейшие микробные геномы обладают невероятной сложностью. Несмотря на это, технологии удалось достичь глубокого понимания генетического кода, начиная с базовых элементов ДНК и заканчивая целыми геномами.

Технология функционирует одновременно сразу на нескольких уровнях. Учитывается как многомодальность центральной догмы молекулярной биологии (взаимосвязь ДНК, РНК и белков), так и иерархическая природа эволюции – от отдельных молекул до целых организмов.

На практике Evo генерирует реалистичные последовательности длиной с целый геном и даже проектирует новые биологические системы. Уже проведена лабораторная валидация синтетических систем CRISPR и транспозонов IS200/IS605, созданных с помощью искусственного интеллекта.

Еще одно важное достижение – способность Evo создавать комбинации белков и РНК, обеспечивающих защиту от вирусных инфекций. Впрочем, технология пока не идеальна – некоторые сгенерированные последовательности ДНК оказались нефункциональными, словно размытая фотография вместо четкого изображения.

Нынешняя версия Evo 1.0 и пока не готова работать с человеческим геномом. Однако сам факт успешного применения машинного обучения в области молекулярной биологии открывает колоссальные перспективы для будущих исследований.

Public Release.