Белки – это основа жизни. Они кодируются ДНК и отвечают за множество биологических функций, которые поддерживают жизнь в человеческом организме. Но наш организм – это хрупкая система, подверженная воздействию различных факторов: патогенов, вирусов, болезней и рака.
Представьте, что мы могли бы ускорить процесс создания вакцин или лекарств для новых патогенов. Что если бы у нас была технология редактирования генов, способная автоматически производить белки для исправления ошибок ДНК, которые вызывают рак? Поиск белков, которые могут сильно связываться с целями или ускорять химические реакции, имеет жизненно важное значение для разработки лекарств, диагностики и множества промышленных приложений, но это часто затяжной и дорогостоящий процесс.
Чтобы расширить наши возможности в области инженерии белков, исследователи из лаборатории искусственного интеллекта Массачусетского технологического института ( MIT CSAIL ) разработали “FrameDiff” – вычислительный инструмент для создания новых структур белков за пределами того, что произвела природа. Подход на основе машинного обучения генерирует “рамки”, которые соответствуют внутренним свойствам структур белков, позволяя ему конструировать новые белки независимо от существующих дизайнов, обеспечивая уникальные структуры белков.
“В природе дизайн белков – это медленный процесс, который занимает миллионы лет. Наша техника направлена на то, чтобы предоставить ответ на решение проблем, созданных человеком, которые развиваются гораздо быстрее, чем скорость природы”, – говорит аспирант MIT CSAIL Джейсон Им (Jason Yim), один из ведущих авторов новой статьи о работе. “Целью является то, что с помощью этой новой способности генерировать синтетические структуры белков открывается множество улучшенных возможностей, таких как лучшие связыватели. Это означает инженерию белков, которые могут присоединяться к другим молекулам более эффективно и селективно, с широкими последствиями для целевой доставки лекарств и биотехнологии, где это может привести к разработке лучших биосенсоров. Это также может иметь последствия для области биомедицины и за её пределами, предлагая возможности, такие как разработка более эффективных белков фотосинтеза, создание более эффективных антител и инженерия наночастиц для генной терапии”.
Рамки FrameDiff
Белки имеют сложные структуры, состоящие из множества атомов, связанных химическими связями. Самые важные атомы, которые определяют 3D-форму белка, называются “скелетом”, как позвоночник белка. Каждая тройка атомов вдоль скелета имеет одинаковый паттерн связей и типов атомов. Исследователи заметили, что этот паттерн можно использовать для построения алгоритмов машинного обучения с использованием идей из дифференциальной геометрии и вероятности. Здесь появляются рамки: математически эти тройки можно моделировать как жёсткие тела, называемые “рамками” (распространённые в физике), которые имеют положение и вращение в 3D.
Эти рамки обеспечивают каждой тройке достаточно информации, чтобы знать о своём пространственном окружении. Задача заключается в том, чтобы алгоритм машинного обучения научился перемещать каждую рамку, чтобы построить скелет белка. Обучаясь конструировать существующие белки, алгоритм, надеемся, обобщит и сможет создавать новые белки, которых никогда не было в природе.
Обучение модели конструировать белки с помощью “диффузии” включает в себя введение шума, который случайным образом перемещает все рамки и размывает то, как выглядел изначальный белок. Работа алгоритма заключается в том, чтобы перемещать и вращать каждую рамку, пока она не будет похожа на исходный белок. Хотя это просто, разработка диффузии на рамках требует техник стохастического исчисления на римановых многообразиях. С теоретической стороны исследователи разработали “SE(3) диффузию” для изучения вероятностных распределений, которые нетривиально соединяют компоненты перевода и вращения каждой рамки.
Тонкое искусство диффузии
В 2021 году DeepMind представил AlphaFold2 – алгоритм глубокого обучения для предсказания 3D-структур белков по их последовательностям. При создании синтетических белков есть два основных шага: генерация и предсказание. Генерация означает создание новых структур и последовательностей белков, а “предсказание” означает выяснение 3D-структуры последовательности. Не случайно AlphaFold2 также использовал рамки для моделирования белков. SE(3) диффузия и FrameDiff были вдохновлены тем, чтобы развить идею рамок дальше, включив рамки в диффузионные модели – технику генеративного ИИ, которая стала чрезвычайно популярной в генерации изображений, например Midjourney.
Общие рамки и принципы между генерацией и предсказанием структур белков означали, что лучшие модели с обоих концов были совместимы. В сотрудничестве с Институтом дизайна белков при Университете Вашингтона SE(3) диффузия уже используется для создания и экспериментальной проверки новых белков. В частности, они сочетали SE(3) диффузию с RosettaFold2 – инструментом предсказания структуры белков, очень похожим на AlphaFold2, что привело к появлению “RFdiffusion”. Этот новый инструмент приблизил дизайнеров белков к решению важных проблем в биотехнологии, включая разработку высокоспецифичных связывателей белков для ускоренного дизайна вакцин, инженерии симметричных белков для доставки генов и надёжного мотивного скелета для точного дизайна ферментов.
Будущие задачи для FrameDiff включают улучшение общности для проблем, которые сочетают в себе несколько требований для биологических препаратов, таких как лекарства. Ещё одно расширение – обобщить модели на все биологические модальности, включая ДНК и малые молекулы. Команда полагает, что расширив обучение FrameDiff на больших данных и улучшив процесс оптимизации, она сможет генерировать основные структуры, обладающие возможностями дизайна на уровне RFdiffusion, сохраняя при этом внутреннюю простоту FrameDiff.
“Отказ от предварительно обученной модели предсказания структуры [в FrameDiff] открывает возможности для быстрого генерирования структур, расширяющихся до больших длин”, – говорит вычислительный биолог Гарвардского университета Сергей Овчинников (Sergey Ovchinnikov). Инновационный подход исследователей представляет собой многообещающий шаг к преодолению ограничений текущих моделей предсказания структур. Несмотря на то, что это ещё предварительная работа, это обнадёживающий шаг в правильном направлении. Таким образом, видение дизайна белков, играющего ключевую роль в решении наиболее насущных проблем человечества, кажется всё более достижимым благодаря новаторской работе этой команды исследователей из MIT”.
Джейсон Йим написал статью вместе с постдоком Колумбийского университета Брайаном Триппом (Brian Trippe), исследователем Центра научных данных Национального центра научных исследований Франции в Париже Валентином Де Бортоли (Valentin De Bortoli), постдоком Кембриджского университета Эмилем Матьё (Emile Mathieu) и профессором статистики Оксфордского университета и старшим научным сотрудником DeepMind Арно Дусе (Arnaud Doucet). Профессоры MIT Регина Барзилай (Regina Barzilay) и Томми Яаккола (Tommi Jaakkola) консультировали исследование.
Работа команды была поддержана, частично, клиникой машинного обучения в здравоохранении MIT Abdul Latif Jameel, грантами EPSRC и партнёрством между Microsoft Research и Кембриджским университетом, программой национального научного фонда по исследовательским стипендиям для аспирантов, грантом NSF Expeditions, консорциумом по машинному обучению для фармацевтического открытия и синтеза, программой DTRA по открытию медицинских средств против новых и возникающих угроз, программой DARPA по ускоренному молекулярному открытию и грантом Sanofi по вычислительному дизайну антител. Это исследование будет представлено на Международной конференции по машинному обучению в июле.