Всего лишь год назад ученые завершили полную расшифровку генома человека, но трудности с его пониманием все еще остаются. Однако исследователям из Технического университета Дрездена удалось сделать кое-что интересное – они разработали искусственный интеллект, способный читать генетический код как самый обычный текст.
Модель под названием GROVER(Genome Rules Obtained via Extracted Representations) была обучена “понимать” человеческую ДНК. По словам исследователей, генетический код действительно имеет много общего с языком – он состоит из последовательностей букв (A, T, G и C), формирующих “слова” и “предложения”, которые несут определенную биологическую информацию.
Чтобы обучить GROVER, ученые сначала создали своеобразный “словарь ДНК”, разбив весь геном человека на наиболее часто встречающиеся комбинации букв. Это позволило представить ДНК в виде структуры, напоминающей наш язык с его грамматикой, синтаксисом и семантикой. Такой подход позаимствован из алгоритмов сжатия данных, которые также используют частотный анализ символов для оптимизации.
“GROVER в буквальном смысле выучил “язык” ДНК. Подобно тому, как модели GPT осваивают человеческие языки, GROVER научился “говорить” на языке генетического кода”, – рассказывает доктор Мелисса Санабрия.
Авторы исследования продемонстрировали, что их модель способна точно предсказывать последовательности ДНК и извлекать из них биологически значимую информацию – например, определять сайты связывания белков или идентифицировать промоторы генов. Более того, GROVER также научился распознавать эпигенетические процессы, то есть активность, происходящую поверх самого генетического материала. GROVER также может обнаруживать скрытые закономерности в ДНК, которые ускользают от традиционных технологий.
Исследование, опубликованное в журнале Nature Machine Intelligence, обещает настоящий прорыв в геномике и персонализированной медицине. Теперь ученые смогут получить гораздо более глубокое понимание биологии человека и причин различных заболеваний.