Генеративный ИИ помог физикам заполнить пробелы в данных с микроскопа
Ученым из «Сколтеха» удалось при помощи искусственного интеллекта заполнить пробелы в данных о расстояниях между генами в ДНК. Это позволяет определять трёхмерную структуру молекул ДНК, что важно для разработки лекарств и методов диагностики генетических заболеваний. Опубликованное в журнале Scientific Reports исследование — это первая успешная попытка восполнить недостающие данные такого рода при помощи ИИ или иным способом. Прежде ученым приходилось довольствоваться обрывочными данными, что тормозило развитие медицинской генетики и ограничивало понимание биофизики хроматина (вещества хромосом). Об этом CNews сообщили представители «Сколтеха».
Чтобы нормально функционировать, ДНК, а это 46 длинных макромолекул в каждой клетке, должна не просто содержать правильный набор генов, но и иметь определённую пространственную конфигурацию. Её определением традиционно занимается область статистической физики под названием полимерная физика. Та форма, в которую сворачиваются полимерные цепи ДНК, влияет на активность генов, деление клеток и их способность дифференцироваться при развитии эмбриона — превращаться в специализированные подвиды клеток. Дефектная архитектура ДНК играет роль в развитии отклонений и заболеваний, таких как рак.
Чем больше ученые узнают о физических принципах стабилизации «правильной» трехмерной структуры ДНК, тем больше возможностей появляется в области диагностики и лечения генетических заболеваний. Сравнивая архитектуру ДНК из здорового и больного организма, можно найти биомаркеры для диагностики болезней и получить персонализированные рекомендации по лечению. Учёные могут обнаружить новые мишени для терапевтического воздействия, разработать лекарства для восстановления нормальной работы генов и даже подходы, связанные с точечным редактированием генов.
Один из наиболее распространённых экспериментальных методов анализа пространственной структуры ДНК — флуоресцентная микроскопия. Это вид оптической микроскопии, при использовании которого большое количество коротких участков ДНК снабжаются флуоресцентными метками и тем самым делаются заметными.
Сложность в том, что в полученных данных по определению будут пробелы: так устроен метод их сбора. Каждая флуоресцентная метка прикрепляется к своему участку ДНК при помощи специально синтезированной комплементарной последовательности азотистых оснований («букв» генетического кода). Но не с любым участком это сработает. Скажем, если одна и та же «буква» повторяется много раз подряд, то на такую цепочку оснований не получится поставить метку: последовательность не достаточно уникальна. В связи с этим неполные данные до сих пор считались суровой правдой жизни.

«Если узнать расстояния между достаточным количеством пар генов, поиск расстояний между остальными парами, для которых нет экспериментальных данных, принимает вид математической задачи с конкретным решением, — сказал научный руководитель исследования Кирилл Половников, старший преподаватель «Сколтеха» из Центра нейробиологии и нейрореабилитации имени Владимира Зельмана. — Мы впервые показали, что такие задачи могут решать генеративные модели. Это нетипичное применение такого рода ИИ-систем, ведь обычно их используют для более "креативных“ задач вроде генерации изображений или текста на основе указаний пользователя. В то же время это новый подход к изучению структуры хроматина, где исторически правила бал полимерная физика».
Исследование имеет двоякое значение. С практической точки зрения предложенный и испытанный в «Сколтехе» метод позволяет дополнять данные флуоресцентной микроскопии таким образом, чтобы в дальнейшем лучше понять пространственную структуру ДНК и в конечном счете улучшить терапию и диагностику генетических заболеваний. С фундаментальной точки зрения работа демонстрирует потенциал генеративного искусственного интеллекта за пределами привычной сферы его применения.
Исследование поддержано грантом РНФ № 25-13-00277.