Представлена сверхкомпактная ИИ-модель для генерации белковых молекул на латентной диффузии
Ученые из института AIRI и немецкого Constructor University представили совместную работу, посвященную разработке инновационной модели для генерации искусственных белков — DiMA.
Одна из практических задач модели — генерация белков с заранее определенными характеристиками. Она способна создавать не встречавшиеся ранее в природе белковые последовательности, точно соответствующие заданным исследователями критериям. Новые белки необходимы для разработки лекарственных препаратов.
С точки зрения химии, белок представляет собой полимер: цепочку из аминокислот, которые в результате взаимодействий в пространстве сворачиваются в определенную структуру. Ее можно представить как набор координат всех атомов в трехмерном пространстве, или же — в развернутом виде — как последовательность аминокислот, где каждую аминокислоту можно записать как отдельную «букву». Таким образом формируется что-то вроде длинного слова или предложения, где каждая «буква» означает уникальные физико-химические свойства. Их последовательность определяет, как белок свернется, а следовательно — какие функции и характеристики будет иметь.
Для создания искусственных белков ученые уже применяли различные типы языковых моделей. Авторегрессионные модели работают подобно ChatGPT — генерируют белковые последовательности побуквенно. Дискретные диффузионные модели создают всю последовательность, «слово», сразу. Но оба эти подхода требуют большого размера модели и огромного количества данных для обучения.

Ученые предложили принципиально новый подход, основанный на непрерывной гауссовой диффузии. Сначала DiMA обучили генерировать разнообразные белки, которые всегда получаются биологически осмысленными и при этом не повторяют дословно известные природные последовательности. По сути, модель научилась понимать, как устроена вся «вселенная белков», и может ее достоверно имитировать. На втором этапе исследователи дообучили систему генерировать белки только из определенных областей пространства, задавая соответствующие условия. Например, белки определенного семейства или белки с заданной трехмерной структурой. Такой подход позволяет не только расширять представления о теоретически возможных белковых конфигурациях, но и решать конкретные прикладные задачи в биотехнологиях и медицине.
«В естественных условиях существуют белки с одинаковой пространственной укладкой, но разными аминокислотными последовательностями, однако, эволюция показала нам лишь те варианты, которые были обусловлены конкретными биологическими потребностями и ограничениями. Теоретически возможных вариантов белков существует астрономическое количество, поэтому наблюдаемые в природе белки представляют собой лишь каплю в океане возможностей. DiMA способна напрямую генерировать белковые последовательности, которые никогда не встречались в природе, но точно соответствуют заданным исследователем критериям — например, определенной трехмерной укладке или функциональным свойствам», — отметил Павел Страшнов, ведущий научный сотрудник группы дизайна белков центра ИИ-разработки новых лекарственных препаратов института AIRI.