Разделы

Представлена сверхкомпактная ИИ-модель для генерации белковых молекул на латентной диффузии

Ученые из института AIRI и немецкого Constructor University представили совместную работу, посвященную разработке инновационной модели для генерации искусственных белков — DiMA.

Одна из практических задач модели — генерация белков с заранее определенными характеристиками. Она способна создавать не встречавшиеся ранее в природе белковые последовательности, точно соответствующие заданным исследователями критериям. Новые белки необходимы для разработки лекарственных препаратов.

С точки зрения химии, белок представляет собой полимер: цепочку из аминокислот, которые в результате взаимодействий в пространстве сворачиваются в определенную структуру. Ее можно представить как набор координат всех атомов в трехмерном пространстве, или же — в развернутом виде — как последовательность аминокислот, где каждую аминокислоту можно записать как отдельную «букву». Таким образом формируется что-то вроде длинного слова или предложения, где каждая «буква» означает уникальные физико-химические свойства. Их последовательность определяет, как белок свернется, а следовательно — какие функции и характеристики будет иметь.

Для создания искусственных белков ученые уже применяли различные типы языковых моделей. Авторегрессионные модели работают подобно ChatGPT — генерируют белковые последовательности побуквенно. Дискретные диффузионные модели создают всю последовательность, «слово», сразу. Но оба эти подхода требуют большого размера модели и огромного количества данных для обучения.

Дмитрий Шаров, «ЦОД Эксперт»: Главным триггером для развития коммерческих ЦОД остается политика государства
Цифровизация

Ученые предложили принципиально новый подход, основанный на непрерывной гауссовой диффузии. Сначала DiMA обучили генерировать разнообразные белки, которые всегда получаются биологически осмысленными и при этом не повторяют дословно известные природные последовательности. По сути, модель научилась понимать, как устроена вся «вселенная белков», и может ее достоверно имитировать. На втором этапе исследователи дообучили систему генерировать белки только из определенных областей пространства, задавая соответствующие условия. Например, белки определенного семейства или белки с заданной трехмерной структурой. Такой подход позволяет не только расширять представления о теоретически возможных белковых конфигурациях, но и решать конкретные прикладные задачи в биотехнологиях и медицине.

«В естественных условиях существуют белки с одинаковой пространственной укладкой, но разными аминокислотными последовательностями, однако, эволюция показала нам лишь те варианты, которые были обусловлены конкретными биологическими потребностями и ограничениями. Теоретически возможных вариантов белков существует астрономическое количество, поэтому наблюдаемые в природе белки представляют собой лишь каплю в океане возможностей. DiMA способна напрямую генерировать белковые последовательности, которые никогда не встречались в природе, но точно соответствуют заданным исследователем критериям — например, определенной трехмерной укладке или функциональным свойствам», — отметил Павел Страшнов, ведущий научный сотрудник группы дизайна белков центра ИИ-разработки новых лекарственных препаратов института AIRI.



IT Elements 2025 IT Elements 2025

erid:

Рекламодатель:

ИНН/ОГРН: