«Болезнь Стивена Хокинга» будут побеждать облачной расшифровкой генома

storage
мобильная версия
, Текст: Артур Галеев

Австралийские ученые придумали, как использовать машинное обучение и облака для расшифровки генетического кода человека. Исследования в перспективе помогут в лечении больных, которые сейчас считаются безнадежными.


Машинное обучение помогает в генетических исследованиях

Ученые разработали систему, которая способна в реальном времени обрабатывать огромные массивы информации, связанные с генетическим кодом человека. Разработка за авторством специалистов австралийского «Содружества научных и промышленных исследований» (CSIRO) представляет собой специальную библиотеку машинного обучения — VariantSpark, в основе которой лежит механизм Apache Spark для работы с большими данными.

Речь идет о действительно огромных потоках информации: расчеты показывают, что до 2025 г., когда будет расшифрован геном половины человечества, объем связанных с этими исследованиями новых данных будет составлять не менее 30 экзабайт в год. В CSIRO их используют для определения генетических факторов, вызывающих тяжелые неизлечимые заболевания, например, боковой амиотрофический склероз, которым страдает, в том числе, британский физик-теоретик Стивен Хокинг (Stephen Hawking).

Однако подобные исследования прежде занимали очень много времени. Геном человека состоит из 3 млрд ДНК-«букв», а потому выделение нескольких генов, отвечающих за конкретное заболевание, по словам самих ученых, превращалось в поиск иголки в стоге сена.

Генетические исследования — одна из передовых областей использования современных технологий

«Все те методы машинного обучения, которые мы использовали раньше, не могли справиться с огромными объемами генетических данных, — констатирует исследователь в области биоинформатики и глава группы в CSIRO Денис Бауэр (Denis Bauer). — Например, алгоритм Google Planet подходит для решения задач машинного обучения, включающих сотни тысяч образцов с точностью до, скажем, 1 тыс. точек данных на образец. Но у нас 3 млрд точек данных на образец».

Редактировать ДНК будут с помощью облаков

Процесс идентификации конкретных участков ДНК, отвечающих за те или иные заболевания, по мнению ученых нуждается в ускорении. Тем более, что следующим этапом должна стать генная инженерия, которая позволит редактировать «неправильные» участки ДНК человека. Эта работа еще более медленная и ответственная.

«Идентификация одного гена — дело несложное, для этого можно использовать механизм распараллеливания, — уточняет Денис Бауэр. — Но в масштабах всей ДНК использование веб-служб представляется практически невозможным. Поэтому мы пришли к использованию службы бессерверных вычислений, которая помогает нам дешево и параллельном режиме выполнять много задач».

Помимо этого, австралийские ученые используют облака для безопасного обмена данными со многими коллегами, находящимися в разных уголках планеты. Помещенные в облачное хранилище данные остаются зашифрованными, пока не оказываются на вычислительном узле, что доказывают отчеты журнала аудита исходящих сообщений.

Облачная программа CSIRO была запущена еще летом. Освоение этой технологии австралийские ученые начали с использования публичных серверов, на которые они вынесли десятки веб-ресурсов. Также мощности облака использовались непосредственно в исследованиях.