Спецпроекты

На страницу обзора
Teradata предлагает инструмент для расшифровки карты протеинов человека
После двухсот лет вынужденного ожидания современная наука приступила к изучению совокупности протеинов в человеческом организме. Ученые осторожно мечтают о светлой эпохе без болезней и дряхлой старости, но пока протеомные исследования — это беспрецедентно сложная задача, требующая передовых вычислительных технологий. Ведущие компании в области аналитики больших данных, такие как Teradata, предлагают специализированные решения, которые продвигают протеомику на новый уровень.

Современная наука подошла к важному рубежу: изучению работы всех протеинов в организме человека. Протеины составляют 17% массы человеческого тела. Они строят клетки, управляют биохимическими реакциями, обменом веществ, иммунитетом и почти всеми ключевыми процессами жизнедеятельности организма. Контроль над протеинами — ключ к управлению всем организмом. К сожалению, крайне сложно идентифицировать каждый протеин, выяснить, для чего он используется организмом и как взаимодействует с другими белками. По консервативным оценкам, в организме человека около 22 тыс. протеинов — это 242 млн возможных парных взаимодействий.

Поэтому, хоть протеины были открыты 200 лет назад, до сих пор ученые не могут до конца распутать эту невероятную головоломку. Долгое время технологии позволяли отделить и визуализировать белки, но не идентифицировать их. В то же время даже первые шаги в этом деле дали выдающийся результат. Например, открытие синтетического аналога инсулина ежегодно спасает миллионы людей с диабетом.

Протеомика – передовой край

Протеомика — наука, которая изучает функцию и взаимодействие протеинов в организме человека. В будущем открытия протеомики позволят управлять функциями организма, лечить любые заболевания и продлевать жизнь.

Расшифровка генома человека — перспективное направление, которое на слуху у всех. Но гены — лишь половина картины функционирования организма, ведь гены кодируют множество протеинов. Именно протеины отвечают за подавляющее большинство биологических процессов в организме, например, гемоглобин переносит кислород. При этом до сих пор было неясно, какие гены кодируют определенные протеины. В начале 2015 г. команда Proteomics DB представила первую карту протеинов, кодируемых 18 тыс. генов. Удалось установить, что белковый профиль каждого органа является уникальным. Более того, были обнаружены протеины, которые кодируются вне известной карты ДНК. Еще 2000 протеинов не найдены, хотя и должны существовать в соответствии с генной картой. Возможно, они появляются только в эмбриональном возрасте или связаны с генами, которые «выключились» в ходе эволюции. Все это — терра инкогнита протеомики. Одних только неизвестных протеинов могут быть десятки тысяч. Потенциал протеомики огромен: лекарства от рака, ожирения, старческих болезней, революционные технологии в фармакологии, химической промышленности и многое другое.

Большие данные — главный инструмент протеомики

Сегодня с помощью масс-спектрометрии теоретически можно идентифицировать сотни тысяч протеинов. К сожалению, результаты измерений засорены фоновым шумом, определить массу протеинов можно лишь приблизительно. В итоге для идентификации компьютерный алгоритм выбирает наиболее вероятного кандидата из нескольких измерений со схожими параметрами. Точность анализа протеинов падает с каждым этапом вычислений, поэтому протеомика требует специализированных информационных решений.

1_gen.jpg

Современная масс-спектрометрия поставляет очень большой объем разрозненных данных, которые трудно проанализировать

Другая проблема заключается в том, что погоня за количеством измерений генов и протеинов уже теряет актуальность. Допустим, мы знаем, что при определенной болезни наблюдается экспрессия 10 генов и нарушения в работе 50 протеинов, но они не вызывают заболевания по одиночке. Мы можем обнаружить сотни и даже тысячи генов, связанных с болезнью, но причина болезни так и останется неизвестной. Проще говоря, каждое нарушение следует рассматривать в контексте окружающей геномной и протеомной среды, вплоть до индивидуальных случаев с каждым пациентом. Необходимы комплексные расчеты, чтобы части мозаики сложились в цельную картину работы организма.

Увы, высокопроизводительные алгоритмы анализа, такие как моделирование de novo, дают много ошибок в предсказании функций протеинов. В результате часто менее производительные низкоуровневые расчеты обнаруживают у протеинов неожиданные функции. Нужны новые технологии обработки данных, чтобы наука могла двигаться вперед, а персонализированная медицина стала обычной клинической практикой.

Современный масс-спектрометр генерирует 5-6 Гб данных каждые 100 минут. Один файл первичных данных может содержать более 600 млн точек данных в трех измерениях: время, масса, количество протеинов. Эти данные нужно одновременно проанализировать, сравнить с базой известных протеинов и идентифицировать искомые белки. Серьезные научные проекты, например с 20 круглосуточно работающими масс-спектрометрами, производят петабайты данных. Для анализа этой информации необходимы сложные специализированные решения, которые сочетают высокую скорость и точность.

Наиболее передовое решение подобного рода — это вычислительная платформа Teradata. Она обеспечивает точную обработку данных для протеомики в режиме реального времени с применением массивно-параллельных вычислений (Massively Parallel Processing, или сокращенно MPP).

2_gen.jpg

Воссоздание трехмерной структуры протеинов и их возможных взаимодействий с другими протеинами требует совершенных вычислительных технологий

Платформа использует трехмерную картину данных масс-спектрометрии. Сначала система обрабатывает двухмерные данные (вес и количество протеинов), а затем добавляет третье измерение (время). В итоге формируется 3D-ландшафт с пиками данных, которые сличаются с базой известных или предсказанных протеинов. Аналитические процессы Teradata используют встроенные статистические функции для выполнения сложных задач, например биномиальных разложений, корреляций косинуса и т.д. Преимущество платформы Teradata — быстрое сопоставление базы данных с миллионами возможных комбинаций, включая объединение таблиц. В итоге пользователь в пределах одной платформы получает сквозную, то есть полностью автоматическую, обработку данных масс-спектрометрии.

В некотором смысле решение Teradata восстанавливает дисбаланс между избыточностью данных масс-спектрометрии и нехваткой проанализированных измерений. Ранее сличение данных измерений с базой протеинов было самым медленным процессом протеомики. Теперь с помощью платформы Teradata ученые могут сократить время анализа с дней до часов.

Новая технология позволяет проводить актуальные исследования в области протеомики. Прежде всего, это идентификация основных белков в клетке при сравнении больных и здоровых тканей, прогнозирование реакции на лекарственные препараты, создание трехмерных карт клетки с указанием местоположения белков, изучение локализации протеинов, их взаимодействие. Такие исследования имеют и прикладное значение, например, при раке молочной железы наблюдаются масштабные изменения в субклеточной организации белков. Так, команда Proteomics DB при изучении 24 препаратов против 35 клеточных линий рака обнаружила, что они коррелируют с протеиновыми профилями. Изучение подобных процессов может помочь в разработке новых лекарств.

Помимо этого быстрый протеомный анализ имеет ключевое значение для персонализированной медицины. По мнению руководителя Proteomics DB Бернхарда Кустера (Bernhard Kuster), анализ протеома делает возможным индивидуальный подход к лечению пациентов. Ученый подчеркивает, что детальное знание профиля протеинов опухоли поможет подобрать оптимальные комбинации лекарственных препаратов, а значит, болезнь можно будет лечить на более поздних стадиях и с меньшим вредом для организма.

В конечном счете, протеомика работает на главную цель фундаментальной биологической науки — продление здоровой активной жизни людей. Именно на компьютерных серверах родится ключ к заветной мечте человечества.

Михаил Левкевич

Интервью обзора

Рейтинги

Крупнейшие поставщики BI-решений в России 2015
Название Выручка по направлению BI, 2014,iтыс. (с НДС)
1 Прогноз* 4 013 481
2 AT Consulting 1 428 698
3 Softline 1 297 839
Подробнее

Рейтинги

Крупнейшие российские проекты внедрения BI-систем, 2014-2015 гг.
Заказчик ИТ-партнер / Решение
3M Company Прогноз/Прогноз
AirBridgeCargo BI Partner/Pentaho
DPD (экспресс-доставка) Корус Консалтинг/Oracle Business Intelligence 11
Подробнее

Рейтинги

Инновационная аналитика: проекты в России и мире
Заказчик Описание проекта
Зарубежные/международные проекты
Beth Israel Deaconess Medical Center Суперкомпьютер, построенный в медицинском центре Beth Israel Deaconess Medical Center в Бостоне, США, способен предсказывать дату смерти пациентов на основе медицинских данных с вероятностью 96%. Система хранит данные о 250 тыс. бывших и нынешних пациентах за 30 лет и фиксирует параметры жизнедеятельности пациентов в палатах с частотой раз в три минуты, записывая множество параметров — от давления крови до уровня кислорода. Основываясь на данных о пациентах, системаспособна выявлять редкие заболевания, которые обычный доктор может не увидеть или обнаружить не так быстро, как это способен сделать суперкомпьютер.
CERN CERN и Yandex Data Factory объявили открытый конкурс Flavour of Physics («Аромат физики») по машинному обучению. Участникам предлагается разработать алгоритм, который позволит отделить «сигнал» о специфическом распаде тау-лептона от «фона». Алгоритм поможет ученым обнаружить в данных Большого Адронного Коллайдера следы распада тау-лептона на три мюона τ- → μ+μ-μ- . Этот распад, нарушающий сохранение важного параметра элементарной частицы, лептонного аромата, станет указанием на свойства новой физики за рамками Стандартной Модели, поиском которой заняты ученые со всего мира. Задача участников конкурса — создать классификатор, программу, которая разделит события коллайдера на содержащие необходимый распад тау и не содержащие.
Подробнее