Разделы

Цифровизация Инфраструктура

IBM разработала новый энергоэффективный метод анализа качества данных

IBM Research, исследовательская организация корпорации IBM, сообщила о разработке революционного метода, основанного на математическом алгоритме, который позволяет уменьшить на два порядка вычислительную сложность, расходы и потребление электроэнергии при анализе качества больших объемов данных. Новый метод призван помочь предприятиям эффективнее извлекать и использовать данные для создания более точных и лучше прогнозирующих моделей, говорится в сообщении IBM.

Для демонстрации нового метода исследователи IBM использовали суперкомпьютер, занимающий четвертую позицию в рейтинге самых мощных вычислительных систем в мире — Blue Gene/P, развернутый в научно-исследовательском центре города Юлих, Германия (Forschungszentrum Julich) — для проверки достоверности 9 ТБ данных. Суперкомпьютер JuGene, потребляющий 52800 КВт/ч электроэнергии при работе в режиме полной мощности, справился с этой задачей менее чем за 20 минут, при этом демонстрация нового метода IBM потребовала, как и ожидалось, 700 КВт/ч.

Одним из наиболее критичных и требующих большого объема вычислений факторов в аналитике считается измерение качества данных, показывающее, насколько надежными (или достоверными) являются данные, которые используются при анализе и генерируются аналитической моделью. Во многих прикладных областях, от организации дорожного движения и ведения финансовых операций до управления водными ресурсами, новый метод, разработанный учеными IBM, может проложить путь к созданию более мощных, комплексных и точных моделей с расширенными возможностями прогнозирования, уверены в компании.

Объемы цифровых данных увеличиваются в гигантских размерах, в том числе вследствие огромного количества используемых датчиков, этикеток радиочастотной идентификации (RFID-меток), управляющих механизмов и GPS-устройств. Эти миниатюрные компьютеры фиксируют, оценивают, сравнивают и подсчитывают всё – от степени загрязнения морской воды до схем движения транспорта и цепочек поставок продуктов питания. Однако со всеми этими данными приходят и новые проблемы, поскольку организации сегодня стремятся не только извлекать из данных ценную для себя информацию, но также быть всегда уверенными в достоверности данных, которыми они оперируют, отметили в IBM. Ученые IBM продолжают свои передовые исследования в этой области, чтобы помочь клиентам в расширении способности аналитики прогнозировать результаты и содействовать повышению оперативности и качества принимаемых бизнес-решений.

«Определение, насколько типичными или статистически релевантными являются данные, помогает нам оценивать общее качество анализа и указывает на недостатки аналитической модели или скрытые взаимосвязи в данных, — пояснил доктор Костас Бекас (Costas Bekas) из IBM Research – Zurich. — Эффективный анализ огромных массивов данных требует разработки нового поколения математических методик, которые направлены на уменьшение вычислительной сложности и, в то же время, могут быть развернуты на современных высокопроизводительных вычислительных платформах с массовым параллелизмом».

Как построить масштабируемую систему документооборота для тысяч пользователей
Цифровизация

Продемонстрированный учеными IBM новый метод, помимо уменьшения вычислительной сложности, обладает хорошими характеристиками масштабируемости, которые позволили использовать его «на полную мощность» суперкомпьютера JuGene в научно-исследовательском центре города Юлих, с его 72 аппаратными стойками системы IBM Blue Gene/P, 294912 процессорами и пиковой производительностью в один петафлоп.

«В ближайшие годы вычисления на суперкомпьютерах будут снабжать нас уникальными знаниями и предоставлять дополнительные преимущества вместе с новыми технологиями, — считает профессор, доктор Томас Липперт (Thomas Lippert), руководитель центра высокопроизводительных вычислений в Юлихе (Julich Supercomputing Centre). — Краеугольным камнем будущего станут инновационные инструменты и алгоритмы, помогающие нам анализировать громадные объемы данных, которые получены в результате моделирования различных прикладных процессов на самых мощных компьютерах».

Татьяна Короткова