Статья

В Россию пришли большие данные. Первые проекты

Big Data Инфраструктура
мобильная версия

До отечественной ИТ-индустрии докатился мировой бум больших данных. Об этих технологиях говорят все, отдельные компании уже их внедряют, но большинство предприятий пока только присматривается и ждет результатов первых проектов. Технологии, находящиеся на пике ожиданий цикла Gartner, и манят большими возможностями, и настораживают новизной. Теме больших данных была посвящена прошедшая 4 июня 2014 г. конференции «Big Data – технология будущего», организованная CNews Conferences и CNews Analytics. Эксперты ИТ-рынка обсудили, что можно считать большими данными и какие перспективы открываются бизнесу и государству с началом применения этих технологий.

Что такое большие данные? Поиск ответа на этот вопрос напоминает индийскую притчу о слоне и семи слепцах. В такой аллегорической форме представил тему больших данных Виктор Булгаков, руководитель департамента управленческой информации компании «Вымпелком». Следуя логике иносказания, эксперты, соприкасаясь с феноменом лишь частично, получают очень разное представление о его сущности, к тому же далекое от истины. Аналогия со слоном здесь не случайна: изображение этого животного стало эмблемой Hadoop –системы, которую считают основополагающей технологии больших данных.

Терминологическая неясность

Для отнесения технологий к стеку больших данных аналитики Gartner требуют соблюдения трех условий: большого объема, высокой скорости обработки и разнообразия данных – volume, velocity, variety (знаменитые три «V»). Эксперты из числа маркетологов полюбили добавлять сюда свои «V». Кто-то говорит еще о достоверности (veracity), другие добавляют, что технологии больших данных непременно должны приносить пользу бизнесу (value). Так или иначе, но участников конференции не удовлетворили эти определения. При обсуждении ряда реализованных российских проектов они так и не пришли к единому мнению, в каких случаях примененные подходы и инструменты можно отнести к технологиям больших данных, а в каких – нельзя. Вопрос, что считать большими данными, нашел самый большой отклик аудитории, но так и остался открытым.

Мысль, буквально висевшую в воздухе, озвучил Александр Аникин, руководитель аналитического отдела Wikimart (компания использует Hadoop). «Большие данные придумали вендоры, чтобы продать BI тем, кто еще не купил, а если уже купил, то чтобы продать во второй раз», – заключил спикер. Однако очевидно – и с этим фактом согласились все присутствующие, – что новые технологии дали возможность анализировать данные, которые до недавнего времени было невозможно обрабатывать за приемлемые деньги и в сжатые сроки.

С появлением технологий распределенной обработки данных стало возможным решать задачи, непосильные классическим BI-инструментам. Бизнес смог осуществить массовую кастомизацию своих услуг, анализировать информацию в реальном времени и оперативно реагировать на изменения рынка.

Бум больших данных порожден одновременно несколькими тенденциями. По мере все более глубокого проникновения интернета, с распространением социальных сетей, электронной коммерции существенно растет объем доступной для анализа информации о пользователях, действующих и потенциальных клиентах. Машины, хоть и не сидят в Facebook, но создают динамично растущий интернет вещей при помощи датчиков и сенсоров всевозможные устройства – и это вторая тенденция. Далее, цены на ИТ-инфраструктуру падают, свой вклад в эту тенденцию делают и облачные технологии. По данным известного венчурного фонда KPCB, на протяжении последних 13 лет стоимость вычислений ежегодно снижается на 33% и хранения – на 38%. И наконец, заметно совершенствуются технологии глубинной аналитики.

Родина больших данных

Технологии больших данных зародились в интернет-проектах. Большие данные – это их плоть и кровь и источник дохода. Возможности антиспама и таргетинга делают большие данные по сути бизнесообразующими для компаний, имеющих «прописку» в глобальной сети. Они одними из первых начали их собирать, анализировать и на них зарабатывать. «Мы столкнулись с большими данными и начали с ними работать очень давно, еще в 2002 году, когда и термина такого не было. Наверное, поэтому мы его не очень любим, – поделился Александр Горный, директор по информационным технологиям Mail.Ru Group. – Ни с появлением Hadoop, ни с популяризацией термина «большие данные» в нашей стратегии работы с данными ничего принципиально не поменялось», – отметил он.

Анализ больших данных помогает Mail.Ru Group – одной из крупнейших интернет-компаний в мире – предоставлять своим пользователям более качественный сервис, то есть кастомизированный, индивидуальный, учитывающий личные предпочтения. Анализ информации о пользователе, его поведении в сети помогает искать друзей в «Одноклассниках», предлагать интересные новости, показывать релевантную рекламу. Большие данные выводят третирование на новый уровень и позволяют выделять самые неожиданные сегменты для интернет-рекламы. Например, можно вычислить пользователей, которые с большой долей вероятности курят или не смотрят телевизор. Кроме того, большие данные помогают Mail.Ru Group тестировать новые элементы интерфейса и оценивать их эффективность, а также анализировать поведение людей на других сайтах в рамках сервиса «Счетчик».

Евгений Буслов: Использование больших данных в телекоме дает прирост выручки в 12%

Евгений Буслов

Евгений Буслов, руководитель направления Big Data компании «Петер-Сервис», рассказал о том, какие задачи в телекоммуникационной отрасли решаются при помощи больших данных, как от этого выиграют абонент и оператор.

CNews: Для вас большие данные – это большой объем корпоративной информации или в том числе внешние данные?

Евгений Буслов: Когда мы говорим о больших данных, то подразумеваем любые доступные нам источники информации. Ведь прекрасно известно, что синергетический эффект от их использования дает именно извлечение новых знаний из всего того многообразия информации, что уже накоплено в компании. В текущих реалиях можно смело утверждать: чем больше у вас знаний, тем больше преимуществ.

Читать далее