Статья

Mail.Ru: Каждый пиксель на нашем сайте будет формироваться с учетом Big Data

Big Data
мобильная версия

О своем опыте применения технологий Big Data рассказал Александр Горный, директор по информационным технологиям Mail.Ru Group – компании, которую можно по праву считать одним из пионеров «больших данных» в России.

CNews: Как влияет поведение пользователей в сети на развитие технологий Big Data?

Александр Горный: Сегодня люди все больше времени проводят в интернете. При этом, авторизация на том или ином сайте ни у кого не вызывает вопросов. Таким образом, объем пользовательских данных постоянно качественно растет. Благодаря авторизации в социальных сетях, например, в «Одноклассниках» или Mail.Ru , можно сравнивать поведение пользователей на разных сайтах.

На рост популярности технологий Big Data также влияет ужесточение конкуренции. Если 10 лет назад, выводя часть своего бизнеса в онлайн, компания уже получала большое преимущество перед остальными, то сейчас в онлайне все. Чтобы конкурировать, приходится заниматься в том числе и большими данными.

CNews: Какие данные являются «большими» для Mail.Ru?

Александр Горный: У нас нет четкой градации, но, очень условно можно сказать, что если речь идет о сотнях гигабайт данных, к которым поступают тысячи нетривиальных запросов в секунду, то это хранилище уже вызывает уважение.

CNews: Почему в Mail.Ru занялись большими данными?

Александр Горный: Наш бизнес работает с миллионами пользователей, чем качественнее мы сможем понять, что они хотят, тем нам лучше. Поэтому еще до появления понятия «Большие данные» нам приходилось ими заниматься, в этом суть нашего бизнеса.

CNews: Насколько трудно найти квалифицированные ресурсы для проектов Big Data?

Александр Горный: Персонала на рынке очень мало, как и в иных направлениях ИТ-индустрии, с ним огромные проблемы. Мы стараемся не только привлекать «звезд», но и выращивать собственных специалистов. К примеру, предметы, связанные с анализом больших данных, есть в программе обучения студентов «Технопарка» – нашего совместного образовательного проекта с МГТУ им. Н.Э. Баумана.

CNews: Вы сотрудничали с каким-нибудь интегратором в этом направлении?

Александр Горный: Нет, проекты по Big Data мы всегда осуществляем внутренними ресурсами, в этом направлении у нас задействованы сотни разработчиков. На различных конференциях я часто встречаю компании, которые говорят, что быстро и качественно сделают любой проект Big Data, но они явно не готовы делать то, что обещают. Достаточно короткого разговора об их опыте, ресурсах и используемых технологиях, чтобы понять, что если кто-то согласится с ними работать, то результат будет самый плачевный.

CNews: Какие гипотезы вы проверяете при помощи Big Data?

Александр Горный: Анализ больших данных позволяет нам отличить спам от не спама, выбрать баннер индивидуально для конкретного пользователя, предложить пользователю подружиться с другим пользователем или подписаться на определенные обновления. Практически все функции нашей системы основаны на технологиях Big Data.

CNews: Когда в Mail.Ru начали применять технологии Big Data, в чем заключался первый проект?

Александр Горный: Проект «Рейтинг Mail.Ru» (изначально counter.list.ru) существует с 30 сентября 1998 года и сразу был построен как настоящая Big Data. В нем есть и собственные технологии хранения данных и обработка огромного количества входящей информации (сейчас почти 100 миллионов пользователей и несколько миллиардов просмотров страниц в день) и аналитические отчеты. Для веб-мастера «Рейтинг» предоставляет статистику того, что происходит на его сайте.

CNews: В каких текущих проектах применяются технологии больших данных?

Александр Горный: Наши текущие проекты всем известны – это «Почта Mail.Ru», «Одноклассники», «Мой Мир», «Поиск Mail.Ru» и многие другие. Перед внедрением новой разработки на одном из проектов мы всегда проверяем ее на определенной группе пользователей. Например, ящики 2% пользователей почты проверяются новой версией антиспама, с какими-то новыми алгоритмами. За тестовый период мы оцениваем количество жалоб на спам, количество жалоб на недошедшую корреспонденцию, количество отправленных писем, количество удаленных аккаунтов и еще несколько десятков параметров от выделенной группы по сравнению со всеми пользователями. Если целевой параметр (в данном случае – количество жалоб на спам) у них оказался существенно лучше (меньше), а все остальные в рамках случайного разброса – значит, новый алгоритм можно внедрять на всей почте.

CNews: Опишите архитектуру вашего проекта?

Александр Горный: Все построено на стандартном железе. Мы активно используем «Тарантул» (Tarantool) – базу данных нашей собственной разработки.

Александр Горный: Наш бизнес работает с миллионами пользователей, чем качественнее мы сможем понять, что они хотят, тем нам лучше

На момент последнего годового отчета у нас было 17 000 серверов, хранящих 20 петабайт информации, и 460 гигабит исходящего трафика в секунду. Наша ИТ-инфраструктура непрерывно растет, ее архитектура постепенно меняется, но это происходит плавно, мы не планируем никаких революций.

CNews: В каких направлениях был достигнут максимальный эффект?

Александр Горный: Выделю нашу рекламную систему и в частности «Таргет.Mail.Ru» – наша система автоматического размещения рекламы в социальных сетях. Увеличить эффективность рекламного объявления даже на несколько процентов очень интересно, очень сложно и одновременно очень выгодно. И тут анализ поведения пользователей нам очень помогает.

CNews: В каких бизнес-процессах вы видите эффекты от использования Big Data?

Александр Горный: Во внутренних проектах и бизнес-процессах мы пока не используем Big Data. Все же у нас пока тысячи, а не десятки миллионов сотрудников.

CNews: Какие новые области применения Big Data вы видите у вас в компании?

Александр Горный: В будущем каждый пиксель на нашем сайте будет формироваться с учетом Big Data, чтобы идеально соответствовать тому пользователю, который его видит. Постепенно мы идем к этому идеалу.

CNews: Есть такие технологии, которые пока не рождены?

Александр Горный: Каждый день железо становится лучше, быстрее и надежнее, каждый день в программном обеспечении появляются новые функции и возможности. Вопрос в том, что из этого – новая технология, а что – развитие предыдущей, скорее маркетинговый, а не технический. Но что-то новое обязательно продолжит появляться!

CNews: Вы анализируете данные только пользователей ваших сервисов, или также анализируете других пользователей?

Александр Горный: Мы не покупаем персонализированные данные у сторонних сервисов и, соответственно, обрабатываем информацию только о собственных пользователях. Конечно, даже это способствует привлечению новой аудитории – ведь наш сервис становится лучше, и его с большим удовольствием рекомендуют друзьям и знакомым, но точно посчитать роль Big Data в данном случае не получится.

CNews: Видите ли вы какие-либо этические и нравственные проблемы, связанные с технологиями больших данных?

Александр Горный: Могу только повторить банальное высказывание про молоток, которым можно и гвозди забивать, и черепа проламывать. Любой новый инструмент позволяет делать и зло, и добро. Никто не мешает использовать Big Data для более эффективного построения финансовых пирамид и подобной деятельности, но это не этическая проблема технологии.