Спецпроекты

ОФД объединяются для работы с большими данными

Интеграция Ритейл Big Data

Появление онлайн-касс и операторов фискальных данных, которые занимаются обработкой и передачей сведений о проданных товарах и оказанных услугах, привело к формированию огромного массива данных. О том, какую полезную информацию из них можно извлекать, как будет развиваться рынок аналитики данных ОФД и что в результате получат ритейлеры и производители, в интервью CNews рассказал Максим Ларькин, директор по развитию бизнеса «Первого ОФД».

CNews: Внедрение онлайн-касс привело к резкому росту количества данных на рынке ритейла. Вы можете хотя бы приблизительно оценить их объемы?

Максим Ларькин: Данные – это основной тренд XXI века. Они формируются везде. Например, один самолет генерирует в течение полета более 500 Гб информации. Уже появляются новые специальности и формируются новые институты по работе с данными. Речь идет о дата-сайентистах и дата-инженерах, которые, по сути, являются научными сотрудниками, и фабриках по обработке данных – таких, как «Яндекс», Facebook и другие. Результатом их работы являются продукты или сервисы, которые делают нашу жизнь лучше. Конечно, с нашего с вами разрешения.

Так эволюция дошла и до кассового рынка, на котором появились операторы фискальных данных. На данный момент на рынке зарегистрировано около 2,4 миллиона касс, которые генерируют около 120 миллионов чеков в сутки. Из них порядка 25 миллионов поступают в «Первый ОФД». Это каждый пятый чек. За 2 года существования «Первого ОФД» в нашей базе данных накопилось 14,5 миллиардов чеков. Если перевести эти значения в объем информации, то получится около 40 гигабайт в день. У нас уже есть 200 терабайт накопленных данных.

CNews: Сколько времени вы обязаны хранить эти чеки?

Максим Ларькин: Оператор фискальных данных должен хранить чеки в течение пяти лет.

CNews: Какие данные вы получаете с касс?

Максим Ларькин: При взаимодействии «касса – ОФД» о каждой покупке передается документ, который содержит в себе более 30 полей. Это не только привычные для нас данные о номенклатуре товара, объемах продаж, цене, дате, времени и месте покупки, но и, например, маркировка товара, которая введена для табака и прочих товаров, список которых будет увеличиваться. По закону мы имеем право использовать только часть этой информации, обеспечивая конфиденциальность сведений о продавце.

Таким образом, мы оперируем стандартными показателями – это данные о товарах, объеме продаж, цене. Далее уже работают наши алгоритмы, которые производят расчет вытекающих из этого величин, таких как канал продаж, сопутствующие товары, безналичные или наличные продажи и т.д. Наше главное преимущество – это широта взгляда (отсутствие ограничений по товарам, услугам, географии), точный и максимально гранулярный уровень данных в разрезе абсолютных, а не расчетных показателей продаж с точностью до минуты.

CNews: Когда я прихожу в магазин и расплачиваюсь картой, вы можете определить, кто именно совершил покупку?

Максим Ларькин: Нет, у оператора нет информации о конкретном покупателе. Другое дело, что мы сотрудничаем с банками – например, с «Тинькофф». И тогда, если вы пользуетесь соответствующими сервисами банка и оплачиваете покупку его картой, то через день получаете чек. Таким образом, банк с вашего согласия может анализировать именно ваши покупки.

CNews: Если говорить о качестве данных, то как в каждом отдельном ОФД представлены все регионы, все типы бизнеса и пр.?

Максим Ларькин: Для начала небольшое отступление. Человечество придумало статистику как отдельную науку, так как не было физической возможности собрать все данные воедино. В терминах статистики это называется генеральной совокупностью. Большие данные, в том числе ОФД, работают как раз с генеральной совокупностью событий, а не со статистикой (небольшой выборкой), что делает качество данных намного выше.

dsc67841000x665.jpg
Максим Ларькин: Помимо анализа прошлого и настоящего, в перспективе мы видим возможность запуска сервиса предиктивной аналитики

Что касается того, как в каждом ОФД представлены разные типы бизнеса, то всеоператоры работают и с аптеками, и с продуктовыми магазинами, и с автозаправочными станциями, и так далее. Причем, во всех регионах России. Этого вполне достаточно для анализа. Более того, у нас есть преимущество – мы работаем на Дальнем Востоке и в других труднодоступных местах, а данных об этих регионах не так много.

CNews: Какие перспективы, на ваш взгляд, открываются в связи с появлением таких новых источников информации, как данные ОФД?

Максим Ларькин: Основная перспектива, которая открывается перед заказчиками, – это возможность получить результат в виде аналитики рынка, инсайтов и рекомендаций быстро, максимально широко и точно. Наша цель – дать ответы на прицельные вопросы бизнеса и встроить результаты нашей работы в ежедневные бизнес-процессы клиента.

CNews: Какую аналитику вы уже предоставляете вашим заказчикам? В чем ее сильные и слабые стороны?

Максим Ларькин: Список сервисов уже достаточно большой. Сейчас наши клиенты могут заказать мониторинг ситуации в прежде недоступных сегментах рынка – по гео-признаку или типу торговли, получить информацию о дистрибуции полочной цены (в каком количестве магазинов ваш товар продается по определенной цене) или об отсутствии товара на полке, заказать анализ сопутствующих товаров, промо-аналитику на базе ежедневных продаж, провести оценку запуска новых продуктов, эффективности команды продаж или маркетинговых активностей.

Сильные стороны нашей аналитики можно описать тремя словами: достоверность, оперативность, точность. Мы оперируем абсолютными показателями и не применяем методы экстраполяции данных. Мы имеем возможность формирования динамических отчетов, то есть отчетов в режиме реального времени, – это главное преимущество оператора фискальных данных.

Что касается слабых сторон. Миллиарды чеков, в каждом из которых написаны те или иные наименования товаров без какого-либо стандарта, с ошибками и сокращениями – крайне сложный материал для анализа. При создании аналитической системы мы используем множество технологий: машинное обучение, статистические модели, стандартизированные методологии и многие другие современные подходы. В этом нам помогают, в том числе, и наши клиенты-производители, которые делятся своими компетенциями и стандартами в создании каталога для лучшего распознавания номенклатуры. Также сейчас появляются такие партнеры, как ЦРПТ, которые внедряют маркировку товара и создают единый национальный каталог.

Конечно, список предлагаемых нами услуг будет расширяться. Сейчас мы активно завоевываем рынок производителей товаров в сфере FMCG и фармацевтических компаний. Наши продукты способны произвести революцию в продажах таких товаров.

CNews: Можете привести какой-нибудь пример?

Максим Ларькин: Давайте представим, что вы – крупная компания по производству газированных напитков, которая вчера выпустила на рынок новый вид товара. Вам важно оперативно получить точную информацию, как он продается в супермаркетах и в магазинах «у дома» в Москве. С нашей помощью вы можете прямо на карте города в режиме онлайн наблюдать, что происходит в той или иной зоне города. И это только начало. По плану месяцев через пять мы сможем предоставить производителю доступ к веб-интерфейсу, где он сможет сам, выбрав нужную категорию, видеть в режиме реального времени, как продается любая его продукция.

dsc68741000x665.jpg
Максим Ларькин: Основная перспектива, которая открывается перед заказчиками, – это возможность получить результат в виде аналитики рынка, инсайтов и рекомендаций быстро, максимально широко и точно

CNews: Обработкой фискальных данных занимаются 20 ОФД. Понятно, что для получения наиболее точной картины надо обрабатывать данные не одного ОФД, а, как минимум, топ-5. Недавно «Первый ОФД», «ОФД-Я» и «Такском» объявили о том, что готовы объединить свои данные. Как это повлияет на рынок аналитики данных?

Максим Ларькин: Сейчас есть договоренность о сотрудничестве между 4 операторами – кроме перечисленных, это «Контур». Еще с рядом ОФД мы ведем переговоры. В среднем, вместе мы покрываем порядка 70-75% рынка.

Важно подчеркнуть, что для решения многих бизнес-задач не обязательно иметь полные данные о рынке. Так, промо-анализ, анализ инкрементальности новых запусков, сопутствующих товаров в чеках и многое другое можно делать на основании 20% данных, которые есть у «Первого ОФД». Это статистически значимая выборка, в которой представлены все регионы и каналы продаж, что позволяет говорить о высокой релевантности результатов анализа.

Однако, объединение данных нескольких ОФД – это взаимовыгодное сотрудничество, в результате которого мы все помимо обмена опытом и улучшения наших сервисов получаем новые данные для анализа и повышаем точность наших рекомендаций.

Я уже говорил,чем отличаются большие данные от статистики. Статистка основана на ограниченной выборке и экстраполяции. Многих производителей это не устраивает, потому что они не видят точной информации, но вынуждены выставлять на ее основе KPI. Кроме того, в конце года, как правило, происходит перерасчет статистических показателей. Мы не будем заниматься экстраполяцией, научим машину разбирать каталог так, что к нему невозможно будет придраться, и добьемся того, что погрешность наших данных не будет превышать 2%.

Я уверен, что такой подход сможетвывести рынок аналитики на новый уровень. Все участники этого проекта – не конкуренты, а, скорее, партнеры. Мы сделали так, чтобы конфиденциальная информация клиентов каждым оператором не раскрывалась, но при этом появилась возможность обработки настоящих больших данных. Таким образом, у наших заказчиков в зависимости от задач, которые они хотели бы решить, будет возможность использовать данные одного, двух или всех ОФД, участвующих в проекте.

CNews: Как другие игроки с рынка отнеслись к этой инициативе?

Максим Ларькин: С интересом. Я хотел бы подчеркнуть, что мы готовы к сотрудничеству и совместным проектам со всеми игроками рынка.

CNews: ФНС накладывает какие-то ограничения на вашу работу с данными?

Максим Ларькин: В соответствии с 54-ФЗ, оператор фискальных данных может осуществлять обработку фискальных данных в статистических или иных исследовательских целях при условии обязательного обезличивания. Мы строго следуем этому принципу.

CNews: Какие новые возможности появятся у ваших клиентов после объединения данных нескольких операторов?

Максим Ларькин: Мы видим практически весь рынок. А, значит, можем с большой точностью анализировать тренды в категориях товаров, в долях производителей, в брендах, в динамике цен и так далее. Это те направления, которые сейчас особенно интересны и ритейлерам, и производителям.

CNews: Вы уже видите реальный интерес к таким сервисам или пока занимаетесь евангелизмом?

Максим Ларькин: К нам уже приходят производители, ритейлеры иdigital-агентства. Наша главная цель – встроиться в бизнес-процесс клиента так, чтобы он мог координировать работу своих сотрудников, своего бизнеса на основе актуальных данных. И мы объясняем это нашим клиентам. Так что в этой части евангелизм еще присутствует. В то же время, мы занимаемся развитием аналитики уже больше года, и у нас есть контракты с заказчиками, мы участвуем в конкурсах на предоставление таких услуг. Скоро появятся и публичные кейсы.

Конечно, работать с компаниями FMCGотрасли, производителями табака и алкоголя очень интересно. Но существует огромный пул производителей, которые не располагают выделенным бюджетом под аналитические проекты, но при этом имеют большое желание, как минимум, мониторить тренды. В то же время, они не могут содержать штат сотрудников-профессионалов и инфраструктуру, которые позволят правильно интерпретировать имеющиеся у них данные. Для них у нас будет запущен продукт, о котором я говорил ранее – веб-интерфейс с преднастроенными виджетами. Коммерческий директор или владелец любого бизнеса сможет по подписке в удобное время получить любую необходимую ему информацию. Мы планируем сделать этот сервис недорогим, но массовым.

CNews: Как вы видите перспективы развития этого направления?

Максим Ларькин: Помимо анализа прошлого и настоящего, в перспективе мы видим возможность запуска сервиса предиктивной аналитики. Мы сможем прогнозировать, как будет развиваться спрос на те или иные категории товаров, форматы упаковок и так далее, это позволит нашим клиентам стать трендсеттерами рынка. Или, накопив достаточную базу исторических данных, мы сможем рассчитывать, как покупатели отреагируют на ту или иную промо- или маркетинговую активность, а следовательно, прогнозировать продажи. Это позволит нашим клиентам повышать уровень сервиса, держать необходимый запас товара на полке, вовремя и в полном объеме осуществлять поставки. Думаю, это станет возможным уже в 2020-2021 годах.

Взгляд месяца

Государство должно получать данные напрямую из информсистем компаний

Савва Шипов

Замминистра Минэкономразвития

Стратегия месяца

Качеством медпомощи по системе ОМС занялся искусственный интеллект

Елена Сучкова

заместитель Председателя ФОМС