Разделы

Цифровизация

Юрий Колбасин, Лига цифровой экономики: Наши мессенджеры расскажут о нас больше, чем мы сами

Какие тренды актуальны в области Data Science? Как грамотно применять большие данные? Эти и другие вопросы CNews задал Юрию Колбасину, партнеру Лиги цифровой экономики, директору направления Big Data.

CNews: Каково положение вещей в современной Data Science? Чем живет отрасль?

Юрий Колбасин: Data Science находится на пике своей популярности. Сегодня эта технология используется в первую очередь для прогнозирования поведения клиента и формирования для него лучшего предложения. В Data Science занято огромное количество специалистов, которые решают сложнейшие задачи.

В основе Data Science – колоссальные объемы данных, они накоплены годами в различных индустриях и сферах деятельности. Мы все так или иначе являемся потребителями. Каждое наше действие логируется и позволяет строить сегментированные базы, понимать нас с различных сторон.

Наиболее интересно комплексное видение своего клиента – какие у него точки притяжения, интересы, кто составляет круг его общения, какими продуктами он пользуется. Данные распределены между различными отраслями – телеком, банки, ритейл, страхование и т. д. В настоящий момент нет единого места, где собрана вся информация по клиенту по всем сферам жизни. Это обусловлено в первую очередь законом о защите персональных данных, который сильно ограничивает их передачу между контрагентами, а также ревностным отношением компаний к своим данным и нежеланием делиться. Каждая индустрия пытается узнать своего потребителя на основе имеющейся информации и с помощью ограниченных коллабораций (например, связка телекома и банков).

Для повышения качества моделей желательно собрать в одном месте всю доступную информацию о клиентах, но с учетом сказанного это является непростой задачей. Для ее решения целесообразно использовать подход по принципу «разделения секрета». В рамках этой концепции у всех участников группы есть своя доля данных, но ни один из них не может получить доступ абсолютно ко всей информации, однако каждый может использовать в анализе данные других участников группы. При таком подходе нет передачи персональной информации между контрагентами и можно проводить анализ не только по своим, но и по данным других участников. Этот метод позволит сделать серьезный рывок в доступности данных для анализа и повысит качество продуктов и предложений.

При этом рынок развивается и коллабораций становится все больше. Конечного потребителя сильно раздражают неуместные предложения, которые он получает в результате массовых рассылок. Он хочет получать ровно то, что его интересует в настоящий момент. Чем больше данных вы будете иметь, чем лучше узнаете своего клиента, тем более релевантным будет ваш оффер.

CNews: Если говорить детальнее, какие технологические и бизнес-тренды можно выделить?

Юрий Колбасин: Существующие технологии позволяют хранить и обрабатывать условно неограниченные объемы данных. Технологическое развитие обеспечивает быстрый доступ и высокий отклик при работе с ними. Сложные модели по принятию решений, по построению прогнозов создаются на всем массиве доступных данных. Тем самым повышается качество этих моделей. В арсенале специалистов есть огромное многообразие open source продуктов, которые содержат в себе все необходимые для работы библиотеки. Основным языком программирования Data Science по-прежнему является Python.

Юрий Колбасин, Лига цифровой экономики: Существующие технологии позволяют хранить и обрабатывать условно неограниченные объемы данных

С точки зрения бизнес-трендов можно выделить рост числа проектов в сфере IoT, искусственного интеллекта, в области автоматизации рутинных задач, автоматической обработки документов, аудио- и текстового анализа общения с клиентом, видеоаналитики. При этом задачи по построению классических моделей также очень востребованы.

Для ускорения расчетов зачастую используются вычисления на основе GPU, что дает существенный прирост в производительности.

В настоящий момент эксперты Лиги цифровой экономики приступили к анализу применимости и определению класса задач, которые могут решаться с помощью квантового компьютера. В России есть компании, которые разрабатывают подобные технологии и далеко продвинулись в этом. Они предоставляют доступ к облаку или эмулятору, где специалисты могут протестировать свои модели. Это тренд на ближайшие 5-7 лет, и мы планируем сформировать предметное понимание того, какие задачи имеет смысл переносить на квантовый компьютер, чтобы быть готовыми встретить этап, когда квантовые компьютеры станут доступны и будут широко представлены.

CNews: Приведите примеры задач, которые сегодня решают специалисты по Data Science.

Юрий Колбасин: Круг задач достаточно широк, при этом есть сложные и нетривиальные вызовы. Могу сказать об опыте нашей команды BI в Лиге цифровой экономики. Мы создавали различные модели по видеоаналитике – определяли количество людей в очереди, насколько быстро работают продавцы, одеты ли в униформу сотрудники. Разрабатывали чат-ботов и голосовых роботов, их стиль общения очень схож с манерой общения человека. Создавали поведенческие модели клиента и формировали лучший релевантный оффер. Разрабатывали модели оттока, которые показывают склонность каждого клиента к прекращению пользования услугами и позволяют заказчику своевременно запускать мероприятия по удержанию клиента. Накопленный за много лет опыт позволяет нашим экспертам решать любые сложные задачи во всех отраслях.

CNews: Как будет меняться роль команд Data Science в структуре ИТ-компаний? Будут ли они выходить из подразделений BI/Big Data и становиться более самостоятельными? Появятся ли компании, которые специализируются только на этом направлении, и смогут ли они конкурировать с большими игроками?

Юрий Колбасин: DataScience в структуре ИТ-компаний неразрывно связана с BI/Big Data. Основа для работы – это загруженные данные. Для построения и обучения моделей необходимо обеспечить доступ к информации. Дата-сайентисты решают свои отдельные задачи, но при этом последние полностью интегрированы в процессы BI.

На рынке существуют компании, которые занимаются только Data Science. Они, как правило, имеют довольно узкую специализацию. Проекты, которые сейчас реализуются, включают в себя загрузку данных, обработку, подготовку необходимых витрин, проведение мероприятий по Data Governance и Data Quality, построение хранилищ с реляционным и нереляционным сегментами данных. Такие комплексные задачи под силу только большим компаниям, которые при необходимости могут привлекать нишевых игроков, специализирующихся только на Data Science. При этом стоит отметить наличие в крупных разноотраслевых компаниях штатных дата-сайентистов с большим опытом и высококлассной экспертизой.

CNews: Куда будет развиваться Data Science? Каковы перспективы технологии в ближайшие 5-10 лет?

Юрий Колбасин: Мы стоим на пороге совершенно иных подходов к цифровизации. Вся деятельность людей пронизана цифровыми следами, наши мессенджеры расскажут о нас больше, чем мы сами. При этом есть огромное количество цифрового шума, который мы также пропускаем через себя. Растет стресс, зависимость от гаджетов и рассеивается наше внимание. Новые решения позволят сократить долю входящей информации, цифровые помощники заберут на себя рутинные задачи, искусственный интеллект будет за нас выполнять простые действия. Ключевой аспект – доверить помощникам свои данные. Уже сейчас можно построить и обучить цифровую модель человека, которая будет вести себя схожим образом и мимикрировать под своего хозяина.

Жизнь очень коротка, человечество на протяжении всего своего существования искало Святой Грааль, секрет бессмертия. В настоящее время, безусловно, увеличилась средняя продолжительность жизни, но кардинально вопрос не решен. Я смотрю на это под другим фокусом – бессмертие возможно, но только цифровое. И это не фантастика, а задача, которая уже решается.

Накопленная информация позволяет анализировать профиль, поведение человека, как он говорит, его интонацию, мысли, изречения. И сегодня Data Science с определенными допущениями может построить модель индивидуума, которая будет вести себя как живой человек. Наличие технологий deep fake позволяет визуализировать и озвучить кого угодно, что делает цифровую модель более человечной и привычной для нас. Представьте, что мы сможем оживить в цифровом мире практически любого из наших великих предков. Скоро в школах на уроках литературы Александр Сергеевич Пушкин будет «сам» читать свои произведения с мониторов. Мы сможем узнавать биографию и ключевые аспекты жизни выдающихся деятелей человечества, общаясь с их цифровыми двойниками.

С современниками, у которых, помимо текстовых трудов, есть еще аудио и видео, дела обстоят еще лучше. Цифровая модель в этом случае получается значительно качественнее. В лаборатории Data Science Лиги Цифровой Экономики мы сейчас ведем работу по оцифровке двух наших современников – для анализа готовности текущих технологий для решения данной задачи. Промежуточные результаты позволяют предположить, что в скором времени это станет доступным для всех нас и будет такой же обыденностью, как цифровые помощники в телефонах и умные колонки.

CNews: Что дадут такие детальные и правдоподобные цифровые модели, помимо развлекательной функции? Какую практическую пользу принесут?

Юрий Колбасин: До сих пор основными потребителями информации о клиентах являлись поставщики услуг: телеком-операторы, банки, страховые компании и т. д. В последнее время данные стали использоваться нами самими для улучшения нашей жизни – появляются сервисы, которые позволяют людям быть эффективнее, фильтруют цифровой поток, оставляя только самое важное и интересное, создаются всевозможные помощники. Данные о перемещениях потоков людей используются в планировании городов; оповещения людей становятся все более адресными.

Мы создаем огромное количество контента, который зачастую просто хранится на наших девайсах. Следующая эра – это изменения в парадигме использования информации о нас. Во-первых, мы сами сможем определять, кому будут доступны наши данные. Во-вторых, появятся наши цифровые двойники, которые будут хранить необходимую и важную информацию о нас, решать рутинные задачи, отвечать в мессенджерах, а также снижать уровень цифрового шума, с которым мы сталкиваемся ежедневно.

erid:Pb3XmBtzstYxHYWSgfWNMSePCyjW8SdAziTXqqgРекламодатель: ООО «ЭйТи Консалтинг»ИНН/ОГРН: ИНН/ОГРН 7715744096/1097746010559Сайт: Сайт https://digitalleague.ru/