Дмитрий Гольцов, «Мегапьютер»: В России растет запрос на демократизацию работы с большими данными
Данных становится все больше, запросы на работу с ними стремительно расширяются, поступая от специалистов в разных предметных областях. Большие данные в современных условиях — один из драйверов развития как ИТ, так и всей экономики, а также для отдельных компаний. Как обстоят дела с новыми инструментами для работы с большими данными в российских условиях, как меняется их восприятие у корпоративных заказчиков в стране? На эти и другие вопросы CNews отвечает Дмитрий Гольцов, заместитель генерального директора «Мегапьютер».
CNews: Какова ситуация с востребованностью больших данных на российском рынке в настоящее время?
Дмитрий Гольцов: Ситуацию можно назвать одним словом: рост. Это касается как востребованности больших данных российскими заказчиками, так и рынка данного сегмента ИТ. ИТ-рынок растет. Это происходит где-то вопреки, а где-то и благодаря изменениям, которые происходят последние годы в нашей стране и в мире: политическим, экономическим, социальным.
В прошлом году рост российского ИТ-рынка составил 35%, по данным, которые озвучил Дмитрий Чернышенко, заместитель председателя Правительства Российской Федерации. На переднем крае национального ИТ находится сегмент больших данных, развиваясь с небольшим опережением по сравнению со средними показателями по отрасли. Цифры динамики роста рынка в целом будут двузначными. Интерес и спрос на технологии больших данных только усилится. Это и мое мнение, и мнение профессионального сообщества. В области больших данных сконцентрированы самые востребованные технологии: машинное обучение, искусственный интеллект, предиктивная аналитика, обработка естественного языка и пр.
CNews: Как изменилась специфика заказчиков?
Дмитрий Гольцов: В кризисные времена бизнес всегда обращается к инструментам повышения эффективности. Сегодня повышения эффективности можно добиться за счет принятия обоснованных бизнес-решений на основе анализа «Больших данных». Причем большие данные становятся все больше! Наиболее это заметно в медицине, в финансах и в сфере обслуживания. При наличии подходящих аналитических инструментов и правильной постановки задач, данные, которые были накоплены ранее, но до последнего времени лежали мертвым грузом, оказываются подспорьем для бизнеса.
Основной потребитель этих технологий – крупный бизнес. Эти организации, во-первых, порождают эти «большие данные», а во-вторых, умеют их правильно хранить. Две трети российских корпораций уже начали использовать некоторые возможности, открываемые большими данными.
Половина из внедривших – треть от общего количества крупных корпораций – сделали это за последние три года. Что произошло три года назад? Началась пандемия коронавирусной инфекции. Она изменила ситуацию на рынке, что стало катализатором интереса к новым технологиям, в том числе, к большим данным.
Однако, есть и проблемы. Например, на отдельных вертикальных рынках не всегда понятны эффекты от внедрения и использования таких технологий. Это заметно, например, в сегменте российского производства. Но и здесь есть место оптимизму! У всех на слуху – даже в самых отдаленных и заснеженных уголках страны – такие понятия, как «искусственный интеллект», «нейросети» и ChatGPT. Сегодня интерес к высоким технологиям особенно сильно стимулирует массовая культура, что играет на руку корпоративному сегменту.
CNews: Расширилась ли трактовка этого термина?
Дмитрий Гольцов: Общепринятого определения, на мой взгляд, никогда и не было. Одни называют большими данными те массивы информации, которые невозможно обработать вручную. Для других большие данные – массивы, которые невозможно обработать при помощи одного вычислительного сервера. Для третьих – это все, что не помещается в Microsoft Excel.
Классическая трактовка, которая пошла еще с «нулевых» годов, требует для больших данных соответствия трем так называемым «V-характеристикам»: Volume, Velocity и Variety. Заметим, что эта трактовка даже вошла в Национальный стандарт «Больших данных», который появился в 2021 году.
В данном случае «Volume» означает объем данных, которые уже невозможно обработать стандартными средствами, без применения таких инструментов, как «озера данных», распределенные вычисления, и т.д. «Velocity» указывает на гигантские скорости появления новых данных, что требует высокой скорости работы алгоритмов для своевременной обработки растущего массива. «Variety» – разнообразие этих данных, которые сейчас представлены не только и не столько классическими структурированными данными, но и голосом, фото, видео, и неструктурированными текстовыми данными.
На наших глазах появляется новая характеристика больших данных: «A» – availability, то есть их доступность, а также демократизация методов их обработки. Демократизация больших данных, позволяющая широкому кругу пользователей обрабатывать их, сегодня – один из главных трендов.
CNews: Какие тренды вы видите в демократизации использования больших данных для массовых бизнес-задач?
Дмитрий Гольцов: Основа повышения доступности больших данных – снижение «порога входа» для начала работы с ними. Пользователи получают все больше инструментов, которые снижают сложность работы с большими данными, иногда доводя ее до уровня использование Microsoft Excel. В результате, почти любой специалист на своем рабочем месте может использоватьэти данные как инструмент для обеспечения роста эффективности предприятия.
CNews: Может ли менеджер компании сегодня самостоятельно решать задачи, связанные с большими данными, или тут все же требуется профильный специалист или усилия профильного отдела?
Дмитрий Гольцов: Идеальный вариант, когда с большими данными работает владелец этих данных, который может правильно поставить бизнес-задачи – и сам же их решить, без привлечения дорогостоящих ИТ-специалистов, аналитиков, программистов и других знатоков.
Отделы маркетинга становятся способны оптимизировать ценовую политику предприятия, самостоятельно проводя ассоциативный анализ продуктовых корзин. Отделы кадров могут анализировать данные о структуре рынка труда – благо сейчас в РФ они носят открытый характер – исследовать уровень компетенций своих сотрудников, а по результатам составлять карты компетенций «идеальных сотрудников», которые позволяют формировать наиболее эффективную кадровую политику. Специалисты службы поддержки могут анализировать поступающие обращения клиентов, заблаговременно выявлять нарождающиеся тренды обращений и проактивно на них реагировать.
Пользователям нужны мощные, но простые в использовании инструменты для обработки и анализа больших данных. Для таких задач мы создали PolyAnalyst, который позволяет бизнес-пользователю, далекому от программирования, самостоятельно решать задачи из области больших данных. Мы даем прикладной инструмент – вполне понятный, с которым можно работать, опираясь в первую очередь на свою профессиональную экспертизу.
CNews: В чем особенность PolyAnalyst?
Дмитрий Гольцов: Мы видим существенный рост запросов на self-service инструменты. Наша команда сделала простую в работе систему, которая дает бизнес-пользователю возможность работать с данными практически на всех этапах. Замечу, что до 80% процедур работы с данными являются процессами предварительной подготовки данных – ETL (Extract, Transform, Load). До недавнего времени ETL нельзя было выполнять без знания основ программирования, хотя бы тех же SQL-запросов. Это было доступно только избранным. Сегодня же большинство процедур ETL можно проводить непосредственно в PolyAnalyst – мы «обернули» нужные функции в удобный графический интерфейс с привычными чекбоксами, выпадающими списками и т.д.
Система специализирована для работы с двумя типами данных: классическими структурированными и неструктурированными текстовыми. Для первого типа PolyAnalyst включает более 30 алгоритмов машинного обучения и статистического анализа, поддерживает использование популярных библиотек (SciKit Learn, XGBoost). Для работы с текстовой информацией у нас имеются одни из самых эффективных инструментов обработки данных на естественном языке.
CNews: Можете привести примеры применения?
Дмитрий Гольцов: У нас был интересный кейс, в котором мы обучали работе с PolyAnalyst команду юристов, перед которыми стояла задача автоматизации юридической экспертизы нешаблонных договоров. Через несколько дней обучения эти юристы уже самостоятельно начали создавать нужное им решение. На начальных этапах им потребовалась помощь наших аналитиков и экспертов в области данных, но очень скоро они продолжили работу самостоятельно. Мы были удивлены точности и лаконичности результатов работы системы, которую они построили практически самостоятельно.
Высока потребность в анализе неструктурированных текстовых документов со стороны других специалистов, например, занимающихся финансовым анализом и внутренним аудитом. Они тоже работают с «Большими данными»: это отчетная документация, это «первичка», это сотни excel-таблиц с тысячами строк каждая. С помощью нашей системы и своих экспертных знаний они могут выстраивать автоматизированные аналитические сценарии для высокопроизводительной обработки всей этой массы документации.
Как видно, для работы с нашей системой достаточно быть только специалистом в своей предметной области. Нужно хорошо понимать собственные данные и уметь ставить правильные бизнес-задачи: что должно получиться на выходе. Для проведения анализа в PolyAnalyst пользователю не требуется специальных знаний в области программирования, статистики, и т.п.
CNews: Нужно ли обучение пользователей?
Дмитрий Гольцов: Мы уделяем большое внимание методикам, позволяющим быстро вводить пользователя в тематику предварительной обработки и интеллектуального анализа данных. У нас есть специальный отдел, который занимается обучением пользователей. Эта команда разработала несколько типов программ, как базовых - для первичного обучения, так и ориентированных на подготовку более продвинутых пользователей. Длительность курсов составляет порядка 20-40 часов. Этот объем включает лекции, практику, а также домашние задания, и может включать сертификацию специалиста по PolyAnalyst. В соответствии с современным трендом обучение проводится в удаленном, интерактивном режиме, но доступны и очные форматы.
Высокий интерес к обучению наблюдается со стороны компаний, вузов и конечно госструктур. Хорошим примером является наше взаимодействие со Счетной палатой РФ. В течении трех лет Палата реализует комплексную программу подготовки специалистов по управлению данными, а частью этой программы является обучение инспекторов основам работы с PolyAnalyst. В ходе курса мы не просто обучаем работе с самой системой, мы также даем базовые компетенции в области очистки данных, инструментов статистического анализа, основ «машинного обучения» и даже NLP. В результате инспекторы самостоятельно разработали уже более ста аналитических решений, которые применяют для своих задач. Это сложные и важные задачи федерального уровня, среди которых, в частности, процедуры аудита отчетов об исполнении национальных проектов и поиска нарушений в обоснованиях расходов федерального бюджета.
CNews: Как происходит внедрение инструмента и сколько времени оно занимает в среднем?
Дмитрий Гольцов: Систему разворачивают как обычное приложение операционной системы, что занимает не больше часа. Система может работать без доступа к интернету, в закрытом контуре, что крайне важно для ряда заказчиков, которым актуален высокий уровень защиты информации.
Для доступа к данным у нас есть набор встроенных коннекторов, позволяющих загружать данные из множества форматов. Для удобства интеграции с внешними ИТ-системами, PolyAnalyst предоставляет собственный API. Если у нашего пользователя есть проприетарный источник, мы всегда готовы помочь в создании кастомного коннектора.
Требования к вычислительным ресурсам, необходимым для работы PolyAnalyst, определяются объемом данных заказчика, и количеством пользователей, которые будут одновременно работать в системе. Скажу, что недавно мы проводили тесты, в которых офисный компьютер со средней производительностью довольно «шустро» справился с задачей, где требовалось обработать свыше миллиарда строк.
CNews: Насколько инструмент востребован за пределами рублевой зоны – в ближнем/дальнем зарубежье?
Дмитрий Гольцов: PolyAnalyst располагает существенным экспортным потенциалом. Систему используют некоторые крупнейшие международные технологические, фармацевтические и финансовые компании. Мы активно продвигаем наш продукт в страны Ближнего Востока, Африки и юго-восточной Азии. Система актуальна на этих рынках, так как фирменные алгоритмы поддерживают работу с документами на 16 языках: 11 самых распространенных европейских, а также пять азиатских, причем китайских даже два. В экспорте будет широчайшее развитие!
CNews: Как идет развитие системы?
Дмитрий Гольцов: У нас каждый квартал выходит обновление платформы. Все силы мы бросаем на развитие наших продуктов, на наполнение их новыми функциями. Мы планируем расширение в плане добавления алгоритмов машинного обучения, причем способных работать как на кластерах CPU-машин, так и на кластерах GPU-ускорителей. Разумеется, особый акцент на модуле обработки текстовых данных на естественном языке, где наши алгоритмы являются одними из лучших в мире. Развиваем наш модуль распознавания OCR и BI-систему, расширяя возможности подготовки аналитических отчетов. В этом году при поддержке РФРИТ мы завершаем создание PolyAnalyst GRID, собственной кластерной low-code системы, которая позволит пользователям работать со сверхбольшими данными и проводить распределенные вычисления по технологии map reduce на кластере из десятков и сотен серверов.
■ erid:Pb3XmBtzsrLfgPxefjsVAtNbyFMQj5WtzP2aZnEРекламодатель: ООО Компания "Мегапьютер Интеллидженс"ИНН/ОГРН: 9718107268/1187746683519Сайт: https://www.megaputer.ru/