Спецпроекты

Новые задачи вынуждают ECM анализировать большие данные

Новые задачи вынуждают ECM анализировать большие данные

Большие данные используются сейчас во многих отраслях: СМИ, медицина, бизнес, спорт, госсектор, наука. Чем больше в компании бизнес-процессов, тем сложнее управлять все возрастающим количеством документов при помощи существующих корпоративных систем управления контентом. Но для перехода к системам анализа больших данных надо определить, что такое большие данные и где проходит граница, за которой работать при помощи существующих ECM-систем невозможно.

Что такое большие данные c позиции современных корпоративных систем и информационных технологий? Это серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объемов, значительного многообразия и непрерывного прироста. Целью обработки больших данных является получение информации, которой уже сможет оперировать человек.

В качестве определяющих характеристик для больших данных отмечают «три V»: объем (англ. volume – величина физического объема), скорость (англ. velocity – скорость прироста и необходимость высокоскоростной обработки и получения результатов), многообразие (англ. variety – разнообразие данных и возможность их одновременной обработки).

Большие данные стали значительно актуальнее, чем привычки думать, но терминология в России еще не прижилась. Например, в СМИ с большими данными связаны оценка интересов пользователей, отслеживание социальной активности, количество перепостов, автоматическая подготовка дайджестов и даже новостей. В медицине большие данные накапливаются за счет использования электронных медицинских карт, нательных датчиков, данных со стационарных медицинских приборов. При анализе огромных объемов информации становится возможным прогнозирование эпидемий. В науке такие подходы актуальны в метрологии, геологии, метеорологии, астрономии. Спортивный менеджмент завязан на больших данных; за счет анализа больших объемов информации осуществляется прогноз продажи билетов, расчет букмекерских коэффициентов.

Большие данные в корпоративных системах

Но это в повседневной жизни. Отдельно стоит разобраться в том, что происходит на уровне корпоративных систем, в частности систем управления корпоративным контентом – ECM. Динамика прироста данных выше, чем динамика прироста пользователей системы. Сотрудники компании активнее используют ECM-систему, инициируется больше бизнес-процессов, как связанных с классическим делопроизводством (входящие, исходящие, организационно-распорядительные документы), так и лежащих за его пределами: работа с договорами, счетами, финансовым архивом, межкорпоративное взаимодействие. Как раз неклассические задачи и придали большой рывок.

Число пользователей системы

chislo_polzovatelej.png

Источник: Directum, 2014

Удельный объем данных на одного сотрудника все возрастает, как и их разнообразие. При этом рано или поздно должен наступить момент, когда люди перестанут справляться с информацией, потонут в ней. Чтобы разобраться, есть ли тут большие данные, надо разделить все бизнес-задачи на классические и неклассические. Под первыми подразумевается работа с ОРД, входящими и исходящими документами, несложными бизнес-процессами – с ними проще разобраться. Неклассические – это обработка счетов за оплату, ведение финансового архива, обработка обращений населения, кредитные заявки и прочее – зачастую именно они связаны с взрывным ростом объема данных.

Число накопленных в системе документов

chislo_dokumentov.png

Источник: Directum, 2014

В крупной компании с одновременной работой в ECM-системе 1000 пользователей и динамикой роста подключений до 3000 до конца года даже в рамках решения классических задач за год в системе инициируются миллионы бизнес-процессов, появляются миллионы документов и РКК. Это гигабайты информации.

День Месяц Год
Пользователи 1000 1200 3000
Регистрационно-контрольные карточки (РКК) 5400 130 000 3 888 000
Документы 5500 132 000 3 960 000
Процессы 8400 202 000 6 048 000

Источник: Directum, 2014

При таких объемах классических задач документооборота и начинается работа с большими данными. При этом крайне важно обеспечивать масштабируемость, возможность получения статистики и анализа работы в режиме реального времени.

Неклассические задачи и взрывной рост данных

Различные неклассические задачи могут быть в госсекторе, банках, ритейле. Например, в рамках реализации пилотного проекта в одном субъекте РФ по переводу государственных и муниципальных услуг в электронный вид, было замерено, что из регионального органа в федеральный центр поступает 270 тыс. обращений в год. Одновременно внутри региона генерируется 70 тыс. обращений. И это только пилотный проект на первом десятке госуслуг, потом объем может до миллионов обращений. А если взять во внимание все субъекты РФ, то объем увеличится до сотен миллионов обращений в год.

В потенциале МФЦ должен обрабатывать до 50 тыс. документов в день или 12 млн в год. Объем документов составит более 100 гигабайт в день или 25 терабайт в год. Это колоссальное количество передаваемой информации. Все эти данные надо хранить и обрабатывать при новых запросах граждан.

В банки ежедневно может поступать до 10 тыс. обращений с заявками на потребительские кредиты. Только приемом таких заявок в едином центре будут заниматься 200 сотрудников. А после приемки заявки необходимо обработать, провести через кредитный комитет и вынести по ним решения о выдаче кредита. Оптимально, если одна заявка будет обрабатываться не в течение нескольких дней, а за час. Если для автоматизации принятия решения существуют специальные информационные системы, то в области ввода и первоначальной обработки информации ИТ-решения только-только начинают использоваться.

Через крупные торговые сети ежемесячно проходит до 100 тыс. бумажных счетов. Все счета, как правило, обрабатываются в корпоративном центре. Одной из важных задач ритейлеры ставят переход на электронное взаимодействие с контрагентами, потому что уже сейчас текущие объемы данных ставят в тупик бухгалтерию при необходимости быстро сформировать подборку документов для встречной или камеральной проверки. Серьезной проблемой становится также поиск площадей для хранения документов. А с переходом на электронное взаимодействие при интеграции с EDI количество документов вырастет еще больше за счет появления сопроводительной электронной договорной документации.

Большие массивы данных в ECM-системах накапливаются и обрабатываются уже сейчас – это документы, бизнес-процессы, записи справочников, история, права доступа и т.д. Помимо их хранения, необходимо управление, проведение анализа и поиск новых путей повышения производительности работы. Если с отчетностью все более или менее понятно, то поиск гипотез о поведении пользователей, вопросы повышения эффективности бизнес-процессов ставят перед ECM-системами и их потребителями новые задачи. Можно говорить, что ECM-системы переходят из разряда только накапливающих записи (Records System) в разряд систем, способных помочь в анализе (Business Intelligence) и даже вовлечении (Engagement Systems).

Анализ данных и вовлечение сотрудников

Современные корпоративные системы способны предоставить различные механизмы по анализу данных. Развитие интеллекта в стандартном ПО поставлено на поток. Речь идет и об отчетах, и об анализе в режиме реального времени на контрольной панели. Можно оценивать частоту работы с документами в системе для автоматического принятия решений о переносе их в архив, смене прав доступа или даже для формирования подборок подходящих для определенного круга сотрудников документов для текущей работы.

Число обращений к документу, описывающему технологии и процессы

chislo_obrashchenij.png

Источник: Directum, 2014

В период появления документа большое количество сотрудников массово его просматривали. С течением времени поток обращений снизился и зафиксировался на уровне только новичков (т.к. базовым технологиям текущие сотрудники уже привыкли следовать). На основе такой статистики система сама может сделать вывод о необходимости переноса документа в архивное хранилище, а также включение его в список обязательных документов для всех новичков.

Существует так называемый профиль загрузки сотрудников. Система сама может оценить профиль загрузки сотрудника, в том числе статистику работы с документами и выполнения заданий, может посылать сигналы о необходимости гармонизации загрузки, перераспределения процессов на коллег.

Статистика о работах и загрузке сотрудника в ECM-системе

statistika_esm.png

Источник: Directum, 2014

Система может понять, что в 2009 г. сотрудник перешел на руководящую должность, отметив, что его профиль работы сменился, что он стал выполнять больше «быстрых» заданий, вероятно, больше делегировать. Процент просроченных остался неизменным, но с учетом роста количества задач, количество просроченных стало угрожающим. Вероятно, отследив это средствами системы, стоит сигнализировать о факте роста просроченных заданий.

«Цифровой след» сотрудника

Также интересным с позиции больших данных является отслеживание «цифрового следа» сотрудника, оставленного при работе с различными массивами данных, взаимодействии с коллегами, прочей рабочей активности. На основе «цифрового следа» могут выявляться поведенческие гипотезы, которые позволят повысить удобство взаимодействия с системой, окружением (другими системами, коллегами). В результате можно выйти на уровень вовлечения сотрудника к работе в системе (Engagement System) и, тем самым, повысить общую эффективность.

Внедрение в корпоративное окружение элементов игры может стать инструментом анализа поведения пользователей, стимулирования правильного использования функций системы и глубокого их изучения, следования технологиям компании и повышения эффективности. Внедренные элементы подтвердили предположения о том, что новый подход становится стимулом для сотрудников. Также выявился неожиданный факт, что основными участниками становятся не молодые сотрудники, а опытные, в возрасте за 30 лет, а также топ-менеджмент, который нашел в игрофикации новый элемент поиска активных сотрудников и оценки их эффективности.

Процент сотрудников, отметивших конкретные плюсы игрофикации

sotrudniki_igrofikatsiya.png

Источник: Directum, 2014

Другим механизмом вовлечения может стать пересмотр принципов работы сотрудников в корпоративных системах – от контента к взаимодействую внутри рабочих групп. Формирование кругов по интересам (отделы, крупные проекты, рабочие группы, профессиональные клубы и гильдии), получение информации от таких социальных групп, формирование профессиональных дайджестов, внутренних чатов – все это инструменты, которые могут помочь в вовлечении сотрудников и повышении эффективности их работы.

Поиски закономерностей внутри работы плотно взаимодействующих групп, быстрая передача им полномочий и информации, закрепление результата, неформальная субординация, принципы хранения и использования данных – все это становится возможным при включении социальных механизмов в корпоративную среду. Если речь идет о крупной компании, имеющей в штате тысячи сотрудников, накопление корпоративной статистики и ее анализ непосредственно связаны с большими данными.

Где проходит граница больших данных в ECM?

Потребности в глубоком анализе слабоструктурированных данных и поиске новых гипотез требуют все большего и большего массива данных, а накапливаются они в ходе работы сотрудников. Современные аппаратные средства помогают обеспечить дешевое хранение. Формируется привычка постоянного накопления корпоративной информации. В том числе за счет этих факторов ECM-системы начинают занимать в компаниях инфраструктурный уровень.

Но надо найти границу возможностей текущих корпоративных средств, преодолеть которую вполне возможно за счет роста разнообразия и объемов данных. Для оценки системы используются три базовых элемента: количество пользователей, разнообразие и объем процессов и история работы в ECM-системе.

Граница больших данных в ECM

granitsa_big_data.png

Источник: Directum, 2014

До тех пор, пока компания находится в треугольнике до 1 тыс. пользователей, до 100 тыс. экземпляров запущенных процессов и с историей работы менее 10 лет, данные можно достаточно быстро анализировать средствами текущих корпоративных систем. Но позже придется столкнуться с большими данными, что заставит изменить подходы и средства работы с информацией.

При приближении к границам треугольника желательно задуматься о применение механизмов хранения и обработки больших данных, таких как масштабируемость и отказоустойчивость, возможности применения технологий inMemory, CEP, Data Mining. Необходимо оценивать объемы, разнообразие, скорость прироста и оперативность анализа данных. Если компания ожидает взрывного роста данных, нужно серьезно отнестись к поддержке механизмов их обработки.

Василий Бабинцев

Вернуться на главную страницу обзора