Анализ текстовой информации – ключ к повышению эффективности бизнеса. Обзор: Бизнес-аналитика и большие данные в России 2014

На страницу обзора

Обзор: Бизнес-аналитика и большие данные в России 2014

07 Августа 2014 15:23 07 Авг 2014 15:23

Анализ текстовой информации – ключ к повышению эффективности бизнеса

Данные о клиентах представляют для бизнеса огромный интерес. Компании получают конкурентное преимущество, если умеют обрабатывать эти ценные сведения. Информация, представленная в структурированном виде, анализируется давно и успешно, но поток неструктурированных данных – текстов, аудио, фото, видео, – неуклонно растет, и это является толчком для создания новых инструментов. Уже скоро у бизнеса появится возможность их использовать.

Сегодня многие организации, как в нашей стране, так и за рубежом, осознали пользу от внедрения аналитических инструментов для поддержки принятия решений. Аналитика позволяет монетизировать данные о поведении клиентов, вовремя выявлять угрозы для бизнеса и оперативно реагировать на них. Вместе с тем традиционная аналитика делает акцент на работу исключительно со структурированной числовой информацией и сравнительно небольшими выборками данных. Это приводит к тому, что в любой организации точность аналитических инструментов с годами достигает некоторого порога. Этот порог принципиально связан с небольшим объемом данных, используемых для построения аналитических моделей, поэтому его невозможно «перепрыгнуть», даже используя новые изощренные алгоритмы или меняя методику моделирования.

И все же существует по меньшей мере два выхода из ситуации. Первый из них – внедрение высокопроизводительной аналитики, позволяющей применять аналитические инструменты на всем доступном объеме данных с одновременным ускорением расчетов в десятки раз. В то же время этот подход по-прежнему ограничен работой лишь со структурированной информацией и предполагает определенную зрелость организации, так как требует наличия нетривиальной инфраструктуры для хранения и обработки данных.

Второй способ вывести аналитику на новый уровень точности – включение в анализ дополнительной неструктурированной текстовой информации, не использовавшейся ранее. Этот путь свободен от ограничений первого подхода и в силу ряда факторов является логичным шагом развития аналитических систем в любой компании.

Во-первых, сегодня источники текстовых данных во множестве присутствуют как внутри организаций (данные из колл-центров, архив e-mail, онлайн-опросы и анкеты), так и за и пределами (блоги и форумы, соцсети, поисковые запросы клиентов). Более того, во многих компаниях уже накоплены огромные массивы текстовых данных, и их анализ позволил бы получить ранее недоступные знания о клиентах: выявить спектр их интересов, в кратчайшие сроки отследить критичные события в их жизни, идентифицировать их проблемы и потребности. Во-вторых, мировой опыт говорит о том, что для работы с текстовой информацией не требуется ни кардинальной перестройки ИТ-инфраструктуры компании, ни найма узкопрофильных специалистов. В силу этих двух обстоятельств текстовая аналитика является естественным и безболезненным способом вывести системы принятия решений на уровень точности за счет анализа огромного пласта ранее не используемой информации.

Кому нужна текстовая аналитика

Стоит отметить, что проблемы с точностью традиционной аналитики не новы и существуют достаточно давно. Между тем, интерес к системам анализа текста на российском рынке появился сравнительно недавно. Чем это вызвано, какие процессы катализируют развитие аналитических инструментов? В каких отраслях и для каких задач нужна текстовая аналитика?

Сегодня такая потребность в первую очередь существует у банков, телеком-компаний и в госструктурах. Общим для этих организаций является наличие больших накопленных объемов текстовых данных, а также желание – осознанное или «спущенное сверху» регулятором – решить насущные бизнес-задачи.

Для банковской отрасли катализатором внедрения новых аналитических инструментов стали требования Центробанка по управлению рисками (оценке ликвидности, достаточности капитала и пр.), в основе которых лежат требования Базельского комитета (Базель II и Базель III). В конце июля 2014 г. Банк России опубликовал требования к процедурам оценки достаточности капитала, которые должны быть реализованы как на уровне банка, так и на уровне банковской группы к концу 2015 г. Речь идет, прежде всего, о банках, включенных в перечень системно значимых кредитных организаций. Если они не выполнят эти требования, то окажутся под угрозой закрытия. Серьезность намерений регулятора в этом вопросе не вызывает сомнений и подтверждается примером недавней волны отзыва лицензий у недобросовестных банков.

Текстовая аналитика в банках

Одно из наиболее востребованных в банковской среде применений текстовой аналитики – повышение точности скоринговых моделей и борьба с мошенничеством. Неструктурированные данные, которыми обладают банки, отличаются большим разнообразием: это и профили заемщиков из социальных сетей, и информация об их поведении в интернете, и разговоры с операторами контактного центра. Анализ этой информации по методологии Text Mining позволяет рассчитать степень соответствия интересов заемщика интересам всей популяции клиентов и обогатить аналитические модели новыми предикторами. С другой стороны, выделение точечных фактов о человеке (например, «религиозный фанатизм» или «недавняя свадьба») методами компьютерной лингвистики с последующим экспертным анализом помогает сделать вывод о благонадежности клиента еще до этапа кредитного скоринга. При этом эффект от включения обогащенных данных в процессы риск-менеджмента неизменно оказывается высоким. Например, по опыту SAS, включение дополнительных текстовых данных в процесс моделирования позволяет повысить точность моделей кредитного скоринга на 25%.

В свете этих обстоятельств задача повышения качества и точности оценки рисков за счет привлечения новых источников информации о заемщиках становится особенно актуальной. Именно поэтому извлечение ценных сведений из гигантских массивов неструктурированной текстовой информации становится вопросом выживания для кредитных организаций.

Текстовая аналитика нужна и мобильным операторам. Российский рынок сотовой связи сегодня находится в фазе насыщения. Клиентов, не обеспеченных связью, практически не осталось, а существующие предъявляют все более высокие требования к ассортименту и качеству услуг. При этом уровень оттока абонентов достигает 25–30% в год, а стоимость привлечения и развития нового клиента во много раз выше стоимости удержания существующего.

Ситуация усложнилась недавно вступившим в действие законом об отмене «мобильного рабства». Возможность смены оператора без смены номера устранила последнее серьезное препятствие на пути оттока, дав абонентам неограниченную свободу выбора. В этих условиях для операторов критически важно удерживать прибыльных клиентов как можно дольше, оперативно реагируя на тревожные признаки оттока. Обычно операторы используют косвенные признаки: динамику транзакций, количество звонков, социальный сегмент и т.п. Удержание же зачастую сводится к рассылке одинаковых бонусных предложений абонентам совершенно разного профиля, вызывая недовольство многих из них.

Между тем в руках сотовых компаний есть другие источники ценнейшей информации о клиентах, которые раньше попросту не анализировались. Это, например, данные о поведении обладателей смартфонов в интернете, переведенные в текст записи разговоров абонентов с операторами колл-центров и пр. Анализ этих данных методами углубленной текстовой аналитики позволяет не только выявить «отточников», но и понять причины их недовольства, а также выбрать наиболее эффективное маркетинговое «лекарство» для каждого из них.

Не менее важно применение текстовой аналитики и в госструктурах. Например, сегодня принимается множество законов, и эффективность некоторых из них не очевидна для государства. При этом обратную связь от граждан на последствия введения этих законов (а также на действия тех или иных чиновников) получить по-прежнему затруднительно. Между тем люди активно обсуждают свои опасения и насущные вопросы на форумах, в блогах и соцсетях. С помощью инструментов текстовой аналитики государственные органы могли бы буквально «услышать» голос народа. Это поможет оценить отношение людей к конкретным законам, персонам и организациям, идентифицировать и оперативно направлять на доработку проблемные законы и решения, отслеживать тревожные сигналы нарастания социальной напряженности и многое другое.

Разумеется, идея автоматизированного анализа текстовой информации не нова. Первые случаи использования текстовой аналитики зафиксированы еще в Средние века, когда подсчет запрещенных слов применялся инквизицией для доказательства «еретичности» трактатов. Однако настоящее развитие и новый этап в обработке текстов относятся к 30-м гг. прошлого столетия, когда с началом эры вычислительных машин и расцветом теоретических методов анализа человеческого языка получило развитие одно из ключевых направлений современной текстовой аналитики – компьютерная лингвистика. Чуть позже, в 80-е гг. XX века, получил развитие Text Mining – альтернативный подход к извлечению знаний из больших коллекций документов, основанный на статистических методах. Он позволяет, например, автоматически группировать похожие тексты или выявлять наиболее важные темы в огромных коллекциях документов. При этом Text Mining работает не с «сырым» текстом, а с его числовым представлением, что позволяет напрямую интегрировать результаты анализа в процессы предиктивного моделирования.

Сегодня компьютерная лингвистика и Text Mining являются основными подходами к анализу текстовой информации. Однако для получения твердого экономического эффекта от анализа текста в рамках систем принятия решений недостаточно лишь наличия нужных алгоритмов: не менее важно иметь промышленные инструменты и проработанную методологию их применения. Именно поэтому все большее число компаний проявляет интерес к специализированным системам текстовой аналитики, делающим анализ огромных массивов текстовых данных быстрым, надежным и систематизированным.

Инструменты и способы анализа текстовой информации

Сегодня требования к функционалу систем текстовой аналитики диктуют не столько последние достижения науки, сколько потребности компаний, которые ими пользуются. При этом первоочередной интерес любой организации – максимально быстрое получение экономического эффекта от внедрения новых технологий. Эти факторы привели к появлению на рынке систем текстовой аналитики большого количества узкоспециализированных пакетов, работающих в парадигме «большой красной кнопки». Однако мировой опыт показывает, что компании со временем подключают к анализу все больше и больше текстовых данных, и при таком сценарии инструменты, заточенные на быстрое решение точечных бизнес-задач, приходится постоянно дорабатывать и дополнять сторонними модулями. Все это приводит к чрезмерно высокой стоимости владения узкоспециализированными системами текстовой аналитики.

Именно поэтому сегодняшний глобальный тренд переместился в сторону создания универсальных систем, позволяющих решать произвольные бизнес-задачи. В то же время, как подсказывает опыт компании SAS, решение любой бизнес-задачи в области анализа текста трансформируется в одну из трех типовых технических задач: статистический анализ текста, категоризацию и извлечение фактов, а также оценку эмоциональной окраски. Именно таким является пакет SAS Text Analytics. Понять, как приведенные требования к универсальности системы текстовой аналитики трансформируются в функционал конкретных инструментов, можно на примере данного решения.

Типовой инструментарий системы текстовой аналитики на примере пакета SAS Text Analytics

Источник: SAS, 2014

В состав пакета входят три программных продукта: SAS Text Miner, SAS Content Categorization и SAS Sentiment Analysis, каждый из которых был разработан для решения одной из указанных типовых технических задач. Например, SAS Text Miner предназначен для статистического анализа больших коллекций документов. Позволяя переводить неструктурированный текст в структурированное числовое описание по методологии Text Mining, он служит связующим звеном между компьютерной лингвистикой и инструментами Data Mining. В список решаемых инструментом задач входят частотный анализ терминов в коллекции документов, выделение наиболее значимых слов, автоматическое извлечение наиболее важных тем, кластеризация документов на основе сходства их содержания, построение текстовых правил для категоризации.

Текстовая аналитика в российских банках

Интересный случай применения текстовой аналитики, проверяемый сейчас в одном из крупных российских банков, – оптимизация работы коллекш-центра за счет подбора стратегии взаимодействия с должниками с учетом понимания склада характера. Логика здесь проста: поведенческая реакция у людей разная; на кого-то из клиентов стоит надавить, а кому-то достаточно настойчивого мягкого убеждения. Однако характер человека практически невозможно оценить лишь на основе сведений из анкет и данных по банковским транзакциям. Здесь на помощь приходят инструменты текстовой аналитики, позволяющие обогатить представление о должнике на базе данных из соцсетей и переведенных в текст разговоров из колл-центров. Выявленные путем анализа текста черты личности должников используются для их группировки по складу характера, причем для каждой группы разрабатывается своя стратегия коммуникации. Ожидается, что данный подход не только увеличит экономическую отдачу от работы коллекш-центра банка, но и позволит раньше распознать потенциально безнадежных заемщиков для последующей их передачи в коллекторские агентства.

Другой элемент пакета – SAS Content Categorization – позволяет решать задачу построения правила для категоризации документов и извлечения из них нечетко описанных сущностей (объектов и фактов). При этом нечеткость выражения идей в свободном тексте приводит к тому, что их идентификация становится невозможна силами одних лишь простых регулярных выражений. Именно поэтому набор доступных в SAS Content Categorization правил, помимо регулярных выражений, включает в себя широкий спектр морфологических, ситуационных и логических операторов.

Последний элемент пакета SAS Text Analytics – продукт SAS Sentiment Analysis – предназначен для исследования мнений и оценок. Данный инструмент нацелен на выделение из текста терминов и оборотов, наиболее сильно подчеркивающих определенное эмоциональное отношение автора к заранее определенным объектам. При этом объекты идентифицируются с помощью набора лингвистических правил по аналогии с SAS Content Categorization, а шкала эмоций может состоять не только из «позитива» и «негатива», но и из промежуточных пунктов. Сами правила оценки эмоциональной окраски могут строиться как полностью автоматически, так и с помощью экспертных лингвистических правил. Помимо этих стандартных возможностей, SAS Sentiment Analysis позволяет одновременно использовать и статистическую модель, и построенные вручную лингвистические правила (так называемый гибридный подход). Мировой опыт говорит о том, что наивысшей точности оценки эмоциональной окраски текста можно добиться комбинацией этих двух методик. В целом именно специализация и функционал инструментов определяют возможности аналитика по обработке текстовых данных. Однако мало лишь обладать ими, важно иметь методологию их применения на различных видах текстовых данных. Она служит своеобразным «клеем» для инструментов, аналитиков и отраслевых экспертов, который превращает слабо связанный набор алгоритмов в промышленную систему анализа текстовой информации.

Методология применения инструментов текстовой аналитики в существенной степени зависит и от источников текстовых данных. Каждый из них требует индивидуального подхода к анализу: например, текст из соцсетей и с новостных сайтов несет в себе совершенно разную информацию, и поэтому для каждого из этих источников необходимо составить свой словарь синонимов, построить свой стоп-лист, задать свой набор правил для оценки эмоциональной окраски.

От отдельных инструментов к системе

Для максимизации отдачи от дополнительной текстовой информации система текстовой аналитики должна проводить пользователя по определенным шагам анализа. К такому мнению пришли в компании SAS, исследуя результаты большого количества проведенных пилотных проектов с совершенно различными типами данных. Это понимание со временем трансформировалось в типовую функциональную архитектуру системы текстовой аналитики, которая отражает методологию совместного применения различных инструментов к анализу текстовой данных. Архитектура является достаточно универсальной и неоднократно доказала свою эффективность на проектах SAS по всему миру.

Типовая функциональная архитектура системы текстовой аналитики

Источник: SAS, 2014

Согласно приведенной схеме, любой анализ текстовых данных начинается с составления реестра имеющихся неструктурированных и структурированных данных, и эта процедура важна по нескольким причинам. Во-первых, она позволяет отличить истинно неструктурированную текстовую информацию от структурированной. Так, например, пол клиента в аналитических таблицах практически всегда задается как «Мужской»/ «Женский». Несмотря на текстовое описание, этот параметр по своей природе принимает небольшое число различных значений, а потому он хорошо структурирован и должен анализироваться стандартными методами Data Mining. Во-вторых, некоторые структурированные переменные, не анализируемые системой текстовой аналитики напрямую, важны для косвенного «дирижирования» процессом анализа. К примеру, анализ текста из социальных профилей заемщиков с учетом знания их долгового статуса позволяет выявить особые «тонкие» интересы «плохих» клиентов.

Следующий шаг – разведочный статистический анализ текста по методологии Text Mining. Этот шаг экономит эксперту-аналитику массу времени, позволяя в кратчайшие сроки сориентироваться в массе неструктурированной информации, выявить определяющие тренды и закономерности в потоке текстовой информации, нащупать перспективные направления дальнейшей лингвистической или углубленной статистической обработки.

Текстовая аналитика в госсекторе

В государственном секторе объемы данных, как правило, больше, чем в коммерческих организациях, а задачи еще более разнообразны. Примером одной из наиболее интересных задач, с которой столкнулась компания SAS в России, – построение ценовых моделей недвижимости в Москве. С их помощью администрация мегаполиса может оптимальным образом планировать застройку очередного района недвижимостью так, чтобы максимизировать и прибыль для городского бюджета, и удовлетворенность общества инфраструктурой. Как же здесь может помочь текстовая аналитика? Оказывается, ценовые модели строятся на данных с сайтов о продаже недвижимости, где каждое объявление состоит как из структурированной части (площадь, этаж), так и из дополнительных комментариев в свободной форме от риэлторов. Зачастую в них указаны важные точечные факты об объектах, напрямую влияющие на их цены (например, наличие подземной парковки), и их может выявить только контекстно-семантический анализ текста.

По итогам разведочного исследования формируется план углубленного анализа текстовых данных. На этом шаге система текстовой аналитики извлекает ценную структурированную информацию из массива неструктурированных данных и обогащает ей входную аналитическую витрину. При этом все подходы добычи полезного «экстракта» информации, как и прежде, сводятся к трем чисто техническим задачам.

Первая из них – категоризации документов и поиск в них так называемых сущностей (объектов, фактов, событий). Обе подзадачи решаются путем написания специальных правил, которые проверяют документ на наличие нечетко выраженных идей. Сами правила строятся на базе атомарных синтаксических, морфологических и ситуационных операторов, в совокупности способных описать нечеткие текстовые конструкции любой степени сложности (например, документ может быть отнесен к категории «политика», если в нем присутствует не менее 2-х абзацев со словом «президент» и любые его формы и синонимы суммарно употребляются не менее 5 раз). По итогам обработки документов, исходная витрина данных обогащается новыми признаками, которые отражают факт принадлежности документа определенной категории или же факт обнаружения в нем той или иной сущности.

Вторая задача – обогащение начальной аналитической витрины характеристиками, полученными путем углубленного статистического анализа текста по методологии Text Mining. При этом в процессе решения задачи документы переводятся из текстового представления в числовое с тем, чтобы весь дальнейший анализ проводить методами статистики и машинного обучения. Для этого все документы разбиваются на отдельные термины. Каждый из них представляется в виде числового вектора, отдельным элементом которого является количество вхождений конкретного термина в данный документ. Целями углубленного статистического анализа текста является разбиение коллекции документов на детальные кластеры, автоматическое выделение наиболее важных тем и подтем, построение правил категоризации документов и т.д. Например, при анализе поисковых запросов клиентов компании в интернете можно построить профили их интересов. Эта задача решается в два шага: сначала выявляются наиболее важные темы, затрагиваемые клиентами при написании запросов, затем рассчитываются степени соответствия интересов конкретного клиента выявленным тематикам. В дальнейшем результаты решения этой задачи могут использоваться, например, в CRM – скажем, для таргетирования маркетинговых предложений только людям с наиболее релевантными интересами.

Степан Ванин, эксперт по аналитическим решениям, компания SAS Россия/СНГ

Наконец, третья группа задач по извлечению полезной информации из документов фокусируется на оценке эмоциональной окраски текста, известной также как Sentiment Analysis. Разумеется, мнения и эмоции высказываются лишь по отношению к каким-либо объектам или событиям. Поэтому, прежде чем установить отношение автора к определенным сущностям, их сначала нужно обнаружить. Задача решается лингвистическими методами анализа текста, с которыми Sentiment Analysis тесно связан. И вот лингвистические правила для выделения сущностей построены. Как понять отношение автора текста к конкретной политической фигуре, банку или событию? Какие слова и обороты речи подчеркивают благосклонность, какие – негодование, а какие – безразличие?

Ответы, как правило, можно получить одним из двух способов: статистическим построением правил или так называемым Rule-Based методом. При статистическом подходе система текстовой аналитики автоматически обучается отличать документы с разной эмоциональной окраской на основе выборки, вручную размеченной экспертом. Построенные правила Sentiment Analysis не идеальны с точки зрения точности и полноты, но требуют минимума усилий со стороны аналитика. Rule-Based подход, напротив, делает акцент исключительно на ручном построении правил. Этот процесс не так быстр, как статистический анализ, однако дает эксперту-аналитику большую гибкость для выявления в тексте тонких настроений. Мировой опыт SAS говорит о том, что наилучшей практикой Sentiment Analysis является разумная комбинация двух подходов: статистический анализатор строит предварительные правила, а после этого они дорабатываются вручную в соответствии с методологией Rule-Based подхода.

Но построить правила недостаточно. Важно подобрать метод их комбинации. Предположим, строятся лингвистические правила, которые определяют отношение человека к конкретной модели холодильника на интернет-форуме производителя бытовой техники. С помощью системы текстовой аналитики было выявлено, что фраза «ужасная сборка» подчеркивают негативное отношение автора к изделию, а фраза «отличная морозилка» – позитивное. На вход системы поступает комментарий очередного клиента компании. Если в комментарии речь идет о холодильнике и была упомянута лишь «ужасная сборка» или лишь «отличная морозилка», то эмоциональная окраска сообщения не вызывает сомнений. Но как быть, если в процессе анализа комментария сработали оба правила? Как оценить их суммарное влияние на отношение человека к продукту? Для этого в инструментах Sentiment Analysis должны быть предусмотрены механизмы комбинации правил, учитывающие частоту их использования правил в документе, их позиции и т.п. Именно они делают процесс оценки эмоциональной окраски похожим на ход мыслей человека.

По итогам углубленного анализа текста на его выходе аналитик получает витрину данных, обогащенную новыми характеристиками. При этом, как правило, новых признаков значительно больше, чем начальных, поэтому по результатам работы системы текстовой аналитики важно оценить полезность полученных характеристик для решения конкретной задачи, а в некоторых случаях даже скорректировать ее постановку.

Что можно делать с обогащенными данными?

Итак, получен обогащенный новыми структурированными характеристиками набор данных. Какие задачи наиболее часто решаются с его применением?

Текстовая аналитика в администрации Лондона

Можно получить ощутимый эффект от огромных массивов текстовой информации в госсекторе за счет анализа потока жалоб и обращений граждан через интернет-форумы и контактные центры госструктур. Например, используя систему текстовой аналитики SAS, администрация Лондона смогла оптимизировать маршруты полицейских патрулей в криминогенных районах города путем анализа предмета и времени разговоров жертв преступников с операторами контактного центра. Эти меры позволили уже в течение следующего года сократить количество преступлений в указанных районах на 16%.

Во-первых, Ad-hoc анализ, нацеленный на разовое улучшение экспертного понимания целевой аудитории и принятие стратегических бизнес-решений. Ключевая особенность таких задач – уникальность проводимого анализа. Например, производитель электроники может оперативно отреагировать на дефекты вновь вышедшего продукта, собрав и проанализировав отзывы о нем с форумов интернет-магазинов электроники.

Со временем базовый Ad-hoc анализ может развиться в задачи регламентного мониторинга источников текстовых данных. Понимание динамики поведения целевой аудитории, эволюции ее интересов и мнений позволяет оперативно спланировать ответную реакцию на возникающие тревожные тенденции и вовремя обернуть ситуацию в свою пользу. Хороший пример подобной задачи – мониторинг интернет-ресурсов органами государственной безопасности для предотвращения организованных преступных действий. Вспомним хотя бы события годовой давности в московском Бирюлево: их вполне можно было бы предупредить путем анализа потока комментариев из соцсетей и организации превентивного патрулирования района полицией.

Третий по сложности уровень использования обогащенных данных – создание новых или улучшение существующих предиктивных аналитических моделей. И это именно та область, где текстовая аналитика и Data Mining тесно переплетаются, позволяя выявлять скрытые в текстах закономерности для прогнозирования будущего. Один из примеров такой задачи, наиболее проработанных в SAS, – повышение точности моделей кредитного скоринга или моделей вторичных продаж путем включения выявленных текстовой аналитикой интересов клиентов в процесс построения аналитических моделей. Наконец, наиболее продвинутый уровень использования обогащенных данных – применение их в отраслевых аналитических решениях. Фреймворки для борьбы с мошенничеством или управления маркетинговыми кампаниями объединяют множество источников данных и аналитических инструментов в рамках небольшого числа бизнес-процессов компании. Они позволяют использовать дополнительную текстовую информацию одновременно со стороны Ad-hoc задач и предиктивного моделирования. Именно такая синергия дает возможность извлечь из текстовых данных абсолютный максимум пользы для организации.

Подводные камни: практика

Функционал системы текстовой аналитики не всегда играет главную роль в принятии решения о ее внедрении. Зачастую компаниям не менее важно, насколько хорошо впишется новый инструментарий в существующие реалии работы организации и стратегические планы ее развития. По опыту SAS, существует, по меньшей мере, 4 фактора, серьезно влияющих на выбор системы анализа текстовой информации. Во-первых, система текстовой аналитики должна безболезненно интегрироваться с ИТ-инфраструктурой в виде корпоративных хранилищ данных и аналитического ПО. Во-вторых, в связи с постоянным ростом объемов текстовой информации, от системы требуется хорошая масштабируемость по производительности. В-третьих, при современной тенденции переноса части бизнеса в интернет критически важно уметь обрабатывать текстовые данные в режиме реального времени. Наконец, имеющиеся в компании бизнес-процессы не должны нарушаться вследствие внедрения системы текстовой аналитики.

Текстовая аналитика в телекоме

Анализ текстовой информации о клиентах позволяет делать глубокие выводы в телекоме. Например, бельгийская компания ZapFi, позиционирующая себя в качестве пионера в области Intelligent Mobile Marketing, нашла оригинальный путь монетизации дополнительных текстовых данных о клиентах. Обладая разветвленной сетью Wi-Fi точек на вокзалах и в развлекательных центрах по всей Европе, компания предоставляет посетителям бесплатный доступ в интернет в обмен на периодический просмотр рекламных объявлений от своих клиентов – близлежащих торговых точек. Система текстовой аналитики SAS позволяет проанализировать содержимое web-страниц, которые просматривает очередной посетитель, выявить его долговременные и красткосрочные интересы и подобрать для него наиболее релевантное маркетинговое предложение.

Если перенести взгляд с инструментария на источники данных, то и здесь не все так однозначно. Оказывается, перед проработкой бизнес-кейсов, связанных с монетизацией текстовых данных, важно составить представление о так называемом data landscape, то есть о том, где и на каких условиях можно добыть неструктурированную информацию.

Во-первых, все текстовые данные делятся на внутренние (те, что формируются по итогам операционной деятельности организации, например транскрипты разговоров из колл-центра) и внешние (те, что разумнее получать у внешних провайдеров, например данные их соцсетей). Внутренние текстовые данные, как правило, более доступны компаниям, однако зачастую они полуструктурированы, и эффект от их анализа методами компьютерной лингвистики и Text Mining невелик. В то же время внешние текстовые данные отличаются значительно большим разнообразием и информативностью.

Помимо этого, существует принципиальное философское отличие между внутренними и внешними текстовыми данными. С одной стороны, внутренние данные накапливаются по итогам коммуникации компании и клиента, причем последний всегда корректирует свое поведение так, чтобы выглядеть в глазах организации в лучшем свете. Внешние данные, напротив, накапливаются по итогам действий клиента в те моменты, когда он даже не задумывается о наблюдении за своей персоной. Это обстоятельство позволяет сильнее обогатить представление компании о клиенте, получив его истинный профиль интересов или оценку текущего финансового состояния.

Несмотря на эти привлекательные черты внешних данных, при работе с ними надо учитывать ряд тонких моментов. Во-первых, это сопоставление данных из внешних источников с внутренними записями о клиентах организации. Далеко не всегда во внешних источниках можно найти информацию о человеке и, даже если она найдена, не всегда легко однозначно сопоставить конкретного клиента и полученные текстовые данные. Например, не стоит ожидать 100%-ной точности обнаружения клиентов в социальных сетях VK или Facebook: часть клиентов просто не пользуется интернетом, а часть создает фальшивые аккаунты. По опыту компании SAS и ее партнеров, даже 50%-ная точность идентификации клиента в соцсетях является очень хорошим результатом, и именно от этой цифры стоит отталкиваться при проработке бизнес-кейсов. Другой важный аспект работы с внешними данными – стоимость их получения и стабильность поставок. Возможно, для решения задачи нужны не все данные по профилю клиента из соцсетей, а только описание его интересов? Обойдется ли такой сокращенный вариант дешевле и на сколько? Сможет ли провайдер гарантировать тот же состав и качество информации, что и на пилотном проекте? Более того, если провайдер не является владельцем данных, а лишь предоставляет к ним интерфейс (например, именно так обстоит ситуация с соцсетями), готов ли он отстаивать интересы заказчика перед владельцем?

Разумеется, подобные вопросы – лишь вершина айсберга всех тонкостей организации работы с данными. Однако они должны быть решены в первую очередь, на самой ранней стадии проекта по внедрению системы текстовой аналитики.

Взгляд в будущее

Сегодня уже с уверенностью можно сказать, что применение программ текстовой аналитики будет выгодно как компаниям, так и клиентам: компании получат более надежных клиентов, а клиенты – персонализированные предложения. Молодые семьи смогут рассчитывать на более выгодные условия по ипотеке, а пожилые люди – на пенсионные вклады. Со временем отпадет потребность и в операторах колл-центров или онлайн-консультантах (или как минимум позволит снять с них основную нагрузку). Благодаря текстовой аналитике компьютер научится общаться с человеком, понимая его потребности, анализируя его вопросы и выдавая релевантные ответы. Важная роль текстовой аналитики отводится и в обеспечении безопасности с учетом, что подозрительная активность начинается и распространяется в социальных сетях. Разработки в области программ автоматического реферирования избавят от необходимости просматривать большие тексты в поисках нужной информации, а новостным компаниям позволит в режиме реального времени узнавать о самых важных новостях.

Если же говорить об инструментах анализа неструктурированных данных еще шире, то вполне вероятно, что в скором времени углубленный анализ фотоизображений и составление трехмерного портрета лица сделает возможным составление уникального цифрового «отпечатка» лица клиента. Это позволит банкам, например, проверять личность человека с помощью камер, встроенных в банкоматы, и таким образом существенно повысить эффективность борьбы мошенниками при попытках использования украденных пластиковых карточек.

Автор статьи выражает благодарность Ксении Кузиной, специалисту по решениям текстовой аналитики SAS

Степан Ванин, эксперт по аналитическим решениям, компания SAS Россия/СНГ

Подписаться на новости

№	Название	Выручка по направлению BI, 2013, тыс. руб.(с НДС)
1	Прогноз	4 549 800
2	AT Consulting	1 226 055
3	Softline	1 157 713

№	Название	Выручка по направлению BI, 2013, тыс. руб.(с НДС)
1	Прогноз	4 549 800
2	IBS *	1 523 000
3	AT Consulting	1 226 055

№	Название	Выручка по направлению BI, 2013, тыс. руб.(с НДС)
1	Прогноз	4 549 800
2	IBS *	1 523 000
3	AT Consulting	1 226 055