oбзор

Обзор: Рынок BI в России 2013

Текстовая аналитика полезна для маркетинга и обеспечения безопасности

Текстовая аналитика полезна для маркетинга и обеспечения безопасности

Количество данных, накапливаемых человечеством, растет в соответствии с законом Мура, то есть удваивается каждые два года. Чтобы справиться с этим потоком, различными компаниями применяются такие технологии, как интеллектуальный анализ данных, в том числе – хранящихся в текстовом формате.

Благодаря появлению различных ИТ-инструментов, позволяющих агрегировать информацию из собственных информационных систем, с форумов, сайтов социальных сетей, а также просто собирать ее на просторах интернета, в распоряжении многих компаний оказалось огромное количество данных. Их, конечно, можно хранить, но в большинстве случаев – совершенно невозможно обрабатывать. Это доказывает и исследование IDC, проведенное при поддержке EMC. Аналитики выяснили, что в мире проанализировано менее 1% всей накопленной информации.



Более того, рынок решений Big Data будет расти, причем очень активно. Аналитики IDC скорректировали свой прогноз в январе этого года, пересмотрев расходы на Big Data к 2016 г. до $28 млрд. При этом сервисы (в перечень которых входит Data Mining) также будут демонстрировать рост около 21% в год. Gartner смотрит на данный рынок еще более оптимистично. По мнению аналитиков агентства, расходы на Big Data во всем мире уже превысили $28 млрд в 2012 г., а к 2016 г. они достигнут $34 млрд.



Текстовая Big Data


Общая концепция внедрения решений Big Data посвящена тому, чтобы справиться с лавиной информации, объемы которой превышают привычные для большинства современных информационных систем возможности. Частным случаем важных данных, количество которых катастрофически растет, являются текстовые материалы. Сегодня можно без проблем получить доступ к огромным массивам текстов, но как вычленить нужную информацию – вот вопрос. Текст занимает не так много места на дисках, прекрасно архивируется и поэтому данных этого типа хранится все больше.



Казалось бы, накопленные текстовые данные должны помогать принимать правильные решения, анализировать обстановку в обществе, ситуацию на рынке и многие другие параметры. Однако для этого многим организациям просто не хватает инструментов.



Развитие Data Mining


Примерно 20 лет, как на рынке появилась технология Data Mining или "добыча данных". Данный подход позволяет анализировать большие объемы данных и обнаруживать в них скрытые закономерности. В основе Data Mining лежат давно известные методы статистики и теории вероятности, такие как алгоритм взаимосвязей, алгоритм кластеризации, алгоритм дерева принятия решений, упрощенный алгоритм Байеса и так далее.



В качестве источника данных текст является особенно сложным объектом, ведь в большинстве случаев он абсолютно неструктурирован с точки зрения машинной обработки. Естественный человеческий язык отличается множеством вариаций, непоследовательных оборотов и прочих эмоциональных проявлений, непонятных машинной логике. Именно поэтому вопрос применения Data Mining для работы с растущим объемом текстового контента является особенно интересным для решения актуальных задач, таких как выявление мнений клиентов, анализ отзывов, оценка общественных настроений и многого другого.



Как отмечают в компании "Ай-Теко", на ближайшие 5–7 лет прикладные задачи интеллектуального анализа текста достаточно хорошо известны и активно решаются. Однако факт состоит в том, что человечество все чаще заменяет поиск закономерностей накоплением представительных коллекций инцидентов в компьютерах. Возможно, это объясняется тем, что механизмы адаптации к изменяющимся условиям представляют собой единственно востребованные современной цивилизацией инструменты познания, а они основаны на инцидентах и статистических шаблонах. А последние успешно регистрируются и систематизируются при помощи компьютерных методов анализа.



Машинное обучение


Основой для применения методов ИАТ является инвариантное языку семантическое представление текста. Это просто: перевод текста на базовый язык пользователя, выделение смысловых элементов и их связей, комментирует Сергей Киселев, директор департамента систем управления знаниями компании "Ай-Теко". "Отмечу, что трендами являются смешивание языков в изложении, иероглифизация понятий в процессе коммуникации, фонетизация грамматики, упрощение структуры текста. Все это делает качество применения единых методов анализа контента зачастую невысоким".



Так как компьютер изначально не понимает человеческий язык вовсе, в основе современных методик работы с текстами лежит так называемое машинное обучение (Machine Learning). В данном случае, при помощи различных алгоритмов и оптимизаций, использования тренировочных наборов данных, нормализации слов и других алгоритмов, программисты создают практически уникальные инструменты для интеллектуального анализа текстов, оптимизируя их под конкретные задачи.



"Улучшение качества данных и применение алгоритма – это своего рода искусство. Стоит ли вам и дальше нормализовать набор слов, например выделяя их основы? Или нужно включить в набор более чем 1000 самых частых слов? Или меньше? Или, может быть, нужно использовать более объемный набор данных для обучения? Или больше слов определить как вспомогательные? Все эти вопросы разработчик может задать себе. Экспериментируя с данными, пробуя, проходя через ошибки, можно создать лучший алгоритм для конкретных данных", – пишет в своем блоге developerWorks Крис Хоаким (Chris Joakim), старший инженер по разработке ПО в Primedia Inc.



Благодаря применению отдельных подходов или их комбинаций, интеллектуальный анализ текстов позволяет отслеживать частоту появления определенных слов или словосочетаний, временные рамки употребления терминов из определенной группы слов и так далее. Все это позволяет принимать оперативные решения, делая "вытяжки" информации из массивов неструктурированных текстовых данных.



Однако это совсем не значит, что компаниям необходимо постоянно держать у себя специалиста по Data и Text Mining. Во многих случаях системы могут быть изготовлены на заказ, а также предоставляться в качестве "облачного" сервиса. Впрочем, если задачи анализа возникают в процессе работы организации и меняются со временем, наличие высококлассного профессионала в штате является крайне желательным.



Возможное применение


Оптимизированные и адаптированные алгоритмы анализа текста позволяют решать конкретные задачи, используя огромные массивы текстовых данных. После отработки и шлифовки методик, готовые инструменты могут использоваться для анализа любых текстов: статей, новостных лент или даже просто постов из социальных сетей.



"Интеллектуальный анализ текста широко используется в конкурентной и научной разведке, патентном поиске, eDiscovery (только в США), мониторинге прессы и социальных сетей, также анализе тональности и оценке мнений, при поиске ответов на вопросы в колл-центрах, предсказаниях возможных событий, – комментирует Александр Рылов, директор департамента лингвистических продуктов компании ABBYY. – Для решения данных задач активно используются технологии анализа естественного языка (NLP – Natural Language Processing) на основе статистики с использованием онтологии и правил извлечения. Однако все большую силу набирают подходы, связанные с полноценным лингвистическим анализом текста с применением семантики и синтаксиса".



Потенциальных возможностей применения таких методик – огромное множество. Например, если компания размышляет о выводе на рынок нового продукта, интеллектуальный анализ текстов позволяет провести исследование общественного мнения в социальных сетях. Если выбор стоит между выпуском нового йогурта или пудинга, можно отследить частоту употребления того или иного слова, а также определить, в позитивном или негативном контексте они употребляются. Вообще текстовая аналитика предлагает исключительные возможности для цифрового маркетинга и продаж.



Особую роль анализ текстов играет в обеспечении безопасности. Во многих DLP-системах используются средства анализа текста, которые позволяют блокировать передачу чувствительной информации в социальные сети, почтовые программы или интернет-пейджеры. Происходит это моментально, не позволяя инсайдеру выслать документы за пределы компании.



Спецслужбы получают дополнительные преимущества от использования инструментов анализа текста. Как мы все прекрасно знаем, в последнее время подозрительная активность начинается именно в социальных сетях. Интеллектуальный анализ позволяет при этом очень быстро идентифицировать источники распространения определенной информации и отследить ее резонанс в обществе.



Также, если посмотреть на объемы финансирования государственных программ "Электронная Россия", получается, что основным заказчиком ИТ-решений из категории Data Mining будет государство. Только в рамках программы "Электронная Москва" планируется перейти к 2016 г. на 100% объем предоставления государственных услуг в электронном виде и создать интеллектуальную систему управления городом. Бюджет проекта на период 2012–2016 гг. превышает $2 млрд, что составляет 8% от объема мирового рынка Big Data, по прогнозу IDC.



В частных компаниях проектов, использующих тяжелую аналитику, – единицы. Например в прошлом году серьезная аналитическая система была внедрена банком "Тинькофф Кредитные Системы". В рамах реализации проекта существовавшая в банке инфраструктура в виде стандартной СУБД, работающая на тяжелых серверах SPARC-архитектуры, была заменена системой EMC Greenplum, построенной на базе архитектуры массивно-параллельных вычислений без разделяемых компонентов (MPP, Massive Parallel Processing). Как отметил Вячеслав Цыганов, вице-президент, CIO банка: "Ценность выполненного проекта для банка, несмотря на его явную технологическую направленность, заключается в развитии существующей в банке культуры принятия решений на основе анализа информации. Умение превращать накопленные данные в знания давно является признаком конкурентоспособности, а сами данные – стратегическим активом и потенциалом для будущего роста". Второй яркий пример – внедрение в "Скартеле" платформы по анализу и обработке Big Data – Vertica СУБД. Параллельная архитектура решения обеспечивает в 100 раз более высокую скорость загрузки данных, чем ранее, а скорость доступа к нужной информации и построения отчета, по словам представителей компании, выросла в 10 раз по сравнению с предыдущим хранилищем данных. Это позволяет реализовывать интеллектуальный анализ любых данных, в том числе и текстовых.



Инструменты интеллектуального анализа текста в их современном виде представляют собой адаптивные средства, которые можно "заточить" под конкретные задачи, применяя специальные схемы обучения алгоритмов, а также комбинируя методики анализа. Все это позволяет приступить к анализу огромных массивов информации, накопленных за последние годы, а также подготовиться к дальнейшей активности коммерческих компаний и государственных организаций в социальных сетях. Российский рынок еще только набирает обороты в данном направлении, но уже в ближайшие годы мы увидим множество проектов с применением текстовой аналитики.



Андрей Шуклин

Вернуться на главную страницу обзора