IBM предложила поиск по понятиям

Телеком
мобильная версия
Компания IBM в понедельник огласила планы по распространению технологии поиска по понятиям и фактам, применяющейся при обработке корпоративной информации. Такие поисковые механизмы должны прийти на смену более простому и широко используемому ныне поиску по ключевым словам.

Хотя простой, но мощный механизм поиска по ключевым словам существенно повлиял на то, как пользователи интернета находят и получают информацию, IBM стремится предложить новый инструмент, способный находить информацию в огромных массивах корпоративных данных.

По словам Артура Чикколо (Arthur Ciccolo), главы отделения поисковых технологий IBM Research, ведущие массовые поисковые машины – Google, Yahoo и Microsoft – ориентированы на открытый сегмент интернета, а не на поиск служебной информации.

IBM намерена предоставить сторонним разработчикам программного обеспечения свою архитектуру управления неструктурированной информацией (UIMA). Эта технология позволяет анализировать содержащийся в документах текст и распознавать скрытые в нем понятия, отношения и факты.

По заявлениям IВM, около 15 компаний, включая Attensity, ClearForest, Cognos, Endeca, Factiva, Kana, Inquira, iPhrase, Inxight, nStein, QL2, SAS, Schemalogic, Semagix, SPSS Inc. и Temis, планируют использовать UIMA в качестве механизма поиска и анализа текста в неструктурированных данных.

Также IBM предлагает ПО WebSphere OmniFind, позволяющее пользователям осуществлять поиск в неструктурированных данных различных форматов и на различных языках, содержащихся в базах данных, файлах электронной почты, аудиозаписях, изображениях и видеофрагментах.

По словам Чикколо, UIMA упростит совместную работу приложений различных разработчиков, предназначенных для управления знаниями, поиска, коммерческой разведки и анализа текстов.

Данный механизм поиска корпоративных данных разрабатывался IBM Research на протяжении более чем четырех лет, при участии ученых крупнейших университетов США и при поддержке Управления перспективных исследований Министерства обороны США (DARPA).

В числе прочих участников разработки UIMA – военные подрядчики Science Applications International, BBN Technologies и MITRE, а также медицинская фирма The Mayo Clinic.

Один из примеров применения новой технологии – совместное использование программных продуктов Attensity, ClearForest, iPhrase, Kana и IBM производителями потребительских товаров для обнаружения в Сети жалоб покупателей на дефектные изделия и затем поиска внутренней корпоративной информации, помогающей максимально быстро решить возникшую проблему.

В последнее время распространение неструктурированной информации в Сети в виде документов, изображений, комментариев и примечаний, сообщений электронной почты, а также видео- и аудиофайлов происходит взрывными темпами.

Около десяти лет назад ряд разработчиков СУБД, включая Informix, которая затем была приобретена IBM, заявили о том, что в скором времени проблема неструктурированных данных будет решена. Тем не менее, ныне по оценке аналитиков до 85% корпоративных данных хранится в неструктурированном виде вне баз данных.

Ожидается, что технология UIMA будет распространяться, начиная с конца 2005 года, с помощью сайта SourceForge, на котором размещается ПО с открытым исходным кодом. Структуру UIMA можно уже сейчас бесплатно загрузить с сайта IBM AlphaWorks.