Интернет Цифровизация Бизнес-приложения Веб-сервисы

07 Сентября 2006 13:09 07 Сен 2006 13:09 |

Как вести бизнес-разведку в "невидимом" интернете?

Интернет является каналом оперативного доступа к чужой критической бизнес-информации, правда, более 97% ее - невидимо. Но, используя авторские методы интернет-поиска и бизнес-разведки, можно получить легальный доступ к конфидециальным данным. Предложенная технология поиска позволяет обеспечить на любых поисковых системах интернета высокий уровень точности, увеличить число найденных документов в 20 раз.

Изменчивость языка. Большинство публичных поисковых систем при индексировании текстов и формировании метаданных не учитывают словоизменения конкретного естественного языка. Для эффективного поиска и интернет-мониторинга требуется вместо одной словоформы (инфинитив) "резать" давать в поисковом запросе полный ряд словоизменений (в данном случае их "всего" 99). Необходимо использовать генераторы словоформ русского языка и многоязычные тезаурусы.

Технологии, которые должны изменить мир

Американский журнал Business 2.0 опубликовал список из семи технологий, которые должны "изменить мир" в ближайшем будущем. Среди них Ajax, WiFi-мобильники, WiMax и поиск в невидимой сети.

Ограниченная функциональность поисковых систем. Любимый народом Google при индексировании никакие словоизменения не учитывает и имеет на основной форме поиска максимальную длину запроса всего 32 слова. Применяйте технику оптимизации поисковых запросов (универсальная поисковая спецификация), метапоисковые системы и локальные поисковые системы/корпоративные хранилища, учитывающие морфологию языков стран Евросоюза и/или "большой восьмерки".

Отсутствие поиска по метаданным и его слабость. В процессе поиска редко применяются метаданные (информация об информации, объединенная в существующие классификаторы). При использовании классификаторов игнорируется степень неполноты рубрицирования неструктурированной информации. Согласно ранним исследованиям автора, в коллекциях более 50000 текстов не более 3-5% из доступного материала оснащено необходимыми метаданными. Для выбора подходящих рубрик (кодов) классификатора нужно, при возможности, использовать поиск в самом классификаторе, а ограничение по метаданным добавлять либо отдельно, либо в качестве альтернативы условию полнотекстового поиска для выбранной классификационной рубрики. Таким способом, полнотекстовый поиск сочетается с ограничением по метаданным. При отсутствии в открытом доступе нужной информации в электронной форме (интернет, локальные базы данных) следует использовать метаданные (например, библиографические описания из систематических каталогов библиотек) и агентурные технологии разведки.

Почему много информации невидимо?

Неясно, что искать, хотя сама проблема может быть в общих чертах понятна. Требуется применять процедуры поиска аналогий и/или изучать методы целеполагания из арсенала изобретателей (формулирование цели поиска исходя из стоящей проблемы).

Ничего не найдено и не ясно, где искать. Интуитивный выбор поисковых систем и неквалифицированная работа только со знакомыми базами данных дают, как правило, разочаровывающий результат. Нужно научиться находить проблемно-ориентированные базы данных. Необходимо использовать публичные каталоги поисковых систем по тематике, языку, месту или странам мира и иные из десятка известных способов поиска баз данных. Для промышленных систем сбора и мониторинга информации через интернет по конкретному объекту или проблеме применяются, как правило, не более 50 проблемно-ориентированных поисковых систем, удовлетворяющих следующим требованиям: во-первых, приемлемая достоверность; во-вторых, удовлетворительная абсолютная полнота (число подходящих документов больше, чем в других источниках) или относительная полнота (доля подходящих документов выше, чем в других источниках). Доля подходящих документов - отношение числа подходящих документов к общему числу документов в базе данных. В-третьих, высокая оперативность (абсолютная или относительная полнота, рассчитанная по документам за последний период актуальности: час, день, неделю, месяц).

Найдено слишком много (проблема "проклятие размерности"). Любые попытки собрать всю информацию с открытых для индексирования страниц интернета по всему миру упираются в проблему колоссальности объемов доступной информации. По некоторым оценкам, объем информации в интернете удваивается каждые три года. Чем больше информации, тем медленнее идет обновление индексов поисковых систем и тем дороже становится обеспечение услуг поиска в интернете. Централизованная архитектура "звезда" (единый полнотекстовый и другие индексы поисковых машин) для Сети в принципе малоэффективна. Для решения профессиональных задач надо использовать метапоисковые системы, техники построения реестра проблемно-ориентированных баз данных и искать ближе к потенциальным источникам и каналам распространения критической информации. В ряде случаев приемлемым решением является создание локальной копии интересного сайта или использование техники закачки проблемно-ориентированных материалов с разных сайтов через поисковые системы с последующим их изучением средствами локального полнотекстового поиска. Для разрешения проблемы проклятия размерности весьма продуктивна техника морфологического анализа результатов поиска с последующей систематизацией и детальной разработкой более конкретных проблем или объектов. При создании корпоративного хранилища надо развивать сервис "корпоративный метапоиск".

"Google будет работать 300 лет"

Выступая на проходившей в Фениксе ежегодной конференции Национальной ассоциации рекламодателей США, глава Google Эрик Шмидт (Eric Schmidt) заявил, что его организация сможет проиндексировать всю информацию на планете примерно через 300 лет. Собственно, это был ответ на вопрос из зала, который звучал так: "Как долго вы собираетесь выполнять свою миссию?". По словам Шмидта, в настоящее время из пяти миллионов терабайт существующей информации проиндексировано лишь 170 Тбайт. Правда, неясно одно - учел ли глава Google при подсчетах ту информацию, которая появится в течение тех самых трех веков.

Тексты доступны в нестандартном формате (офисные: doc, pdf, xls, ppt; архивные: zip, rar, arj, chm, msi …, устаревшие chi и др.), или вообще на неизвестном языке и в неизвестной кодировке. Проблему несколько облегчают корпоративные информационные системы, снабженные определителями языка и кодировок, конверторами файлов, программы для скачивания файлов и сайтов из интернета в паре с программами поиска на локальных дисках, а также специализированные поисковые системы интернета и определители языка.

Закрытая часть офисных документов. В большинстве документов офисных форматов есть "невидимая" часть, которая может включать персональные и корпоративные данные, метаданные и, как правило, не индексируется. Например, невидимыми являются данные об авторе (MS Word: "Главное меню – Файл – Свойства – Документ" или "Главное меню – Файл – Свойства – Прочие"), скрытые и удаленные куски текста и много другое. Для обнаружения и удаления таких фрагментов в файлах DOC, RTF, XLS, PPT, PDF и др. форматов используют специализированные программы и возможности отдельных поисковых систем интернета.

Найденный текст не виден или не копируется. Затруднения доступа к онлайновой информации вызывают сами интернет-технологии, например, всплывающие на страницах интернет подсказки с фактографической информацией, данные MacroMedia Flash или шифрование html-кода. Критическая информация скрыта в html-коде найденной страницы и не всегда корректно показывается программой – обозревателем ресурсов интернет. Надо использовать 2-3 разных обозревателя параллельно. Следует изучать исходный html-код интересующей страницы (MS Internet Explorer: "Главное меню - Вид - В виде HTML") и искать непосредственно в нем нужный текст. Надо сделать локальную копию сайта и искать в html-коде страниц требуемые фрагменты текста, используя, например, полнотекстовый поиск Windows. После удаления html-дескрипторов оставшийся текст можно использовать в отчетах.

Дмитрий Балдин, «РусГидро»: Вынужденный переход на open source приводит к увеличению поверхности кибератак

безопасность

Нетекстовая информация и метаданные. Нетекстовые файлы и их фрагменты (звуки, изображения, числа, формулы, и их ряды) могут содержать разнообразные неоцифрованные сведения, пространственную или иную нетекстовую информацию и метаданные. Для их поиска и аналитической обработки можно использовать специализированные поисковые системы и прикладные программы мониторинга, оцифровки, извлечения и анализа данных, метаданных и зависимостей. Как правило, такого рода инструментами комплектуются специализированные поисковые системы и корпоративные хранилища ведущих производителей.

Проблемы средств поиска

Переходы по гипертекстовым ссылкам малопродуктивны и не рекомендованы для профессионального поиска фактографической информации. Однако, нужно отметить уникальную методику получения скрытой информации через интернет – обратную стратегию поиска, использующую индекс ссылок.

Поисковые каталоги неполны и покрывают лишь тысячные доли процента из доступных ресурсов интернета, например, крупнейший проект "Открытый каталог", поддерживаемый более 60 тыс. редакторов-добровольцев, учитывает чуть более 4 млн. из доступного триллиона страниц интернета.

8 задач, чтобы перезапустить инженерную школу в России

импортонезависимость

Ошибки и ограничения поисковых систем. Разнообразные пороки проектирования, ошибки программной реализации и ограничения анализаторов текстов и поисковых запросов при формировании и обновлении индексов поисковой системы и поиске не позволяют найти нужную информацию без применения специальных техник поиска. Никогда не индексируются спецсимволы – разделители слов. В частности, находить в текстах сумму в долларах "$123" может только Google, остальные поисковые системы показывают 123, 00123 и т.п. Некоторые спецсимволы, попавшие в запрос, вызывают сбои работы конкретной поисковой системы. В результате при значительном количестве подходящих документов и "правильном" запросе пользователь получает "ничего не найдено". В данном случае выручает только знание принципов работы поисковых систем и умение их оперативно тестировать.

Ограничения для роботов поисковых систем. Робот публичной поисковой системы всегда четко выполняет предписания web-мастеров, которые могут ограничить индексирование сайта целиком или его частей, отдельных документов и их частей, а также переходы по ссылкам. По мнению специалистов поисковых систем Altavista и Lycos, в 2002 году такие ограничения были введены на 5-6% сайтов. Если такие ограничения обнаружены, то эти папки сайта, ссылки или документы поисковыми системами не индексируются, и их целесообразно исследовать в первую очередь. Нужно предварительно применять программы копирования сайтов и локального полнотекстового поиска.

Робот не может выполнить элементарный сценарий. Робот поисковой системы, как правило, не может пройти регистрацию на сайте, авторизацию для входа на закрытую часть корпоративного сайта или ресурс с коммерческим доступом, равно как и выполнить элементарный сценарий – последовательность операций доступа к конкретному файлу, выбора необходимых условий или ввода данных в форму поискового запроса. Практически все динамические документы, формируемые "на лету" по запросам пользователей, большинством поисковых систем не индексируются. Для поиска, мониторинга изменений и выкачивания записей из баз данных используются разнообразные стратегии съема информации и специализированные программы – сеансовые роботы и макрокоманды некоторых программ мониторинга страниц и серверов интернета, а также корпоративные хранилища и системы поиска на локальных дисках.

Подписаться на новости

Короткая ссылка

Как вести бизнес-разведку в "невидимом" интернете?

Технологии, которые должны изменить мир

"Google будет работать 300 лет"

Другие материалы рубрики

МАРКЕТ.CNEWS

VPS

DBaaS

Онлайн-бухгалтерия

Colocation

Техника

Легальные приложения для отслеживания смартфона по местоположению: выбор ZOOM

Обзор моноблока HIPER EXPERTCENTER D27: солидный универсал

Как обустроить быт в палатке: лучшие гаджеты для походов

Администрировать нашу платформу
так же удобно, как Microsoft Exchange

Мы в 4 раза ускорили
разработку программного кода

Таких темпов роста нашей электронной отрасли не было никогда

Администрировать нашу платформу так же удобно, как Microsoft Exchange

О настоящем и будущем интернета вещей в России

Мы в 4 раза ускорили
разработку программного кода

Как вести бизнес-разведку в "невидимом" интернете?

Технологии, которые должны изменить мир

"Google будет работать 300 лет"

Другие материалы рубрики

МАРКЕТ.CNEWS

VPS

DBaaS

Онлайн-бухгалтерия

Colocation

Техника

Легальные приложения для отслеживания смартфона по местоположению: выбор ZOOM

Обзор моноблока HIPER EXPERTCENTER D27: солидный универсал

Как обустроить быт в палатке: лучшие гаджеты для походов

Администрировать нашу платформу так же удобно, как Microsoft Exchange

Мы в 4 раза ускорили разработку программного кода

Таких темпов роста нашей электронной отрасли не было никогда

Администрировать нашу платформу так же удобно, как Microsoft Exchange

О настоящем и будущем интернета вещей в России

Мы в 4 раза ускорили разработку программного кода

Администрировать нашу платформу
так же удобно, как Microsoft Exchange

Мы в 4 раза ускорили
разработку программного кода

Мы в 4 раза ускорили
разработку программного кода