Статья

Как вести бизнес-разведку в "невидимом" интернете?

Интернет Интеграция Бизнес-приложения Веб-сервисы
мобильная версия

Интернет является каналом оперативного доступа к чужой критической бизнес-информации, правда, более 97% ее - невидимо. Но, используя авторские методы интернет-поиска и бизнес-разведки, можно получить легальный доступ к конфидециальным данным. Предложенная технология поиска позволяет обеспечить на любых поисковых системах интернета высокий уровень точности, увеличить число найденных документов в 20 раз.

Значение интернета как экономичного канала распространения и доступа к неограниченным объемам информации неоценимо и будет со временем только возрастать. Феномен "серой литературы" делает Сеть единственным каналом оперативного доступа к критической деловой информации. При этом более 97% критичной для бизнеса онлайновой информации невидимо. Но использование ошибок на сайтах позволяет легально получить доступ к персональной и коммерческой информации разного рода (через уязвимости, забытые ссылки и пароли, скрытые данные). Статус интернета как глобальной сети открытых источников информации сводит к нулю риск правонарушения в процессе корректно проведенного расследования (поиск или конкурентная разведка через интернет).

Практическое решение проблем невидимого интернета позволяет, по крайней мере, в три раза увеличить полноту сбора документов, касающихся конкретных объектов (предприятий, персон, технологий). При сборе и слежении по открытым источникам за информацией по комплексным проблемам бизнеса, например, "способы аудита лояльности персонала" или "тенденции развития рынка кондитерских изделий", в среднем число найденных документов возрастает в 20 раз.

Техниками поиска и мониторинга онлайновой информации в интересах корпораций о настоящих и будущих рисках и возможностях занимается специальная дисциплина – "разведка через интернет". Однако использование значительных возможностей интернета для бизнеса своими силами неэффективно, либо дорого и рискованно при заказе услуг на стороне (по крайней мере, в России). Если средства позволяют и минимален риск утечки информации о расследовании, можно дополнительно использовать агентурные технологии.

Авторская технология поиска позволяет обеспечить практически на любых поисковых системах интернета уровень точности не ниже 90%. Иными словами, доля неподходящих документов, собранных по профессионально сделанным запросам, не превышает 10%. В результате, становится возможным строить открытые корпоративные базы знаний для предприятий, работающих в условиях высоких финансовых рисков и быстрых изменений, в том числе и глобальных.

Интернет, видимый и невидимый

Видимый Интернет (Visible Web) или Поверхностный Интернет (Surface Web) – это все то, что может быть проиндексировано программами-роботами публичных поисковых машин и редакторами поисковых каталогов интернета (Open Directory). Иными словами, это то, что пользователь в принципе может найти, используя всевозможные поисковые системы и каталоги.

Число активных сайтов

По данным измерений NetCraft (Великобритания), в феврале 2006 года число активных сайтов составляло 35 млн. По мнению автора, число баз данных составляет как минимум половину числа активных сайтов, т.е. не менее 15 млн. Компания Computer Industry Almanac (США) опубликовала оценку размера глобальной интернет-аудитории в 2004 году – это более 930 млн. пользователей. Согласно последним исследованиям Фонда "Общественное мнение", аудитория интернета в России летом 2006 года составляла более 20% населения.

Для обеспечения процесса быстрого поиска в базах данных, в частности, во Всемирной Паутине требуется заблаговременное формирование и последующее обновление т.н. индексов поисковых систем. Число индексов в конкретной базе данных может быть большим, но всегда конечно. Полнотекстовый индекс содержит информацию о том, какие слова и, возможно, в каком лексическом окружении (контексте) содержатся в конкретном источнике текста. В полнотекстовом индексе возможно сохранение информации о порядковом номере слова от начала текста, абзаца, предложения; о порядковом номере предложения от начала текста, абзаца и о порядковом номере абзаца от начала текста. Индекс ссылок может включать данные о наименовании ссылки, адресе источника и цели, а также возможно о типе ссылки. Для поддержки разнообразных операций со ссылками также используют представления, основанные на графах. Индексы метаданных содержат информацию об источниках, в частности, к какой рубрике (теме) конкретного классификатора относится содержание файла данных в целом или конкретного его фрагмента. Процесс создания индексов называют индексированием. Индексирование может быть ручным (так формируются поисковые каталоги интернета, библиографические базы данных…) или автоматическим (индексы полнотекстовых поисковых систем интернет создаются программами-роботами). Поисковые системы интернета без проблем могут индексировать только документы стандартных или коммуникативных форматов по протоколам http или ftp. К таковым относятся файлы в формате языка гипертекстовой разметки с расширениями htm, html, jsp, asp, php. Также без осложнений индексируются обычные тексты без форматирования: расширения asc, txt, text.

Размер невидимого интернета

По оценкам BrightPlanet, в июле 2000 года невидимый интернет составлял 550 млрд. индивидуальных документов в сравнении с 1 млрд. документов "видимой" его части. В отчете BrightPlanet отмечается более высокое качество документов в базах данных в сравнении с "поверхностным" интернетом. По опыту автора, размер невидимой части Рунета превышает, как минимум в 20 раз его видимую часть и составляет более 24 млрд. страниц.

"Невидимый интернет" (Invisible Web) или "глубинный интернет" (Deep Web) или "скрытый интернет" (Hidden Web) – это все то, что, в принципе, доступно через подключенный в интернет компьютер (по протоколу http и через http-шлюзы, специализированные клиенты, иные протоколы и сети), но по разным причинам в нужный момент не попадает в поле зрения заинтересованных лиц.

Почему сложно находить видимое?

Непрофессиональное использование поисковых систем. Неумение использовать известные ресурсы интернета и обходить ограничения поисковых систем делает недоступными даже проиндексированные документы. Для снижения остроты этой проблемы нужно уметь применять разнообразные стратегии поиска (по аналогии) и в полной мере использовать синтаксис языка запросов конкретной поисковой системы, в том числе и ее недокументированные возможности. При "грамотном" поиске и мониторинге интернета объем собранных материалов возрастает в 10-1000 раз. Также для информационных брокеров и интернет-аналитиков обязательно умение тестировать поисковые системы.

Структурирование страниц открывает возможности специфического поиска конкретных документов по содержимому различных внутренних полей (заголовок, описание, аннотация, ключевые слова, названия ссылок, картинок) или с учетом характера и инфраструктуры их гипертекстовых связей (обратная стратегия поиска). Таким образом можно находить невидимую (скрытую) информацию.

Поиск в одном документе. Сложность расследований по открытым источникам через интернет усугубляются фундаментальными пороками самого поиска в текстах. При полнотекстовом поиске все условия запроса ограничены рамками одного документа. В большинстве случаев конкретного документа, включающего все существенные элементы решения, в природе не существует. Решение "размазано" по множеству документов, и процесс подготовки отчета напоминает классическое уголовное расследование. Операция поиска становится многоходовой и требует грамотного выбора самого экономичного сценария. Каждый следующий этап поиска решения опирается на результаты предыдущего (полная аналогия с лестницей). Поэтому, например, невозможно "в лоб" решить задачу: "Найти санаторий на Финском заливе, принимающий семьи с детьми двух лет, с хорошими отзывами, низкими ценами и свободными за месяц местами на первую декаду июля 2007 года". Разбивайте сложный проект на мелкие этапы, всегда имея в виду возможность выбора наиболее экономичной последовательности исполнения отдельных шагов.

Сложности анализа связей. Публичные поисковые системы общего назначения в принципе не позволяют учитывать при поиске содержимое группы документов и наличие/характер их связей, как формальных (гипертекстовые ссылки), так и содержательных (субъект А в одно время в конкретном месте находился с субъектом В, или А и В работали над одним проектом). Частным решением такого класса задач является применение специальных стратегий полнотекстового поиска и анализа по связям и/или прикладных программ извлечения и анализа связей и досье на статических коллекциях документов небольшого объема (как правило, до 20000 записей).