Разделы

Интернет Веб-сервисы

Интернет-поиск будущего: командуем голосом

Современный поиск в интернете с использованием ключевых слов исчерпал свои возможности. Будущее – за поисковыми системами, которые научатся обрабатывать естественную человеческую речь. Однако сложность этой задачи раз за разом отодвигает дату появления настоящего "убийцы Google". Зато побочным эффектом разработок в этом направлении стало появление мощных продуктов для работы с разнородными корпоративными данными. Полную версию статьи читайте в декабрьском номере журнала CNews.

По оценкам исследовательской компании IDC, в этом году объем информации, хранящейся в компьютерных системах всего мира, достигнет 5,444 экзабайт. Для сравнения, всего 5 лет назад, в 2003 году, этот показатель был в 6,5 раза меньше – 831 петабайт. Чтобы понять, много это или мало, достаточно сказать, что за всю свою многотысячелетнюю историю человечество накопило в книгах "только" 200 петабайт. Сокращения темпов роста информационных потоков в ближайшее время не предвидится. Поэтому если не найти способ эффективно обрабатывать такое количество данных, человечество ожидает то, что специалисты называют "аналитическим параличом". Поиск и использование нужной информации становятся все более сложными, трудоемкими и неэффективными, несмотря на огромные прикладываемые усилия. Поэтому поиск новых подходов, в том числе и для работы с интернетом, связующей нитью информационных залежей, является одной из самых актуальных.

Слово – запрос – результат

Сегодня практически весь поиск в интернете осуществляется при помощи ключевых слов. Однако этот метод себя полностью исчерпал. Большей релевантности результатов и скорости поиска, чем у нынешних лидеров, достичь практически невозможно. И у тех, кто работает исключительно методом ключевых слов, нет ни малейшей надежды хоть как-то приблизиться к Google. Строго говоря, и сам Google давно не использует чистый поиск по ключевым словам – в ход идут более сложные алгоритмы. Более того, традиционные методы представления информации весьма далеки от идеала. Пользователь получает тысячи, а то и десятки тысяч ссылок, но никогда не доходит дальше 30-й ссылки. А подавляющее большинство ограничиваются просмотром первых 5-7 результатов. И если ответа в них нет, пользователь, как правило, переформулирует запрос. Кроме того, практически невозможно отследить связи искомых слов с другими объектами и явлениями.

Семантический Веб

Концепцию Semantic Web (SW, "Семантической паутины", не путать с термином "семантическая сеть") выдвинул в мае 2001 года Тим Бернерс-Ли – один из основоположников WWW. SW – это надстройка над существующим интернетом, которая призвана сделать размещенную в ней информацию более понятной для компьютеров и обеспечить таким образом более эффективную машинную обработку контента. В семантической паутине предполагается повсеместное использование, во-первых, универсальных идентификаторов ресурсов (URI) (которые, кстати, появились задолго до идеи SW), а во-вторых — языков описания метаданных. Иными словами, каждый ресурс, кроме видимого текста и графики, снабжается метатегами – невидимыми для пользователя метками, хранящими данные о сути и содержании ресурса. Концепция была принята и продвигается Консорциумом W3.

Что делать в такой ситуации? Один из вариантов можно назвать продвинутым статистическим методом. Он подразумевает отслеживание профилей пользователей, использующих одни и те же ключевые слова. Собирая и анализируя результаты, можно вскоре обнаружить, что эти пользователи "кластеризируются", собираются в некие группы – по интересам, по демографическим, социальным и другим признакам. И для каждого из кластеров можно сделать отдельную индексацию, "рэнкинг". Но, как отмечают специалисты, данный подход, скорее, технический и далеко не самый эффективный.

Гораздо лучшие перспективы имеет другой метод, основанный на обработке естественного человеческого языка. Такой путь подразумевает использование разработок искусственного интеллекта, так как для понимания фразы недостаточно знания одной лишь лингвистики – требуются знания психологии и знания о мире в целом. Попытки "научить" компьютер понимать простые человеческие фразы начали предприниматься давно. Первые исследования относятся к 1970-м годам прошлого века, именно тогда были заложены теоретические основы обработки естественного языка (ЕЯ). Кстати, именно в ходе этих исследований параллельно развивалось и побочное направление – поиск по ключевым словам.

Далее произошло интересное – когда выяснилось, что на тогдашнем уровне развития как электроники, так и методов компьютерной лингвистики сколько-нибудь толковой обработки ЕЯ добиться нереально, обратились к тому самому "побочному эффекту". И поиск по ключевым словам стал мейнстримом, а самих пользователей приучили выражать свои потребности строго определенным образом – за 20 лет выросло целое поколение, привыкшее работать в парадигме Yahoo и Google. Кроме ключевых слов, эта парадигма подразумевает некоторый язык запросов: логическое "и/или" и, что значительно реже, логическое "не". Но, несмотря на все успехи, естественный язык сопротивляется таким методам в силу своей многозначности и метафорики. Поэтому результаты поиска оказываются недостаточно точными.

8 задач, чтобы перезапустить инженерную школу в России
импортонезависимость

Так кто же убьет Google?

Чтобы выйти из тупиковой ситуации, поисковые системы стали применять более сложные алгоритмы. Выделились два основных направления. Первое заключается в развитии компьютерной лингвистики, чтобы поисковик мог лучше понимать как язык запроса, так и смысл контента каждого ресурса. Второе направление, на котором поднялся Google, – статистический метод, то есть оценка взаимных ссылок, частоты использования и рейтингование на основе этих результатов. С точки зрения эффективности пока выигрывают статистические машины. Но все единогласно признают, что будущее за лингвистическими методами и обработкой естественного языка. Семантический анализ текстов должен вот-вот выстрелить, но вот только никто не знает, когда именно. Сообщения о появлении очередного "убийцы Google" появляются с завидной регулярностью. Однако в большинстве случаев они оказываются фальстартами.


Одно время поисковик Hakia выдавал результаты графически, в виде карты, похожей на карту звездного неба

Сместить лидера поиска с его трона пока не удалось никому, зато наиболее продвинутые проекты сумели занять свою определенную нишу. Но, что более важно, они обрисовали пути будущего развития. Например, поисковый сервер Hakia предложил принципиально иной способ визуализации результатов – так, чтобы пользователь мог видеть не отдельные деревья, а карту всего леса. Hakia выдавал результаты графически, в виде карты, похожей на карту звездного неба. Только вместо звезд на плоскости стояли ключевые слова, расстояние между которыми определялось семантически. Термины группировались в кластеры, получалась некая ячеистая структура, которую при помощи увеличения можно было рассматривать более подробно. Некоторое время Hakia выдавал результаты в виде этих графов, но вскоре выяснилось, что для рядового пользователя такие карты слишком сложны, да и не особенно нужны. Такое представление информации хорошо только для экспертов, но их число невелико. В результате Hakia сделала шаг назад – сейчас результаты показываются в традиционной текстовой форме.