КОМПЬЮТЕРРА / БУМАЖНАЯ КОМПЬЮТЕРРА / 2002 / №45 / Интернет: ищущий да найдет

Я хотел спасти от забвения один из таких третьестепенных ужасов: беспредельную и разноречивую Библиотеку, где вертикальные пустыни сменяющихся книг бесконечно переходят друг в друга, возводя, руша и путая все на свете, как впавший в горячку Бог.
Хорхе Борхес. «Всемирная Библиотека»

О поиске информации в Интернете имеется невероятно много и становится все больше этой самой информации. Опять же, не только на бумаге, но в еще большей мере - в самом Интернете. И, понятное дело, найти что-нибудь нужное - довольно затруднительно. Причин тому несколько, но есть две главные: во-первых, в Сети нет изначально встроенного слоя семантики, нет даже униформального индексирования, а во-вторых, Сеть проявляет признаки эволюционирующего организма, на котором строить менее динамические, чем она сама, информационные структуры, мягко говоря, малополезно. Тем не менее, с определенным успехом искать нужную информацию в Интернете все-таки возможно.

Просто о сложном, сложно о простом

Сейчас уже мало кто помнит о предтечах Интернета, например о проекте Xanadu, который стал делом жизни технократа-романтика Теодора Нельсона ¹. А ведь в случае успешной реализации Xanadu мы жили бы в другом, более совершенном мире. У Нельсона могли оставаться справедливые претензии к Тиму Бернерсу-Ли ², который хоть и увлекся идеями Теодора, но воплотил их в куда более грубой форме. Достаточно сказать, что в Xanadu гиперссылки были двунаправленные (чего не хотел воспринимать как потребную сущность наш «когдатошний» компьютерровский главный редактор Георгий Кузнецов), то есть всегда можно было бы пройти путь вспять, чего, в общем случае, не обеспечивает нынешняя конструкция Интернета.

Задолго до того, как распространился милый сердцам народов протокол http, детище Бернерса-Ли, в Интернете существовали информационные хранилища ³, построенные на основе других соглашений, например изначального протокола telnet или же другого - gopher, которых было вполне достаточно для работы с научной информацией ⁴.

Характерно, что авторы бесчисленных статей и рекомендаций, имеющих отношение к проблеме поиска информации в Интернете, впадают в одну из двух крайностей ⁵. Часть авторов скатывается к примитивной технологизации проблемы и всё сводит к использованию поисковых машин, благо их расплодилось что кроликов в австралийских степях. Именно на этих артефактах возникают новые классификации, формализуются методики и выдаются на-гора диссертации. Другая часть пытается привлечь давно существующие методы работы с научной и технической информацией в приложении к специфике Интернета. Опусы такого рода не только скучны, но и бесполезны - для дела там ничего не найти. Всякого рода индексы цитирования, совершенно неприменимые для данного предмета, статистические распределения и прочая схоластика - все это не более чем попытки выйти на удобное наукообразие. И тут вспоминаешь, что противоположности всегда в чем-то подобны.

В общем-то, вряд ли следует пренебрежительно относиться к поисковым машинам - без них не обойтись. Не нужно гнушаться и азами теоретических премудростей - знать хотя бы определение индексирования ⁶ как метода поиска информации в хорошо структурированных массивах данных тоже полезно. Но важнее другое: поиск информации в Интернете - это совокупность методов, приемов и инструментов, применение которых в синергизме приводит к желаемому результату. Кроме того, и, может быть, самое главное, - это персональный опыт поиска и обработки информации, своего рода наработанная интуиция.

Итак, с точки зрения человека традиционной печатной культуры, Интернет столь плохо поддается попыткам найти в нем нужные данные из-за отсутствия строгого индекса. По той же причине поисковые машины на любой запрос вываливают тысячи и сотни тысяч результатов, релевантных лишь в очень незначительной степени.

Сложилось так, что в запросах между ключевыми словами поисковые машины по умолчанию проставляют знаки логического «И» или даже «ИЛИ» ⁷, то есть одновременного или раздельного присутствия заданных терминов в телах обнаруженных документов: предикат, выражаясь термином логики, оказывается очень обширным, он покрывает огромную часть пространства, на котором ведется поиск. Эта тактика особого успеха не приносит, поскольку у больших поисковых машин бывает под прицелом (то есть проиндексировано) полмиллиарда и больше отдельных документов в WWW (у Google - более трех миллиардов!). Вообще, по моему опыту, в результате простого поиска по незакавыченной фразе доля выявленных ссылок, имеющих хоть какое-то отношение к цели поиска, в среднем не превосходит 5%. А потому выработаны эмпирические правила (они бывают разными), позволяющие повысить эффективность изысканий в Интернете.

Прежде всего, следует четко представлять, как готовить поиск. Нужно идентифицировать основной предмет, ядро темы, и попытаться составить для него список синонимов, антонимов, аналогов, параллелей, альтернатив, различий в написании и произношении. И второе: нужно знать особенности инструментов. Например, предметный каталог Yahoo во всем отличен от «чистых» поисковых машин типа Google или Altavista. Даже поисковые машины отличаются друг от друга, о чем немного ниже. Итак, перейдем к делу.

Сравнительные характеристики главных поисковых машин.

Актуальные данные по количеству индексированных документов доступны на машинах Google и Altavista, данные для других машин приведены по состоянию на 1 июля 2001 года (источник: Phil Bradley).

	Altavista	Google	Ask Jeeves	Terra Lycos/ Hotbot	Webcrawler	Northern Light
WWW	да	да	да	да	да	да
Usenet	да	да	нет	нет	нет	нет
URL	да	да	нет	нет	да	да
Многоязычность (число обслуживаемых языков)	25	26	1	25	1	5
Изображения	да	да	нет	да	нет	нет
Новости	да	нет	нет	да	да	да
Аудио/видеофайлы	да	нет	нет	да	нет	нет
Файлы типа PDF или DOC	нет	да	нет	нет	нет	нет
Логические операции	да	нет	нет	да	да	да
Ассоциативный поиск	да	нет	нет	нет	да	нет
Шаблоны	да	да	нет	да	нет	нет
Операция «ИЛИ» по умолчанию	да	нет	нет	да	да	да
Выбор зоны поиска	да	да	нет	да	да	да
Сокращения	да	да	нет	да	нет	да
Поиск по фразе	да	да	да	да	да	да
Ранжирование по релевантности	да	да	нет	да	да	да
Аннотирование документов	да	да	да	да	да	да
Управление размером аннотации	нет	да	нет	нет	нет	нет
Обновление ранее обнаруженных документов	нет	нет	нет	да	нет	да
Уточнение поиска	да	нет	да	нет	нет	да
Результаты по группе запросов	да	нет	нет	нет	нет	да
Частота обновления базы индексирования	1 день-1 месяц	1 день-1 месяц	нет данных	2–3 недели	нет данных	нет данных
Количество индексированных документов	550 млн.	3,083 млрд.	нет данных	160 млн.	нет данных	321,8 млн.
Это портал?	да	нет	нет	да	да	нет
Учет национальной/региональной специфики при поиске	да	да	да	да	нет	да

О пользе предметных каталогов

Предметные каталоги (subject directory) представляют собой наборы ссылок на сайты, организованные по некоторым содержательным (но все равно субъективным) свойствам. Каталоги иногда называют поисковыми деревьями, поскольку они ветвятся по мере уточнения искомой концепции. Примером поиска в предметном каталоге может служить, скажем, такое уточнение: «автомобили - иномарки - Audi - модели - цены - условия приобретения».

Интересным свойством каталогов является то, что в них можно включать свои собственные темы. Таким образом, желая приступить к долговременным исследованиям предмета, полезно найти ему место в каком-либо популярном каталоге, например в Yahoo. Есть вероятность, что новая тема (а именно - ссылка на ваш сайт) станет ядром «кристаллизации» - уже без вашего участия.

Каталоги полезны, когда предмет поиска расплывчат и точные термины для него подобрать трудно. Большинство развитых каталогов имеют внутренние поисковые механизмы, помогающие преодолевать много уровней уточнений.

Недостаток каталогов заключается в их малой мощности: обычно они охватывают лишь небольшую часть Интернета, в частности страницы общего, учебного и научного содержания.

Самый большой и известный каталог, конечно же, Yahoo. Собственно, в годы становления Интернета, когда классификации поисковых инструментов еще не существовало, Yahoo относили к поисковым машинам. Этот каталог заслуженно признается одним из лучших мест для поиска информации общего содержания. Если чего-то не удалось найти в Yahoo, можно поискать в Looksmart или Open Directory, тоже очень хороших каталогах.

Опыт № 1. Позитивный

Зайдя однажды на сайт аналитического агентства Jupiter Media Metrix, я был приятно поражен: мне удалось скачать файл в формате pdf, наполненный всякого рода чудесными историями об онлайновых услугах для цифровой фотографии. Этот огромный файл все еще ждет своего читателя, надеюсь вскоре обновить информацию и подать ее «свежачком».

Обращаю ваше внимание: мне удалось сделать это только потому, что я был зарегистрированным клиентом аналитической системы JMM, а потому мне было дозволено пользоваться встроенной поисковой машиной (см. скриншот).

1 (обратно к тексту) - И. Гордиенко. «Долгий путь в Ксанаду» («КТ» #316 от 21.09.99, с.7).
2 (обратно к тексту) - И. Гордиенко. «Что же я породил?» («КТ» #319 от 12.10.99, с.10).
3 (обратно к тексту) - И. Гордиенко. «Дело жизни Винтона Серфа» («Инфобизнес» #5, 1996 г.).
4 (обратно к тексту) - И. Гордиенко. «Internet: поиск листьев в лесу» («КТ» #169 от 11.11.96).
5 (обратно к тексту) - И. Гордиенко. «Человек у истоков» («КТ» #168 от 21.10.96).
6 (обратно к тексту) - Примером системы индексирования по содержательному признаку может быть применявшаяся в СССР система Универсальной десятичной классификации (УДК) для печатных изданий. В гротескной, но доходчивой форме объяснение индексированию дается в «Похождениях бравого солдата Швейка», где вахмистр Фландерка сражался с анкетой за № 72345/721/a/f.
7 (обратно к тексту) - А что вы могли бы предложить в качестве более эффективной логики? Ведь у человека не столь уж много способностей для эксплицирования явного знания.