Интернет: ищущий да найдет 19.11.2002 Игорь Гордиенко
Я хотел спасти от забвения один из таких третьестепенных ужасов: беспредельную и разноречивую Библиотеку, где вертикальные пустыни сменяющихся книг бесконечно переходят друг в друга, возводя, руша и путая все на свете, как впавший в горячку Бог. О поиске информации в Интернете имеется невероятно много и становится все больше этой самой информации. Опять же, не только на бумаге, но в еще большей мере - в самом Интернете. И, понятное дело, найти что-нибудь нужное - довольно затруднительно. Причин тому несколько, но есть две главные: во-первых, в Сети нет изначально встроенного слоя семантики, нет даже униформального индексирования, а во-вторых, Сеть проявляет признаки эволюционирующего организма, на котором строить менее динамические, чем она сама, информационные структуры, мягко говоря, малополезно. Тем не менее, с определенным успехом искать нужную информацию в Интернете все-таки возможно. Просто о сложном, сложно о простом Сейчас уже мало кто помнит о предтечах Интернета, например о проекте Xanadu, который стал делом жизни технократа-романтика Теодора Нельсона 1. А ведь в случае успешной реализации Xanadu мы жили бы в другом, более совершенном мире. У Нельсона могли оставаться справедливые претензии к Тиму Бернерсу-Ли 2, который хоть и увлекся идеями Теодора, но воплотил их в куда более грубой форме. Достаточно сказать, что в Xanadu гиперссылки были двунаправленные (чего не хотел воспринимать как потребную сущность наш «когдатошний» компьютерровский главный редактор Георгий Кузнецов), то есть всегда можно было бы пройти путь вспять, чего, в общем случае, не обеспечивает нынешняя конструкция Интернета. Задолго до того, как распространился милый сердцам народов протокол http, детище Бернерса-Ли, в Интернете существовали информационные хранилища 3, построенные на основе других соглашений, например изначального протокола telnet или же другого - gopher, которых было вполне достаточно для работы с научной информацией 4. Характерно, что авторы бесчисленных статей и рекомендаций, имеющих отношение к проблеме поиска информации в Интернете, впадают в одну из двух крайностей 5. Часть авторов скатывается к примитивной технологизации проблемы и всё сводит к использованию поисковых машин, благо их расплодилось что кроликов в австралийских степях. Именно на этих артефактах возникают новые классификации, формализуются методики и выдаются на-гора диссертации. Другая часть пытается привлечь давно существующие методы работы с научной и технической информацией в приложении к специфике Интернета. Опусы такого рода не только скучны, но и бесполезны - для дела там ничего не найти. Всякого рода индексы цитирования, совершенно неприменимые для данного предмета, статистические распределения и прочая схоластика - все это не более чем попытки выйти на удобное наукообразие. И тут вспоминаешь, что противоположности всегда в чем-то подобны. В общем-то, вряд ли следует пренебрежительно относиться к поисковым машинам - без них не обойтись. Не нужно гнушаться и азами теоретических премудростей - знать хотя бы определение индексирования 6 как метода поиска информации в хорошо структурированных массивах данных тоже полезно. Но важнее другое: поиск информации в Интернете - это совокупность методов, приемов и инструментов, применение которых в синергизме приводит к желаемому результату. Кроме того, и, может быть, самое главное, - это персональный опыт поиска и обработки информации, своего рода наработанная интуиция. Итак, с точки зрения человека традиционной печатной культуры, Интернет столь плохо поддается попыткам найти в нем нужные данные из-за отсутствия строгого индекса. По той же причине поисковые машины на любой запрос вываливают тысячи и сотни тысяч результатов, релевантных лишь в очень незначительной степени. Сложилось так, что в запросах между ключевыми словами поисковые машины по умолчанию проставляют знаки логического «И» или даже «ИЛИ» 7, то есть одновременного или раздельного присутствия заданных терминов в телах обнаруженных документов: предикат, выражаясь термином логики, оказывается очень обширным, он покрывает огромную часть пространства, на котором ведется поиск. Эта тактика особого успеха не приносит, поскольку у больших поисковых машин бывает под прицелом (то есть проиндексировано) полмиллиарда и больше отдельных документов в WWW (у Google - более трех миллиардов!). Вообще, по моему опыту, в результате простого поиска по незакавыченной фразе доля выявленных ссылок, имеющих хоть какое-то отношение к цели поиска, в среднем не превосходит 5%. А потому выработаны эмпирические правила (они бывают разными), позволяющие повысить эффективность изысканий в Интернете. Прежде всего, следует четко представлять, как готовить поиск. Нужно идентифицировать основной предмет, ядро темы, и попытаться составить для него список синонимов, антонимов, аналогов, параллелей, альтернатив, различий в написании и произношении. И второе: нужно знать особенности инструментов. Например, предметный каталог Yahoo во всем отличен от «чистых» поисковых машин типа Google или Altavista. Даже поисковые машины отличаются друг от друга, о чем немного ниже. Итак, перейдем к делу. Сравнительные характеристики главных поисковых машин. Актуальные данные по количеству индексированных документов доступны на машинах Google и Altavista, данные для других машин приведены по состоянию на 1 июля 2001 года (источник: Phil Bradley).
О пользе предметных каталогов Предметные каталоги (subject directory) представляют собой наборы ссылок на сайты, организованные по некоторым содержательным (но все равно субъективным) свойствам. Каталоги иногда называют поисковыми деревьями, поскольку они ветвятся по мере уточнения искомой концепции. Примером поиска в предметном каталоге может служить, скажем, такое уточнение: «автомобили - иномарки - Audi - модели - цены - условия приобретения». Интересным свойством каталогов является то, что в них можно включать свои собственные темы. Таким образом, желая приступить к долговременным исследованиям предмета, полезно найти ему место в каком-либо популярном каталоге, например в Yahoo. Есть вероятность, что новая тема (а именно - ссылка на ваш сайт) станет ядром «кристаллизации» - уже без вашего участия. Каталоги полезны, когда предмет поиска расплывчат и точные термины для него подобрать трудно. Большинство развитых каталогов имеют внутренние поисковые механизмы, помогающие преодолевать много уровней уточнений. Недостаток каталогов заключается в их малой мощности: обычно они охватывают лишь небольшую часть Интернета, в частности страницы общего, учебного и научного содержания. Самый большой и известный каталог, конечно же, Yahoo. Собственно, в годы становления Интернета, когда классификации поисковых инструментов еще не существовало, Yahoo относили к поисковым машинам. Этот каталог заслуженно признается одним из лучших мест для поиска информации общего содержания. Если чего-то не удалось найти в Yahoo, можно поискать в Looksmart или Open Directory, тоже очень хороших каталогах.
1 (обратно к тексту) - И. Гордиенко. «Долгий путь в Ксанаду» («КТ» #316 от 21.09.99, с.7). 2 (обратно к тексту) - И. Гордиенко. «Что же я породил?» («КТ» #319 от 12.10.99, с.10). 3 (обратно к тексту) - И. Гордиенко. «Дело жизни Винтона Серфа» («Инфобизнес» #5, 1996 г.). 4 (обратно к тексту) - И. Гордиенко. «Internet: поиск листьев в лесу» («КТ» #169 от 11.11.96). 5 (обратно к тексту) - И. Гордиенко. «Человек у истоков» («КТ» #168 от 21.10.96). 6 (обратно к тексту) - Примером системы индексирования по содержательному признаку может быть применявшаяся в СССР система Универсальной десятичной классификации (УДК) для печатных изданий. В гротескной, но доходчивой форме объяснение индексированию дается в «Похождениях бравого солдата Швейка», где вахмистр Фландерка сражался с анкетой за № 72345/721/a/f. 7 (обратно к тексту) - А что вы могли бы предложить в качестве более эффективной логики? Ведь у человека не столь уж много способностей для эксплицирования явного знания.
|