| Интернет: ищущий да найдет 19.11.2002 Игорь Гордиенко
Поисковые машины В Интернете функционирует несколько сотен разных поисковых машин. Конечно, хорошо бы каждую из них проверить в деле, дабы выбрать те, которые наилучшим образом отвечают целям вашего поиска. Однако нельзя объять необъятное… Есть мнение 8, что существует пять типов поисковых машин. Они осуществляют:
Алгоритмы функционирования этих машин заметно отличаются, а потому дадим краткие разъяснения по каждому из типов.
Поиск по произвольному тексту Машине задается любое слово, термин, фраза, что заблагорассудится. После этого она начинает искать подобия заданного ключа на сайтах, фигурирующих в базе данных машины. По окончании поиска выдается список обнаруженных сайтов. Как правило, если не задать специальную конструкцию ключевой фразы, то по умолчанию машина ставит между отдельными словами (терминами) логическое «И» (еще более осложняет ситуацию постановка «ИЛИ»), что приводит к очень размытым результатам - в списках могут появляться многие тысячи ссылок. Дабы повысить эффективность, машины ранжируют результаты, например, по релевантности, то есть полноте совпадений, или же по актуальности, то есть дате образования документа. Конечно, в работе каждой из машин есть свои особенности, а потому лучше всего опробовать несколько из них. Машины этого типа удобны в том случае, когда можно довольно точно сформулировать запрос. Сделать это не всегда просто: следует думать о терминах и определениях предмета, которых должно быть как можно больше - для более целенаправленного поиска. И вместо формулировки «цифровой фотоаппарат» следовало бы написать «цифровой фотоаппарат Olympus продажа». Впрочем, это тоже не гарантирует эффекта, результаты поиска могут оказаться весьма неожиданными. Таким образом, если не вполне понятно, что же конкретно нужно найти, машины этого типа оказываются малополезными. Поиск с индексированием Машины, работающие по этому принципу, начинают поиск с вершины некоторого ветвления, уточняя категории на каждом следующем уровне - вплоть до достижения нужной группы сайтов. В этом есть некое подобие структурам предметных каталогов, но у каталогов структуры почти статичны, а поисковые машины «ведут проходку» в динамике - по последнему сформированному дереву. Они могут оказаться полезными, когда нужно получить представление о широкой предметной области. Ограничение очевидно: приходится бегать в пределах весьма жесткой классификационной схемы, что может оказаться не просто утомительно, но и расточительно по времени.
Множественный поиск Машины этого типа вовсе не являются оригинальными поисковыми движками, это - метамашины. Они представляют собой входы (или, если хотите, порталы) к некоторым другим машинам, запросы к которым засылаются параллельно - через общий интерфейс. У этих устройств есть свои преимущества, например то, что они настраивают унифицированный пользовательский запрос на лексику и логику запроса каждой конкретной используемой машины 9. Естественноязыковый поиск Тут все понятно: как спросишь - так и получишь. Поиск специальный Сие определение тоже говорит само за себя - искать по предметам, доменам, группам участников и т.п.
Как они работают? Все поисковые машины имеют в своем составе то, что принято называть «робот» или «паук» 10 (см. рис. 1). Это программы, которые непрерывно обследуют пространство Интернета, переходя от ссылки к ссылке, - и так без конца. Если роботы находят новые сайты и страницы или обнаруживают, что содержание уже обследованных мест изменилось, они вытаскивают оттуда некоторую информацию и копируют ее в базу данных поисковой машины. Это именно та база, с которой имеют дело пользователи, задающие вопросы и запросы.
Кстати, желающим сделать свой сайт популярным, вовсе не обязательно дожидаться, пока на него набредут роботы. Существует немало способов разместить ссылки на поисковых машинах немедленно 11. Поисковые машины в основном бесплатны. Деньги они зарабатывают тем, что либо предлагают собственные платные программные и аппаратные решения (например, Altavista продает программные корпоративные решения для поиска информации на разнородных базах данных), либо предоставляют место для внешней рекламы, которую почти неизбежно придется лицезреть при получении результатов поиска. Кое-кто пытался взимать деньги за поиск информации в Интернете, но это начинание не имело успеха, поскольку общепринятая практика - предоставлять подобные услуги бесплатно. Поисковые программы Кроме машин, метамашин, разного рода поисковых порталов и прочих публичных онлайновых ресурсов, есть группа программных инструментов, устанавливаемых на локальные компьютеры. Они весьма удобны при необходимости точной настройки на круг запросов и интересов конкретной персоны. Этот класс программ называют по-разному, например, на Tucows их зовут «searchbots», чему на русском языке примерно соответствует «роботы-искатели» (месяц назад таких «искателей» числилось в обсуждаемом разделе примерно четыре десятка). Поскольку Tucows известная, но далеко не единственная система маркетинга и распространения программ (всяких - и бесплатных, и с публичными лицензиями, и шареварных, и коммерческих), то нужно говорить примерно о паре сотен существующих и доступных программ этого класса. В основу работы searchbots заложен следующий принцип: из запроса пользователя, сформулированного согласно несложным правилам самой программы-робота, вырабатываются запросы, специфические по синтаксису и логическим конструкциям для каждого отдельного целевого поискового ресурса в Интернете. То есть из одного получается множество настроенных запросов, которые рассылаются избранному кругу поисковых машин (и/или каталогов). Поисковые программы эволюционировали из метамашин, они обладают большей гибкостью и адаптивностью к потребностям персонального применения. Году в 1997-м я пользовался здравствующей и ныне программой WebFerret, логичной и удобной (скриншот 1). Но через два года на свет появилась программа Copernic (с августа этого года - Copernic Agent), и с тех пор я ей не изменяю (скриншот 2). Это очень мощное и понятное средство, позволяющее самостоятельно выбирать тематические категории, поисковый предметный домен, задавать состав глобальных поисковых машин, - всего и не описать. Результаты поиска хранятся в собственной базе программы, их можно сохранять в файлах стандартных форматов вместе с гипертекстовыми ссылками, размеры аннотаций можно менять, программа сама обновляет базы поисковых ресурсов при каждом подключении к Интернету.
Но больше всего прельщает, что Copernic умеет вести индексацию там, где другие программы не работают, а именно на серверных поисковых машинах многих крупных издательств и агентств. К примеру, интересуясь текущим положением дел в корпорации IBM, нужно просто ввести эти три буквы (они и будут индексом) и выбрать категорию поиска «Top News». После этого Copernic сразу разошлет запросы по таким сайтам, как CNN, MSNBC, New York Times, Forbes… (впрочем, перечень грандов медиа тоже можно задать самостоятельно, см. скриншот 3). И будьте спокойны, объемом и качеством найденной информации вы обижены не будете. Конечно, как любое программное средство, Copernic требует в общении определенных навыков, но это приходит быстро.
Я вовсе не собираюсь делать рекламу программе Copernic - она в ней не нуждается. Тем более что я не сомневаюсь в достоинствах многих других поисковых программ, цены на которые порой достигают сотни долларов. Просто каждый ищет то, что ему по душе и по карману. Окончание следует 8 (обратно к тексту) - Phil Bradley. Search Engines (www.philb.com). 9 (обратно к тексту) - И. Гордиенко. «Круизы по Сети на метамашинах - получите удовольствие!» («КТ» #173 от 25.11.96). 10 (обратно к тексту) - И. Гордиенко. «Слова, опять одни слова…» («КТ» #178 от 06.01.97). 11 (обратно к тексту) - И. Гордиенко. «Под тихий шелест листьев WWW…» («КТ» #175 от 09.12.96).
|