Интернет: ищущий да найдет
 
19.11.2002
Игорь Гордиенко


 
<< Страница 1
Страница 2

Поисковые машины

В Интернете функционирует несколько сотен разных поисковых машин. Конечно, хорошо бы каждую из них проверить в деле, дабы выбрать те, которые наилучшим образом отвечают целям вашего поиска. Однако нельзя объять необъятное…

Есть мнение 8, что существует пять типов поисковых машин. Они осуществляют:

  • поиск по произвольному тексту;

  • поиск с индексацией;

  • множественный поиск;

  • поиск для запросов на естественных языках;

  • поиск специальный - по предметам, доменам, группам участников и т. п.

Алгоритмы функционирования этих машин заметно отличаются, а потому дадим краткие разъяснения по каждому из типов.


Опыт № 2. Негативный

Самые большие неудачи случаются при поиске информации о самых недавних событиях - ее просто изымают с сайтов. Кажется, что она навсегда канула в Лету. Поневоле вспомнишь Гегеля с его замечанием о науке истории… Кроме того, можно вспомнить о продолжающемся подвиге Брюстера Кале, основателе информационной системы WAIS, пытающемся остановить мгновенья и запечатлеть все информационные процессы человечества 1.

С моей точки зрения, его потуги просто тщетны… увы. Вообще, жизнь показывает, что хранить информацию тем дороже, чем плотнее она размещена на носителе. В этом плане есть мера и норма божественной компактности нашего мироздания.


1 (обратно к тексту) - И. Гордиенко. «Хранить вечно» («Инфобизнес» #200 от 19.03.2002).

Поиск по произвольному тексту

Машине задается любое слово, термин, фраза, что заблагорассудится. После этого она начинает искать подобия заданного ключа на сайтах, фигурирующих в базе данных машины. По окончании поиска выдается список обнаруженных сайтов. Как правило, если не задать специальную конструкцию ключевой фразы, то по умолчанию машина ставит между отдельными словами (терминами) логическое «И» (еще более осложняет ситуацию постановка «ИЛИ»), что приводит к очень размытым результатам - в списках могут появляться многие тысячи ссылок. Дабы повысить эффективность, машины ранжируют результаты, например, по релевантности, то есть полноте совпадений, или же по актуальности, то есть дате образования документа. Конечно, в работе каждой из машин есть свои особенности, а потому лучше всего опробовать несколько из них.

Машины этого типа удобны в том случае, когда можно довольно точно сформулировать запрос. Сделать это не всегда просто: следует думать о терминах и определениях предмета, которых должно быть как можно больше - для более целенаправленного поиска. И вместо формулировки «цифровой фотоаппарат» следовало бы написать «цифровой фотоаппарат Olympus продажа». Впрочем, это тоже не гарантирует эффекта, результаты поиска могут оказаться весьма неожиданными.

Таким образом, если не вполне понятно, что же конкретно нужно найти, машины этого типа оказываются малополезными.

Поиск с индексированием

Машины, работающие по этому принципу, начинают поиск с вершины некоторого ветвления, уточняя категории на каждом следующем уровне - вплоть до достижения нужной группы сайтов. В этом есть некое подобие структурам предметных каталогов, но у каталогов структуры почти статичны, а поисковые машины «ведут проходку» в динамике - по последнему сформированному дереву.

Они могут оказаться полезными, когда нужно получить представление о широкой предметной области. Ограничение очевидно: приходится бегать в пределах весьма жесткой классификационной схемы, что может оказаться не просто утомительно, но и расточительно по времени.

Общая конструкция поисковой системы.

Множественный поиск

Машины этого типа вовсе не являются оригинальными поисковыми движками, это - метамашины. Они представляют собой входы (или, если хотите, порталы) к некоторым другим машинам, запросы к которым засылаются параллельно - через общий интерфейс.

У этих устройств есть свои преимущества, например то, что они настраивают унифицированный пользовательский запрос на лексику и логику запроса каждой конкретной используемой машины 9.

Естественноязыковый поиск

Тут все понятно: как спросишь - так и получишь.

Поиск специальный

Сие определение тоже говорит само за себя - искать по предметам, доменам, группам участников и т.п.


Хорошие новости Google

Для тех, кто любит погурманничать свежими новостями, есть хорошая новость: с недавних пор на популярной поисковой машине Google появилась именно такая закладка - News.

Этот проект пока пребывает в бета-фазе, а потому расположен на отдельном сайте news.google.com. Решение для этой службы поистине новаторское: идет сбор новостей более чем из 4 тысяч источников, после чего этот поток автоматически упорядочивается по разделам, в каждом из которых первыми представляются наиболее горячие новости. Процесс этот непрерывный, и, заходя каждый раз на сайт, можно обнаруживать изменение картины.

Новый раздел Google замечателен еще и тем, что в нем унаследованны все свойства поисковой машины. В каждой из рубрик (например Science/ Technology) можно задавать ключевые слова, и на потоке будут выдаваться релевантные новости.


Как они работают?

Все поисковые машины имеют в своем составе то, что принято называть «робот» или «паук» 10 (см. рис. 1). Это программы, которые непрерывно обследуют пространство Интернета, переходя от ссылки к ссылке, - и так без конца. Если роботы находят новые сайты и страницы или обнаруживают, что содержание уже обследованных мест изменилось, они вытаскивают оттуда некоторую информацию и копируют ее в базу данных поисковой машины. Это именно та база, с которой имеют дело пользователи, задающие вопросы и запросы.

[1]

Кстати, желающим сделать свой сайт популярным, вовсе не обязательно дожидаться, пока на него набредут роботы. Существует немало способов разместить ссылки на поисковых машинах немедленно 11.

Поисковые машины в основном бесплатны. Деньги они зарабатывают тем, что либо предлагают собственные платные программные и аппаратные решения (например, Altavista продает программные корпоративные решения для поиска информации на разнородных базах данных), либо предоставляют место для внешней рекламы, которую почти неизбежно придется лицезреть при получении результатов поиска. Кое-кто пытался взимать деньги за поиск информации в Интернете, но это начинание не имело успеха, поскольку общепринятая практика - предоставлять подобные услуги бесплатно.

Поисковые программы

Кроме машин, метамашин, разного рода поисковых порталов и прочих публичных онлайновых ресурсов, есть группа программных инструментов, устанавливаемых на локальные компьютеры. Они весьма удобны при необходимости точной настройки на круг запросов и интересов конкретной персоны.

Этот класс программ называют по-разному, например, на Tucows их зовут «searchbots», чему на русском языке примерно соответствует «роботы-искатели» (месяц назад таких «искателей» числилось в обсуждаемом разделе примерно четыре десятка). Поскольку Tucows известная, но далеко не единственная система маркетинга и распространения программ (всяких - и бесплатных, и с публичными лицензиями, и шареварных, и коммерческих), то нужно говорить примерно о паре сотен существующих и доступных программ этого класса.

В основу работы searchbots заложен следующий принцип: из запроса пользователя, сформулированного согласно несложным правилам самой программы-робота, вырабатываются запросы, специфические по синтаксису и логическим конструкциям для каждого отдельного целевого поискового ресурса в Интернете. То есть из одного получается множество настроенных запросов, которые рассылаются избранному кругу поисковых машин (и/или каталогов). Поисковые программы эволюционировали из метамашин, они обладают большей гибкостью и адаптивностью к потребностям персонального применения.

Году в 1997-м я пользовался здравствующей и ныне программой WebFerret, логичной и удобной (скриншот 1). Но через два года на свет появилась программа Copernic (с августа этого года - Copernic Agent), и с тех пор я ей не изменяю (скриншот 2). Это очень мощное и понятное средство, позволяющее самостоятельно выбирать тематические категории, поисковый предметный домен, задавать состав глобальных поисковых машин, - всего и не описать. Результаты поиска хранятся в собственной базе программы, их можно сохранять в файлах стандартных форматов вместе с гипертекстовыми ссылками, размеры аннотаций можно менять, программа сама обновляет базы поисковых ресурсов при каждом подключении к Интернету.

[2]

Но больше всего прельщает, что Copernic умеет вести индексацию там, где другие программы не работают, а именно на серверных поисковых машинах многих крупных издательств и агентств. К примеру, интересуясь текущим положением дел в корпорации IBM, нужно просто ввести эти три буквы (они и будут индексом) и выбрать категорию поиска «Top News». После этого Copernic сразу разошлет запросы по таким сайтам, как CNN, MSNBC, New York Times, Forbes… (впрочем, перечень грандов медиа тоже можно задать самостоятельно, см. скриншот 3). И будьте спокойны, объемом и качеством найденной информации вы обижены не будете. Конечно, как любое программное средство, Copernic требует в общении определенных навыков, но это приходит быстро.

[3]

Я вовсе не собираюсь делать рекламу программе Copernic - она в ней не нуждается. Тем более что я не сомневаюсь в достоинствах многих других поисковых программ, цены на которые порой достигают сотни долларов. Просто каждый ищет то, что ему по душе и по карману.

Окончание следует


8
(обратно к тексту) - Phil Bradley. Search Engines (www.philb.com).
9 (обратно к тексту) - И. Гордиенко. «Круизы по Сети на метамашинах - получите удовольствие!» («КТ» #173 от 25.11.96).
10 (обратно к тексту) - И. Гордиенко. «Слова, опять одни слова…» («КТ» #178 от 06.01.97).
11 (обратно к тексту) - И. Гордиенко. «Под тихий шелест листьев WWW…» («КТ» #175 от 09.12.96).

 
<< Страница 1
Страница 2


 Чубайс зажигает [ "13-я КОМНАТА" ]
 Новости [ "НОВОСТИ" ]
 МикроФишки [ "НОВОСТИ" ]
 Не пилюля, но таблетка [ "НОВОСТИ" ]
 Старик, подвинься! [ "НОВОСТИ" ]
 DinoZaurus [ "НОВОСТИ" ]
 Если у вас нету денег… [ "НОВОСТИ" ]
 Выбор очевиден? [ "НОВОСТИ" ]
 Любовь и семейный кодекс [ "BUSINESS@RUS" ]
 Заповедник воблинов [ "РОМАНОВСКИЕ НИКЧЕМУШКИ" ]
 Экология российского хайтека [ "ТЕМА НОМЕРА" ]
 Точка росы? [ "ТЕМА НОМЕРА" ]
 Руль для плейера [ "SOFTТЕРРА LITE" ]
 История одного суперадвенчера. Часть первая [ "SOFTТЕРРА LITE" ]
 Волшебный фонарь [ "КОМПЬЮFЕРРА LITE" ]
 Свежая рыба тихо уходит в плавание [ "КОМПЬЮFЕРРА LITE" ]
 Хиппер-процессор [ "КОМПЬЮFЕРРА LITE" ]
 Интернет: ищущий да найдет [ "КАК ЭТО СДЕЛАТЬ" ]
 Эстетические отношения спама к действительности [ "МЫСЛИ" ]
 Вы хотели бы вложить свои деньги в российский хайтек? [ "ВОПРОС НЕДЕЛИ" ]
 Отключать — так с орбиты [ "ПИСЬМОНОСЕЦ" ]


Все материалы номера