Фонтаны рая
 
23.03.2004
Лев Никитин


 
стр. 1
стр. 2 >>

В последнее время технологии поиска в Интернете привлекают к себе немало внимания. Не так давно Yahoo! отказалась от использования движка Google в пользу разработок приобретенных за прошедшие полтора года компаний Inktomi и Overture.

Вездесущая Microsoft, в свою очередь, объявила о планах перевода службы MSN на собственную технологию (в данный момент в основе поисковика MSN тоже лежит движок от Inktomi). Однако за громкими сообщениями о перестановках в стане «пользовательских» поисковиков информация о гораздо более интересной разработке под названием WebFountain осталась практически незамеченной.

Между тем эта технология, уже четыре с половиной года разрабатываемая в исследовательском центре IBM Almaden Research Center командой из более чем сотни человек, демонстрирует принципиально иной подход к поиску и обработке информации.

Технология

Слева — Эндрю Томкинс (Andrew Tomkins), главный архитектор WebFountain, справа — Боб Карлсон (Bob Carlson), куратор WebFountain.Большинство Интернет-поисковиков базируется на ранжировании документов, которое производится на основании анализа двух основных параметров: релевантности и индекса цитируемости. Первый из них отражает, насколько часто в документе встречается искомое слово или фраза; второй — какое количество ссылок ведет на данную страницу. Таким образом, высший ранг присваивается документу, на который ведет больше всего ссылок с других релевантных страниц и набор слов в котором формально больше всего похож на запрос, введенный пользователем в строке поиска. Как видим, действие такого алгоритма довольно легко обратить себе на пользу1. Ведь чтобы при поиске по заданной фразе тот или иной документ появлялся первым, достаточно всего-навсего увеличить релевантность и значение индекса цитируемости, а для этого — «спрятать» в документе нужную фразу (в последнее время поисковые спамеры уже научились обходиться и без нее), что обеспечит высокую релевантность. Второй шаг — создание на различных сайтах множества страничек, которые будут содержать ссылки на наш документ (последняя мера призвана увеличить индекс цитируемости). Эта нехитрая, но действенная технология в совершенстве освоена поисковыми спамерами, которые предоставляют «услуги» по выведению сайта заказчика на первые места в списке результатов, выдаваемом поисковиком. Одним из нашумевших примеров такого рода «творчества» стал недавний курьез с выражением «miserable failure»2, поиск по которой в системе Google приводил на сайт, посвященный предвыборной кампании одного из кандидатов в президенты США. Самое печальное, что бороться с подобными «шутками» можно пока лишь вручную и только после того, как весть о них облетит весь свет.

Разработка IBM ориентирована на анализ слабоструктурированных и неструктурированных данных и базируется на принципиально иной схеме. В системе WebFountain выделяется три уровня оперирования информацией:

- сбор из Интернета;
- контент-анализ и структурирование документов;
- поиск по индексированным документам и вывод результатов.

На первом уровне происходит первичный отбор информации, подобно тому, как это делают роботы обыкновенных поисковиков. Заслуга разработчиков в том, что WebFountain обрабатывает не только статические страницы, но и доступные корпоративные базы e-mail, каналы IRC, веблоги, электронные доски объявлений, специализированные хранилища бизнес-информации, а также новостные ленты и периодику. Причем данные наиболее часто обновляющихся источников отслеживаются ежедневно.

Однако ноу-хау IBM сосредоточены на втором уровне — в технологиях контент-анализа и структурирования информации, заслуживающих более пристального рассмотрения.

Прежде всего следует обратить внимание на использование языка XML в качестве средства построения внутренней структуры документа. В общих чертах процесс выглядит так. Получив на входе документ, найденный роботом на первом уровне, модуль контент-анализа (так называемый аннотатор), запрограммированный на поиск определенной тематической информации, ищет слова, так или иначе связанные с темой. Аннотаторы могут разрабатываться сторонними компаниями и не являются неизменной частью системы WebFountain. В зависимости от того, какую информацию необходимо найти, к системе могут подключаться те или иные модули. Например, модуль поиска сведений о музыкальных коллективах XX века находит в тексте все соответствующие упоминания и помечает их для дальнейшей обработки. Вот здесь-то и начинается самое интересное. Рассмотрим дальнейшую работу с текстом на простом примере. Выделив все упоминания, на следующем шаге аннотатор дополняет их XML-тегами, содержащими, к примеру, информацию о годе создания и распада группы, а также ее участниках. В итоге текст приобретает следующий вид:

<mus-ref Yfound=1975 Yend=1995 NameVocalist=Mercury>Queen</mus-ref>.

Именно в этой процедуре и заключается основное отличие WebFountain от алгоритмов, используемых большинством поисковиков. Если последние пытаются определить, о чем тот или иной текст, то WebFountain аннотирует его, добавляя к отдельным словам дополнительную информацию.

Вместе с тем и у этой технологии есть слабые места. Рассмотрим, как аннотатор различает британскую королеву и группу Queen. Здесь, на мой взгляд, кроется одна из самых серьезных уязвимостей системы. Дабы определить, о ком именно идет речь, аннотатор просматривает весь текст и ищет в нем упоминания либо членов королевской семьи, либо других музыкальных групп. Если преобладают слова из первой категории, аннотатор принимает решение считать Queen королевой, иначе — группой. Нетрудно представить себе текст, в котором говорится о присутствовавших на концерте Queen членах королевской фамилии. Как будет вести себя программа в подобных случаях, сказать трудно. Но то, что ошибок не избежать, — очевидно. В идеальной же ситуации аннотатор связывает значение отдельных слов с некоторой дополнительной релевантной информацией. Все это делается для того, чтобы последующая обработка текста велась уже с учетом дополнительных сведений о словах, которые в нем встречаются.

Далее текст, «потолстевший» за счет добавления тегов-аннотаций примерно в десять раз, переходит во власть инструментов третьего уровня — анализаторов. По принципу действия они тоже аналогичны поисковым роботам, однако если последние работают с первичными документами, не содержащим пояснительных XML-тегов, то анализаторы получают на входе уже аннотированный текст с дополнительными сведениями. Соответственно поиск групп, существовавших, например, в 1984 году, из задачи, практически непосильной сегодняшним поисковикам, становится лишь делом техники.

Справа — Джордж Буш-младший, нынешний президент США. Слева — Google. Просто Google.Кстати, о технике. Аппаратную составляющую WebFountain условно можно разбить на две части. Кластер, ответственный за хранение данных, состоит из 32 модулей по восемь двухпроцессорных станций на базе Intel Xeon 2,4 ГГц в каждом, соединенных друг с другом посредством Gigabit Ethernet. Возможности системы впечатляют: общая емкость хранилища аннотированных документов, сжатых примерно втрое относительно первоначального объема, достигает 160 Тбайт, суммарная скорость записи составляет 10 Гбайт/с. Центральный кластер, на который возложены задачи индексации и поиска в аннотированных документах, построен на базе пары систем по 64 двухпроцессорных модуля в каждой. Первая система отвечает за сбор данных в Интернете и их аннотирование, вторая обрабатывает запросы. Всё в целом работает под управлением Linux, что уже становится традицией для решений IBM. Ежедневно комплекс, состоящий суммарно из 768 процессоров, анализирует объем информации, эквивалентный 25 миллионам Интернет-страниц. По словам разработчиков, это не предел: после миграции на блэйд-серверы центральный кластер будет состоять из 896 процессоров, а подсистема хранения данных — из 256. В итоге производительность комплекса достигнет невероятной цифры — 8 миллиардов страниц в сутки! Это намного превышает возможности движков Google или Inktomi, обрабатывающих несколько сотен миллионов страниц в сутки.

Однако прямое сравнение здесь не вполне корректно, поскольку для платформы WebFountain речь идет лишь о вычислительной мощности без учета пропускной способности Интернет-каналов. Если предположить, что одна страничка «весит» хотя бы 20 Кбайт, суммарный поток информации для заявленных 8 миллиардов страниц составит 1,6х1011 байт в сутки. Нетрудно убедиться, что это потребует каналов общей пропускной способностью около 1,72 Гбайт/с, причем постоянно. Таким образом, самым узким местом WebFountain станет ширина каналов связи.

Как бы то ни было, следует признать, что разработка IBM выглядит многообещающей, способной существенно потеснить привычные нам поисковики. Если бы не одно «но».


1 Подробнее см. статью Сергея Петренко «Оптимизация сайта для поисковых систем» в «КТ» #497 (www.computerra.ru/offline/2003/497/27600 ). — Прим. ред.
2 Жалкий неудачник (англ.).


 
стр. 1
стр. 2 >>

<<Размер имеет звучание
Все материалы номера
DakNet >>