Фонтаны рая 23.03.2004 Лев Никитин
В последнее время технологии поиска в Интернете привлекают к себе немало внимания. Не так давно Yahoo! отказалась от использования движка Google в пользу разработок приобретенных за прошедшие полтора года компаний Inktomi и Overture. Вездесущая Microsoft, в свою очередь, объявила о планах перевода службы MSN на собственную технологию (в данный момент в основе поисковика MSN тоже лежит движок от Inktomi). Однако за громкими сообщениями о перестановках в стане «пользовательских» поисковиков информация о гораздо более интересной разработке под названием WebFountain осталась практически незамеченной. Между тем эта технология, уже четыре с половиной года разрабатываемая в исследовательском центре IBM Almaden Research Center командой из более чем сотни человек, демонстрирует принципиально иной подход к поиску и обработке информации. Разработка IBM ориентирована на анализ слабоструктурированных и неструктурированных данных и базируется на принципиально иной схеме. В системе WebFountain выделяется три уровня оперирования информацией: - сбор из Интернета; На первом уровне происходит первичный отбор информации, подобно тому, как это делают роботы обыкновенных поисковиков. Заслуга разработчиков в том, что WebFountain обрабатывает не только статические страницы, но и доступные корпоративные базы e-mail, каналы IRC, веблоги, электронные доски объявлений, специализированные хранилища бизнес-информации, а также новостные ленты и периодику. Причем данные наиболее часто обновляющихся источников отслеживаются ежедневно. Однако ноу-хау IBM сосредоточены на втором уровне — в технологиях контент-анализа и структурирования информации, заслуживающих более пристального рассмотрения. Прежде всего следует обратить внимание на использование языка XML в качестве средства построения внутренней структуры документа. В общих чертах процесс выглядит так. Получив на входе документ, найденный роботом на первом уровне, модуль контент-анализа (так называемый аннотатор), запрограммированный на поиск определенной тематической информации, ищет слова, так или иначе связанные с темой. Аннотаторы могут разрабатываться сторонними компаниями и не являются неизменной частью системы WebFountain. В зависимости от того, какую информацию необходимо найти, к системе могут подключаться те или иные модули. Например, модуль поиска сведений о музыкальных коллективах XX века находит в тексте все соответствующие упоминания и помечает их для дальнейшей обработки. Вот здесь-то и начинается самое интересное. Рассмотрим дальнейшую работу с текстом на простом примере. Выделив все упоминания, на следующем шаге аннотатор дополняет их XML-тегами, содержащими, к примеру, информацию о годе создания и распада группы, а также ее участниках. В итоге текст приобретает следующий вид: Вместе с тем и у этой технологии есть слабые места. Рассмотрим, как аннотатор различает британскую королеву и группу Queen. Здесь, на мой взгляд, кроется одна из самых серьезных уязвимостей системы. Дабы определить, о ком именно идет речь, аннотатор просматривает весь текст и ищет в нем упоминания либо членов королевской семьи, либо других музыкальных групп. Если преобладают слова из первой категории, аннотатор принимает решение считать Queen королевой, иначе — группой. Нетрудно представить себе текст, в котором говорится о присутствовавших на концерте Queen членах королевской фамилии. Как будет вести себя программа в подобных случаях, сказать трудно. Но то, что ошибок не избежать, — очевидно. В идеальной же ситуации аннотатор связывает значение отдельных слов с некоторой дополнительной релевантной информацией. Все это делается для того, чтобы последующая обработка текста велась уже с учетом дополнительных сведений о словах, которые в нем встречаются. Далее текст, «потолстевший» за счет добавления тегов-аннотаций примерно в десять раз, переходит во власть инструментов третьего уровня — анализаторов. По принципу действия они тоже аналогичны поисковым роботам, однако если последние работают с первичными документами, не содержащим пояснительных XML-тегов, то анализаторы получают на входе уже аннотированный текст с дополнительными сведениями. Соответственно поиск групп, существовавших, например, в 1984 году, из задачи, практически непосильной сегодняшним поисковикам, становится лишь делом техники.
Однако прямое сравнение здесь не вполне корректно, поскольку для платформы WebFountain речь идет лишь о вычислительной мощности без учета пропускной способности Интернет-каналов. Если предположить, что одна страничка «весит» хотя бы 20 Кбайт, суммарный поток информации для заявленных 8 миллиардов страниц составит 1,6х1011 байт в сутки. Нетрудно убедиться, что это потребует каналов общей пропускной способностью около 1,72 Гбайт/с, причем постоянно. Таким образом, самым узким местом WebFountain станет ширина каналов связи. Как бы то ни было, следует признать, что разработка IBM выглядит многообещающей, способной существенно потеснить привычные нам поисковики. Если бы не одно «но». 1 Подробнее см. статью Сергея Петренко «Оптимизация сайта для поисковых систем» в «КТ» #497 (www.computerra.ru/offline/2003/497/27600 ). — Прим. ред.
|