Text Mining как высокая технология словоблудия 11.11.2003 Виктор Шепелев
Статья родилась не спонтанно — «наболело». Будучи на острие прогресса Нет, они не против. Они очень даже за. Только чтобы теория давала деньги. Завтра. А лучше — сегодня. Какие там исследования, какое развитие идей — тут крупнее дела, тут надо деньгу зашибить, пока публика не приняла еще сырую технологию за шарлатанство и не выкинула на помойку. Как, похоже, скоро случится с любимой темой автора — технологиями Text Mining. Часть первая, вводно-оптимистическая Эта отрасль компьютерных наук своим появлением обязана двум извечным человеческим порокам — графомании и бюрократии. Это приводит к тому, что в средненькой службе поддержки пользователя количество обрабатываемой корреспонденции на человеко-час превосходит любые человеческие возможности. А попробуйте понять сущность нового изобретения по горе бумажек, которые его документируют. И тот, кто может из сорока пресс-релизов вычленить главное новшество в технологии Microsoft .NET, — тот пусть первый бросит в меня камень. Вот и получается, что информации человечеством накоплены терабайты, а выделить из них зерно знаний — не под силу никому. Неслучайно самые востребованные ноне технологии относятся к Data Mining (дословно — раскопка данных, литературно — интеллектуальный анализ данных), оно же Knowledge Discovery (обнаружение знаний). Частным случаем которых как раз и являются технологии Text Mining. Вот появляется Он, и имя Ему — специалист по Text Mining! И сразу становится понятно, что покупатели недовольны потому, что им грубит продавщица тетя Зина. Что новое изобретение, запатентованное в Австралии и описанное на 86 страницах, — это колесо. Что самое большое новшество технологии .NET — в том, что ее название начинается с точки (да и то, кажется, такое уже было). И все это — легко, удобно, доступно даже ежику, а ГЛАВНОЕ — сверхсовременно! Так что все и немедленно падают ниц, и новые технологии триумфально шествуют по планете. Мама, как они это делают? – Магия! — со значением проговорила Бупу. Причем имейте в виду, что Text Mining — это даже не технология, а отрасль. А технологии в ней бывают самые разные, и классифицировать их можно по-всякому. Например, по степени взаимодействия с языком — ориентированные на конкретный язык или универсальные. По степени инновационности — консервативные (вроде статистического анализа количества некоторых слов в документе) и самые-пресамые передовые-экспериментальные (ключевое слово, которым очень любят бросаться адепты этих учений, — затасканный ИИ). Бывают технологии математические, вроде широко известных нейронных сетей, а бывают сугубо «филологические» — вроде сетей семантических. Последние рассмотрим как славный и типичнейший пример «технологии будущего», «искусственного интеллекта во плоти» (расхожий штамп как для этой, так и для многих других идей, на которых спекулируют продавцы систем Data Mining). Возьмем название — «семантическая сеть». Произнесите утром восемнадцать раз перед зеркалом — видите, умнеете прямо на глазах! А идейка-то простая. Есть у нас понятия, которые мы для красоты обозначим точками в некотором «пространстве понятий», а связи между ними — обозначим прямыми (или даже кривыми). Все! Все, господа! Вот и вся пресловутая семантическая сеть. Сложно? А как красиво звучит! Поймите меня правильно. Я не пытаюсь развенчивать какие-то теории. Системы, основывающиеся на семантических сетях, бывают очень хороши. Я просто пытаюсь показать, что на одних умных словах далеко не уедешь. Под любые умные идеи можно подвести никудышную реализацию — а особенно под расплывчатые теории с красивыми названиями. Но мы отвлеклись. Как бы то ни было, системы интеллектуального анализа текста создаются и продаются, теории существуют — часть из них публикуется и делает имя автору, а часть — скрывается, как know-how, и делает автору деньги. И вот на фоне всех этих умных слов возникает закономерный вопрос: и что, это все работает? И достигаются поставленные цели? И обнаруживаются новые знания? Ну что вам сказать…
|