Text Mining как высокая технология словоблудия
 
11.11.2003
Виктор Шепелев


 
стр. 1
стр. 2 >>

Статья родилась не спонтанно — «наболело». Будучи на острие прогресса
(в смысле изучения наисовременнейших технологий обработки данных) и сидя на этом острие с открытыми глазами, нельзя не заметить удручающие тенденции: чуть только появляется некое новое направление, некая перспективная идея — ее тут же вытаптывают дикие менеджеры и рекламщики.

Нет, они не против. Они очень даже за. Только чтобы теория давала деньги. Завтра. А лучше — сегодня. Какие там исследования, какое развитие идей — тут крупнее дела, тут надо деньгу зашибить, пока публика не приняла еще сырую технологию за шарлатанство и не выкинула на помойку. Как, похоже, скоро случится с любимой темой автора — технологиями Text Mining.

Часть первая, вводно-оптимистическая
… –
та же добыча радия.
В грамм добыча,
в год труды,
Изводишь
единого слова ради
тысячи тонн
словесной руды.
Маяковский, первый теоретик Text Mining


Да, именно так. А точнее (научнее) — «Метод добычи неизвестных заранее зависимостей из сырых текстовых данных». Из трех тысяч гневных и ругательных писем покупателей выделить рациональное зерно и понять, чем эти письма вызваны (ведь продукт не хуже, чем раньше) — это Text Mining. По запросу «в чем смысл жизни» выбрать соответствующие статьи из энциклопедии — не те, которые объясняют словарное значение слов «смысл» и «жизнь», а, например, выдать ссылки на соответствующие философские труды. По описанию ЧП за последние пять лет определить зависимости между, к примеру, маркой автомобиля, временем года и частотой аварий в районе Тулы (этой проблемой довольно долго и иногда успешно занимался автор). Все это он — Text Mining, а по-нашему — Интеллектуальный Анализ Текста. Вот это он, родимый, и есть.

Эта отрасль компьютерных наук своим появлением обязана двум извечным человеческим порокам — графомании и бюрократии. Это приводит к тому, что в средненькой службе поддержки пользователя количество обрабатываемой корреспонденции на человеко-час превосходит любые человеческие возможности. А попробуйте понять сущность нового изобретения по горе бумажек, которые его документируют. И тот, кто может из сорока пресс-релизов вычленить главное новшество в технологии Microsoft .NET, — тот пусть первый бросит в меня камень. Вот и получается, что информации человечеством накоплены терабайты, а выделить из них зерно знаний — не под силу никому. Неслучайно самые востребованные ноне технологии относятся к Data Mining (дословно — раскопка данных, литературно — интеллектуальный анализ данных), оно же Knowledge Discovery (обнаружение знаний). Частным случаем которых как раз и являются технологии Text Mining.

Вот появляется Он, и имя Ему — специалист по Text Mining! И сразу становится понятно, что покупатели недовольны потому, что им грубит продавщица тетя Зина. Что новое изобретение, запатентованное в Австралии и описанное на 86 страницах, — это колесо. Что самое большое новшество технологии .NET — в том, что ее название начинается с точки (да и то, кажется, такое уже было). И все это — легко, удобно, доступно даже ежику, а ГЛАВНОЕ — сверхсовременно! Так что все и немедленно падают ниц, и новые технологии триумфально шествуют по планете.
Но стоп. Как же у них все получается? В чем суть этих технологий? Каковы результаты их применения?

Мама, как они это делают?

– Магия! — со значением проговорила Бупу.
DragonLance

Итак, немного сухой теории. Основные задачи Data Mining вообще и Text Mining в частности, это: классификация — например, разбиение документов по заранее определенным разделам; кластеризация — разбиение документов на группы, когда принципы группировки заранее неизвестны; прогнозирование и анализ отклонений. Это вообще. В частности же, методы анализа текста применяют для автоматической рубрикации документов, «интеллектуального» поиска, составления аннотаций, а также борьбы со спамом (отделения электронных овец от козлищ), и дальше кому что в голову взбредет.

Причем имейте в виду, что Text Mining — это даже не технология, а отрасль. А технологии в ней бывают самые разные, и классифицировать их можно по-всякому. Например, по степени взаимодействия с языком — ориентированные на конкретный язык или универсальные. По степени инновационности — консервативные (вроде статистического анализа количества некоторых слов в документе) и самые-пресамые передовые-экспериментальные (ключевое слово, которым очень любят бросаться адепты этих учений, — затасканный ИИ). Бывают технологии математические, вроде широко известных нейронных сетей, а бывают сугубо «филологические» — вроде сетей семантических.

Последние рассмотрим как славный и типичнейший пример «технологии будущего», «искусственного интеллекта во плоти» (расхожий штамп как для этой, так и для многих других идей, на которых спекулируют продавцы систем Data Mining). Возьмем название — «семантическая сеть». Произнесите утром восемнадцать раз перед зеркалом — видите, умнеете прямо на глазах! А идейка-то простая. Есть у нас понятия, которые мы для красоты обозначим точками в некотором «пространстве понятий», а связи между ними — обозначим прямыми (или даже кривыми). Все! Все, господа! Вот и вся пресловутая семантическая сеть. Сложно? А как красиво звучит!

Поймите меня правильно. Я не пытаюсь развенчивать какие-то теории. Системы, основывающиеся на семантических сетях, бывают очень хороши. Я просто пытаюсь показать, что на одних умных словах далеко не уедешь. Под любые умные идеи можно подвести никудышную реализацию — а особенно под расплывчатые теории с красивыми названиями.

Но мы отвлеклись. Как бы то ни было, системы интеллектуального анализа текста создаются и продаются, теории существуют — часть из них публикуется и делает имя автору, а часть — скрывается, как know-how, и делает автору деньги.

И вот на фоне всех этих умных слов возникает закономерный вопрос: и что, это все работает? И достигаются поставленные цели? И обнаруживаются новые знания? Ну что вам сказать…


 
стр. 1
стр. 2 >>

<<Идеальная матрица
Все материалы номера
Все работы хороши? >>