КОМПЬЮТЕРРА / БУМАЖНАЯ КОМПЬЮТЕРРА / 2003 / №43 / Text Mining как высокая технология словоблудия

Text Mining как высокая технология словоблудия

11.11.2003
Виктор Шепелев

стр. 2

…в общем-то, работает

— Урра! Заррработало!
Кот Матроскин

Общий ответ на поставленный вопрос — «да». А в частности — когда как. Системы, от которых ждут сенсационных результатов, выдают закономерности, о которых старина Боб говорил на собрании директоров в начале 2-го квартала позапозапрошлого года. А полулюбительские разработки маленьких лабораторий или кафедр провинциальных институтов (привет родной кафедре) вдруг оказываются откровением. Главное, что можно сказать о таких системах на данном этапе развития, — они работают, но не всегда, не везде и не на любых данных. И чаще всего требуют опытного специалиста, который бы трактовал результаты работы, увеличивал объем обучающей выборки, изменял параметры и настройки, оценивал достоверность. Технологии уже не новы, но все еще сырые, не всегда можно ручаться за качество результата — короче, еще учиться и учиться. То есть если на вопрос «работает ли это?» ответить с точки зрения среднестатистического пользователя системы, ответ будет: работает. Но так себе.

Тут читатель, знакомый с отраслью, возмутится: как же так, ведь коммерческие системы создаются. И успешно продаются. Между прочим, расценки на этом рынке стартуют от 104 вечнозеленых единиц. Ведь это же удивительная успешность! Ведь у них-то получается?

Часть вторая, реалистически-пессимистическая

— …ведь никто не станет отрицать, что избушка готова.
— Готова, но не избушка, — возражает режиссер.
— А что готово?
— Только не избушка.
— Хорошо, пусть не избушка. Но готова? Неизбушка готова?
В ход идет новое, доселе неизвестное понятие: неизбушка.
Феликс Кривин. «Записки микрофонщика»

Ага, получается. Правда, не избушка. А неизбушка отлично получается.
Позвольте, я объяснюсь. Как человек, занимающийся научной работой по тематике данной статьи, а также пытающийся практически использовать вышеозначенные технологии (кстати, практически единственный по-настоящему полезный результат всей этой деятельности — собственно статья). И как человек, перелопачивающий для оных научных работ горы литературы и реально существующих систем. Если кто не понял, я пытаюсь обосновать свое право объясняться и делать выводы. Хотя и глуповато оправдываться в середине статьи, но все же совесть стала чище. И, раз уж мы отвлеклись, еще одно оправдание: я не стану называть реальные системы и давать адреса сайтов — просто из принципа, а не потому, что не знаю.

Замечательно. Итак, из чего же строится неизбушка? А известно из чего: берем три умные теории — теорию А, теорию Б и теорию В. Программисты их штудируют. Потом упрощают (чтобы легче программировать было, да и все равно это было не нужно). Потом соединяют (типа, что-то новое придумали). Причем не путем длительных экспериментов на реальных данных, а эдак, как бы попроще, — скажем, если мы данные на выходе А подадим на вход Б, а результаты объясним как в литературе по В? Отлично! Кодируем!

Этап следующий — удобство использования. Что вы! Какое удобство? Мы адепты Text Mining, нам эти мелочи до фени. Результаты непонятные? Ага, а вы попробуйте три гигабайта информации руками обработать — мы посмотрим, что у вас получится. Не совсем то, что нужно? Ну вы же понимаете, системы интеллектуального анализа данных — это всегда системы нечеткой логики. Тут все просто: нечеткая логика — нечеткие результаты. Вы на третьей странице смотрели? Вот там, в левом углу? Во! А вы говорите — результатов нет!

Я о чем? О том, что системы Text Mining — огромное поле для спекуляции. Если, к примеру, в электронной таблице все четко и ясно (работает — значит, работает, считает — значит, 2х2=4, а если не 4, то кому они нужны, такие таблицы) — то здесь все очень расплывчато. Хочешь попробовать новую систему? Ага. Так мы тебе и дали попробовать систему за 18 (Personal) или 53 (Enterprise) тысячи долларов. Смотри результаты тестовых прогонов у нас на сайте. Вот и получается — смотришь одну лишь систему. На сайте, как пример системы рубрикации, — новости месячной давности, разбитые по рубрикам. Причем на глаз разбиение выполнялось так: в рубрику «Компьютеры» шли все тексты, где встречался хоть один компьютерный термин (из ста предварительно заданных). В рубрику «Президент» — где встречалось слово «президент». Или «Путин». Или, на всякий случай, «Кремль». Нет, я не спорю, такой системы за глаза хватит примерно 80 процентам пользователей. Но, братцы. Ей ведь цена — 30 рублей в базарный день. А между прочим, уважаемая фирма. Практически самая известная в Рунете (не говорю — в России, не знаю я, как у них там с продажами и пользователями).

Едем дальше. Другая система предлагает протестировать ее «составитель рефератов» прямо на сайте — копируешь туда текст, а он через тридцать секунд выдает краткую аннотацию на 90, 150 или 200 слов. Скопировал. Выдал. Только почему-то аннотация эта подозрительно напоминает первые 90, 150 или 200 слов моего текста (для придир — я перепробовал с десяток совершенно разных текстов).

Едем еще дальше. Толстый компьютерный журнал. Публикует обзор восьми самых известных систем Text Mining. Ни одного примера применения. Никаких достоинств-недостатков. Никаких мнений экспертов. Похоже, информация о каждой системе — описание с сайта производителя. «Мощные интеллектуальные алгоритмы, основанные на статистической обработке». Чтобы понять смысл этой фразы, впору применить парочку инструментов Text Mining. Создается впечатление, что никому, кроме самих продавцов, системы не нужны. Вроде гербалайфа.

Но ведь кто-то же их покупает за эти страшные деньги! Да и идеи-то заложены правильные, за этими методами — вроде как будущее человеко-компьютерного взаимодействия. Да только вместо того, чтоб теорию двигать, разработки разрабатывать, проще сделать системку побыстрее, назвать покруче и продать подороже. Я тут опрометчиво сказал, что бывают теории опубликованные, а бывают тщательно скрываемые, как know-how. Забыл упомянуть про третий (и, к сожалению, самый распространенный) тип — отсутствие теоретической базы, тщательно прикрываемое громкими словами и маской know-how — не беспокойтесь, мы все равно знаем лучше.

Такая вот неизбушка.

Зачем…
— Шейчаш я тебе покажу, хто это и жачем это, штоматолог чертов!
Змей Горыныч

Зачем же нас обманывают? Почему эти системы создают люди, предел способностей которых — второсортные офисные приложения?

И вы еще спрашиваете? Неужели это не очевидно?

Впрочем, в качестве подсказки позвольте провести коротенький сравнительный анализ. Предположим, вы глава софтверной фирмы. И пишете, к примеру, офисные приложения. На что вы можете рассчитывать? Во-первых, переплюнуть Microsoft вы не сможете. Ну просто не сможете и все, примите это как печальный факт. Остается писать что-то, что не охвачено редмондцами. Во-вторых, куча конкурентов, которые начинали лет на десять раньше вас. В-третьих, купив основные офисные приложения по $300 за пучок, вряд ли ваш потенциальный пользователь выложит за какую-нибудь полезную примочку больше 100–150 у.е.

В-четвертых, малейшее сообщение об ошибке, или кнопочка покрашена не так, или справка не в том формате — и все — привередливый пользователь крутит носом и покупает продукт одного из 85 с половиной конкурентов. И, наконец, в-восемнадцатых, как-то несолидно говорить о фирме: «наша специализация — офисные приложения». Несовременно, что ли.

Это одна сторона банкноты. А вот обратная: у вас Суперсовременная Исследовательская Фирма. Вы занимаетесь интеллектуальным анализом текста и придумали свой новейший метод. Или не придумали, а где-то вычитали и реализовали. Но никому не признаетесь. Сравним ваши перспективы с судьбой гипотетического автора офисных приложений. Во-первых, признанного хедлайнера в этой области еще нет, и никто не мешает вам стать Самым Крутым. Во-вторых, практически ни одна из систем конкурентов не дает удовлетворительных результатов и поэтому не является особо популярной (ваша, впрочем, тоже не дает, но кого это волнует?). В-третьих, всякая уважающая себя система Text Mining стоит не менее 10 тысяч долларов. В-четвертых, никто не обратит внимания на мелкие недоработки интерфейса, потому что а) тут другое важнее и б) если они вылизали интерфейс, значит, у них алгоритмы слабоваты (таков стереотип). И в конце концов, как приятно при встрече с коллегой на вопрос о роде занятий эдак лениво ответить: науку, мол, двигаю…

А теперь представьте себя ни тем, ни другим — а просто человеком, который решил завести наконец-то Свое Дело и размышляет: не то офисные приложения писать, не то на острие прогресса податься. Что выберете? Что-что? Лучше неприбыльное, но качественное? Хорош врать-то!

стр. 1

стр. 2

стр. 3

<<	Идеальная матрица

Все материалы номера

Все работы хороши?