| Text Mining как высокая технология словоблудия 11.11.2003 Виктор Шепелев
…в общем-то, работает — Урра! Заррработало! Тут читатель, знакомый с отраслью, возмутится: как же так, ведь коммерческие системы создаются. И успешно продаются. Между прочим, расценки на этом рынке стартуют от 104 вечнозеленых единиц. Ведь это же удивительная успешность! Ведь у них-то получается? Часть вторая, реалистически-пессимистическая — …ведь никто не станет отрицать, что избушка готова. Замечательно. Итак, из чего же строится неизбушка? А известно из чего: берем три умные теории — теорию А, теорию Б и теорию В. Программисты их штудируют. Потом упрощают (чтобы легче программировать было, да и все равно это было не нужно). Потом соединяют (типа, что-то новое придумали). Причем не путем длительных экспериментов на реальных данных, а эдак, как бы попроще, — скажем, если мы данные на выходе А подадим на вход Б, а результаты объясним как в литературе по В? Отлично! Кодируем! Этап следующий — удобство использования. Что вы! Какое удобство? Мы адепты Text Mining, нам эти мелочи до фени. Результаты непонятные? Ага, а вы попробуйте три гигабайта информации руками обработать — мы посмотрим, что у вас получится. Не совсем то, что нужно? Ну вы же понимаете, системы интеллектуального анализа данных — это всегда системы нечеткой логики. Тут все просто: нечеткая логика — нечеткие результаты. Вы на третьей странице смотрели? Вот там, в левом углу? Во! А вы говорите — результатов нет! Я о чем? О том, что системы Text Mining — огромное поле для спекуляции. Если, к примеру, в электронной таблице все четко и ясно (работает — значит, работает, считает — значит, 2х2=4, а если не 4, то кому они нужны, такие таблицы) — то здесь все очень расплывчато. Хочешь попробовать новую систему? Ага. Так мы тебе и дали попробовать систему за 18 (Personal) или 53 (Enterprise) тысячи долларов. Смотри результаты тестовых прогонов у нас на сайте. Вот и получается — смотришь одну лишь систему. На сайте, как пример системы рубрикации, — новости месячной давности, разбитые по рубрикам. Причем на глаз разбиение выполнялось так: в рубрику «Компьютеры» шли все тексты, где встречался хоть один компьютерный термин (из ста предварительно заданных). В рубрику «Президент» — где встречалось слово «президент». Или «Путин». Или, на всякий случай, «Кремль». Нет, я не спорю, такой системы за глаза хватит примерно 80 процентам пользователей. Но, братцы. Ей ведь цена — 30 рублей в базарный день. А между прочим, уважаемая фирма. Практически самая известная в Рунете (не говорю — в России, не знаю я, как у них там с продажами и пользователями). Едем дальше. Другая система предлагает протестировать ее «составитель рефератов» прямо на сайте — копируешь туда текст, а он через тридцать секунд выдает краткую аннотацию на 90, 150 или 200 слов. Скопировал. Выдал. Только почему-то аннотация эта подозрительно напоминает первые 90, 150 или 200 слов моего текста (для придир — я перепробовал с десяток совершенно разных текстов). Едем еще дальше. Толстый компьютерный журнал. Публикует обзор восьми самых известных систем Text Mining. Ни одного примера применения. Никаких достоинств-недостатков. Никаких мнений экспертов. Похоже, информация о каждой системе — описание с сайта производителя. «Мощные интеллектуальные алгоритмы, основанные на статистической обработке». Чтобы понять смысл этой фразы, впору применить парочку инструментов Text Mining. Создается впечатление, что никому, кроме самих продавцов, системы не нужны. Вроде гербалайфа. Но ведь кто-то же их покупает за эти страшные деньги! Да и идеи-то заложены правильные, за этими методами — вроде как будущее человеко-компьютерного взаимодействия. Да только вместо того, чтоб теорию двигать, разработки разрабатывать, проще сделать системку побыстрее, назвать покруче и продать подороже. Я тут опрометчиво сказал, что бывают теории опубликованные, а бывают тщательно скрываемые, как know-how. Забыл упомянуть про третий (и, к сожалению, самый распространенный) тип — отсутствие теоретической базы, тщательно прикрываемое громкими словами и маской know-how — не беспокойтесь, мы все равно знаем лучше. Такая вот неизбушка. Зачем… И вы еще спрашиваете? Неужели это не очевидно? Впрочем, в качестве подсказки позвольте провести коротенький сравнительный анализ. Предположим, вы глава софтверной фирмы. И пишете, к примеру, офисные приложения. На что вы можете рассчитывать? Во-первых, переплюнуть Microsoft вы не сможете. Ну просто не сможете и все, примите это как печальный факт. Остается писать что-то, что не охвачено редмондцами. Во-вторых, куча конкурентов, которые начинали лет на десять раньше вас. В-третьих, купив основные офисные приложения по $300 за пучок, вряд ли ваш потенциальный пользователь выложит за какую-нибудь полезную примочку больше 100–150 у.е. В-четвертых, малейшее сообщение об ошибке, или кнопочка покрашена не так, или справка не в том формате — и все — привередливый пользователь крутит носом и покупает продукт одного из 85 с половиной конкурентов. И, наконец, в-восемнадцатых, как-то несолидно говорить о фирме: «наша специализация — офисные приложения». Несовременно, что ли. Это одна сторона банкноты. А вот обратная: у вас Суперсовременная Исследовательская Фирма. Вы занимаетесь интеллектуальным анализом текста и придумали свой новейший метод. Или не придумали, а где-то вычитали и реализовали. Но никому не признаетесь. Сравним ваши перспективы с судьбой гипотетического автора офисных приложений. Во-первых, признанного хедлайнера в этой области еще нет, и никто не мешает вам стать Самым Крутым. Во-вторых, практически ни одна из систем конкурентов не дает удовлетворительных результатов и поэтому не является особо популярной (ваша, впрочем, тоже не дает, но кого это волнует?). В-третьих, всякая уважающая себя система Text Mining стоит не менее 10 тысяч долларов. В-четвертых, никто не обратит внимания на мелкие недоработки интерфейса, потому что а) тут другое важнее и б) если они вылизали интерфейс, значит, у них алгоритмы слабоваты (таков стереотип). И в конце концов, как приятно при встрече с коллегой на вопрос о роде занятий эдак лениво ответить: науку, мол, двигаю… А теперь представьте себя ни тем, ни другим — а просто человеком, который решил завести наконец-то Свое Дело и размышляет: не то офисные приложения писать, не то на острие прогресса податься. Что выберете? Что-что? Лучше неприбыльное, но качественное? Хорош врать-то!
|