КОМПЬЮТЕРРА / БУМАЖНАЯ КОМПЬЮТЕРРА / 2003 / №43 / Text Mining как высокая технология словоблудия

Text Mining как высокая технология словоблудия

11.11.2003
Виктор Шепелев

стр. 3

…и почему

…внутре у ней!
АБС. «Сказка о тройке»

В одном из предыдущих номеров «Компьютерры» (том самом, где в пух и прах разносили пиар) была опубликована замечательная статья Экслера. Так вот, автор, помнится, говорил о подмене понятий, которая происходит в современной рекламе: вместо новых технологий — новая голубая и полупрозрачная крышечка. Как ни печально, в области Data Mining происходит то же самое: вместо развития идей — развитие лексикона, в описании систем появляются все новые и новые словечки, а чтобы системы стали работать лучше — так нет же! Но есть одна крупная и вопиющая разница: единственное, в чем можно упрекнуть новый принтер, — так это в наличии пижонской голубой крышечки, а с задачей своей он вполне справляется. Если же вы купите систему анализа текста «с самыми современными технологиями», то самый большой плюс этой системы — в названии. То есть подмена понятий произошла раньше, чем прогресс системы принес реальные плоды.

Да, у нас есть много теорий, которые теоретически должны работать (пардон за каламбур). Впрочем, наилучшие результаты эти теории показывают на тестовых данных, удовлетворяющих двадцати восьми заумным требованиям (из которых шесть — взаимоисключающие). Да, в каких-то случаях все это работает… если рядом стоит старичок Машкин Эдельвейс Захарович, изобретатель, и барабанит по клавишам. Но, черт возьми, ведь эти технологии по сути своей — почти пресловутый ИИ, золотое дно и ответ на все вопросы. А что мы имеем? Ведь текстовый редактор, в котором можно набирать только восемь букв, да и то — японских, а чтобы отформатировать текст, надо его восемь дней настраивать, — это нонсенс! Почему же, когда дело доходит до «святая святых», «работы со знаниями», — такой уровень функциональности становится нормой и никого не удивляет? Печальная история…

Часть третья, итогово-неопределенная

— Г-голубчики, — сказал Федор Симеонович озадаченно, разобравшись в почерках. — Это же п-проблема Бен Б-бецалеля. К-калиостро же доказал, что она н-не имеет р-решения.
— Мы сами знаем, что она не имеет решения, — сказал Хунта, немедленно ощетинившись. — Мы хотим знать, как ее решать.
АБС. «Понедельник начинается в субботу»

Вот мы и дошли до самого забавного (если до этого места кто-нибудь дочитал). Самое забавное, что когда на критику ответить нечего, то проще всего сказать: «Критиковать, мол, каждый может. Ты что-нибудь конструктивное предложи». Ладно. Пусть будет так. Добавлю и свои рубль двадцать в общую копилку.

Сразу уточню: я не издавал ни восьми монографий, ни тысячедолларовых программ. Все нижесказанное — исключительно мои выводы и мнения, по-русски — ИМХО.

В «Компьютерре» после выхода #504–505 («Мышление и мозг») хорошим тоном стало в статьях о высоких знаниеориентированных технологиях принимать за аксиому, что мышление человеческое не поддается алгоритмизации и дискретизации и, как таковое, не может быть имитировано (моделировано) компьютером. Если не оспаривать это мнение (а автор не чувствует в себе достаточно нахальства, чтобы этим заниматься), то выходит вот что. Проанализировать текст, чтобы понять его смысл, выдать ключевые слова, оценить релевантность запросу, отнести к какой-либо категории (типичные задачи интеллектуального анализа текстов) — задача сугубо человеческая. Тут не то что алгоритмизировать, тут попробуй корректно поставить задачу. А ну-ка, с ходу, хотя бы одно строгое определение понятия «релевантность информации запросу». Какие из найденных файлов лучше всего соответствуют запросу пользователя? «Те, которые содержат информацию, интересную пользователю»? Ну и откуда этой железяке (Pentium 4 1?7 ГГц 512 Мбайт, 80 Гбайт) знать, что именно мне интересно в данный момент?

Так что же, спросит нетерпеливый читатель, так-таки все эти «новые технологии» — сплошной треп? Или автор просто ведет к какому-нибудь эффектному сюжетному ходу, чтобы объяснить на пальцах, как складывать два и два, чтобы получалось четыре?

Правда в том, что автор не знает. Он может лишь предположить, что автоматическим применением к входным данным трех-четырех простых преобразований (как, собственно, и работает сейчас большинство систем) — проблему не решить. Что без глубоких знаний о структуре языка и речи составлять реферат сколько-нибудь реального документа — практически бессмысленно. Что нужны совместные усилия филологов и психологов, лингвистов и программистов, только чтобы понять, что это такое — Дар, извиняюсь за выражение, Слова и Речи, Анализа и Синтеза, Восприятия и, опять же, Осмысления. Тут, господа, не на рынке торговать нужно, а вкалывать, чтобы только пыль из гигабайтов летела.
Но, впрочем, это уже излишне. Ведь системы-то и так продаются. А что будет завтра — можно только предполагать.

И что будет?

— Неизбушка меня не интересует, — говорит режиссер.
— Но она готова? Неизбушка готова?
— Какая неизбушка?
— Обыкновенная. Самая простая, нормальная неизбушка — готова?
Уже было

Позвольте рассказать вам притчу. В 70-х годах прошлого века неглупые люди придумали занятную теорию. Обещала эта теория — просто золотые горы. А именно — по любым числовым данным определять скрытые зависимости. На входе имеем: количество зонтиков в штате Огайо пять лет назад и результаты президентских выборов в том же году. Обучаем систему. Обученной задаем количество зонтиков в штате Огайо по результатам последней переписи. Система скрипит 30 секунд и предсказывает результаты грядущих выборов с точностью до сотой доли процента. Все. Сбылась извечная мечта человечества — мы научились предсказывать будущее. Минобороны США вкладывает в новые технологии миллиарды, биржевые игроки и финансовые воротилы готовы на все, лишь бы приобщиться к благам, которые обещает эта идея. И что? Пшик. На одно верное предсказание — три десятка абсурдных. Значит, шарлатанство. Значит, обман. Не использовать, прекратить финансирование исследований, стереть с лица земли. Двадцать лет понадобилось, чтобы убедиться, что теория нейронных сетей (а именно о ней шла речь) — не шарлатанство. Просто нужно уметь ее применять и видеть ее ограничения. А при этих условиях — пользы от нее существенно больше, нежели вреда. И сам автор, прослушав лекцию о нейронных сетях в университете (стандартный курс для всех кафедр), а затем, услышав от знакомого (и авторитетного) преподавателя «нейронные сети? а что, это кому-то еще нужно?», возвращается на работу в солидную фирму, разрабатывающую программные системы для предсказания с помощью нейронных сетей и успешно ими торгующую. По 100–200 долларов.

Чувствуете аналогию? Точно так же все эти методы и технологии Text Mining, которые сейчас продают как некую панацею, вполне могут завтра стать шарлатанством и лишь через двадцать лет опять оказаться на коне. Одна надежда, что пользователь, наученный горьким опытом нейронных сетей, гербалайфа и еще пары сотен подобных «панацей», не слишком-то поверит рекламе, а поверит своим глазам и не пропустит момента, когда технологии догонят и перегонят рекламу, описание систем превратится в перечисление способов реального применения, каждому воздастся по потребностям (и возьмется по способностям), и добро навеки победит зло.
А пока — добро пожаловать. Неизбушка готова.

стр. 2

стр. 3

<<	Идеальная матрица

Все материалы номера

Все работы хороши?