| Text Mining как высокая технология словоблудия 11.11.2003 Виктор Шепелев
…и почему …внутре у ней! Да, у нас есть много теорий, которые теоретически должны работать (пардон за каламбур). Впрочем, наилучшие результаты эти теории показывают на тестовых данных, удовлетворяющих двадцати восьми заумным требованиям (из которых шесть — взаимоисключающие). Да, в каких-то случаях все это работает… если рядом стоит старичок Машкин Эдельвейс Захарович, изобретатель, и барабанит по клавишам. Но, черт возьми, ведь эти технологии по сути своей — почти пресловутый ИИ, золотое дно и ответ на все вопросы. А что мы имеем? Ведь текстовый редактор, в котором можно набирать только восемь букв, да и то — японских, а чтобы отформатировать текст, надо его восемь дней настраивать, — это нонсенс! Почему же, когда дело доходит до «святая святых», «работы со знаниями», — такой уровень функциональности становится нормой и никого не удивляет? Печальная история… Часть третья, итогово-неопределенная — Г-голубчики, — сказал Федор Симеонович озадаченно, разобравшись в почерках. — Это же п-проблема Бен Б-бецалеля. К-калиостро же доказал, что она н-не имеет р-решения. Сразу уточню: я не издавал ни восьми монографий, ни тысячедолларовых программ. Все нижесказанное — исключительно мои выводы и мнения, по-русски — ИМХО. В «Компьютерре» после выхода #504–505 («Мышление и мозг») хорошим тоном стало в статьях о высоких знаниеориентированных технологиях принимать за аксиому, что мышление человеческое не поддается алгоритмизации и дискретизации и, как таковое, не может быть имитировано (моделировано) компьютером. Если не оспаривать это мнение (а автор не чувствует в себе достаточно нахальства, чтобы этим заниматься), то выходит вот что. Проанализировать текст, чтобы понять его смысл, выдать ключевые слова, оценить релевантность запросу, отнести к какой-либо категории (типичные задачи интеллектуального анализа текстов) — задача сугубо человеческая. Тут не то что алгоритмизировать, тут попробуй корректно поставить задачу. А ну-ка, с ходу, хотя бы одно строгое определение понятия «релевантность информации запросу». Какие из найденных файлов лучше всего соответствуют запросу пользователя? «Те, которые содержат информацию, интересную пользователю»? Ну и откуда этой железяке (Pentium 4 1?7 ГГц 512 Мбайт, 80 Гбайт) знать, что именно мне интересно в данный момент? Так что же, спросит нетерпеливый читатель, так-таки все эти «новые технологии» — сплошной треп? Или автор просто ведет к какому-нибудь эффектному сюжетному ходу, чтобы объяснить на пальцах, как складывать два и два, чтобы получалось четыре? Правда в том, что автор не знает. Он может лишь предположить, что автоматическим применением к входным данным трех-четырех простых преобразований (как, собственно, и работает сейчас большинство систем) — проблему не решить. Что без глубоких знаний о структуре языка и речи составлять реферат сколько-нибудь реального документа — практически бессмысленно. Что нужны совместные усилия филологов и психологов, лингвистов и программистов, только чтобы понять, что это такое — Дар, извиняюсь за выражение, Слова и Речи, Анализа и Синтеза, Восприятия и, опять же, Осмысления. Тут, господа, не на рынке торговать нужно, а вкалывать, чтобы только пыль из гигабайтов летела. И что будет? — Неизбушка меня не интересует, — говорит режиссер. Чувствуете аналогию? Точно так же все эти методы и технологии Text Mining, которые сейчас продают как некую панацею, вполне могут завтра стать шарлатанством и лишь через двадцать лет опять оказаться на коне. Одна надежда, что пользователь, наученный горьким опытом нейронных сетей, гербалайфа и еще пары сотен подобных «панацей», не слишком-то поверит рекламе, а поверит своим глазам и не пропустит момента, когда технологии догонят и перегонят рекламу, описание систем превратится в перечисление способов реального применения, каждому воздастся по потребностям (и возьмется по способностям), и добро навеки победит зло.
|