|
Data mining — не панацея
Мы понимаем data mining как звено в процессе извлечения из операционных данных информации, используемой для принятия управленческих решений. Вообще, занимаясь организационной деятельностью, люди постоянно создавали инфраструктуру сбора данных. На операционном уровне сведения все время накапливались, и с ростом их объемов возник вопрос: что с ними делать дальше? Было очевидно, что из этих сведений могут быть выделены важные тенденции, закономерности и связи. Такого рода информация бесценна для управленца, который сможет опираться на нее при планировании производства, бюджетировании, управлении рисками и т. д. Когда это стало ясно, начали появляться СУБД, а затем была разработана концепция хранилищ данных, которые позволяли накапливать историческую память компании: как она жила, как она функционировала, с какими параметрами. Вместе с тем было непонятно, как все-таки выделить из огромного потока бизнес-данных то ценное, что может реально помочь управленцу принимать верные и своевременные решения. Рынки развивались, конкуренция ужесточалась, компаниям нужно было повышать свою конкурентоспособность, и потребность в автоматизированных технологиях обработки первичных операционных данных переросла в острую необходимость. В 1990-х годах стали появляться первые программные продукты, позволявшие обрабатывать большие объемы исторических данных с целью извлечения из них ранее неизвестных, нетривиальных, практически полезных знаний, помогающих принимать правильные решения. Эти технологии углубленного анализа данных получили название data mining. Интересно, что к моменту их появления уже был наработан почти весь необходимый математический аппарат. Data mining является синтетической областью, и в его основе лежат как статистика, так и принципы самообучающихся программ, эвристики. Все эти компоненты связаны в единое целое, дабы избавить людей от трудоемких расчетов. Data mining предполагает значительную автоматизацию вычислений и передачу бизнес-аналитикам лишь тех тактических и стратегических вопросов, которые не могут быть решены без вмешательства человека. Но решения всегда принимает человек, и иную ситуацию просто невозможно представить. Вылечить может только врач, и серьезные решения может принять только человек. Причем в бизнесе даже нет потребности передавать этот процесс компьютерам. Зато есть потребность обеспечить менеджеру постоянный доступ к самым полным и точным сведениям об организации и окружающей среде. Потенциально data mining может стать основой для получения работающих, адекватных действительности моделей. Ведь если к элегантному математическому аппарату того же когнитивного моделирования добавить параметры и предпосылки, отражающие действительность и добытые из сведений о реальном мире методами data mining, возможно, мы получим гораздо более эффективную систему. Это будет переход от абстракции к связи с реальностью. Потому что в данных есть описание нашей жизни, нашей ситуации. Прямое или косвенное, но есть. Конечно, нельзя утверждать, что технологии data mining и его разновидностей полностью отвечают требованиям современного бизнеса. Вместе с тем data mining — очень динамичная, быстро развивающаяся отрасль индустрии ИТ. Совершенствуются сами технологии, и, что гораздо важнее, в России начинается подготовка специалистов, способных эффективно их применять. Ведь такой человек должен знать бизнес, уметь работать с данными, формулировать задачи и владеть техническим инструментарием. Основное условие успеха data mining — наличие адекватных данных для решения поставленной задачи. Зачастую человек работает со средствами data mining, но ничего ценного и достоверного не обнаруживает. Все реальные зависимости довольно слабы. Настоящая цель data mining — поиск неочевидных закономерностей, которые человек просто так не видит. При этом безусловно важным является дополнение внутренних сведений о компании какими-то данными о внешней среде. Но автоматическое объяснение причин тех или иных закономерностей вряд ли возможно. Это, как и принятие решений, подвластно только человеку.
Структурирование и обработка огромных потоков данных является одной из основных функций управленческих ИС. Ранее мы говорили, что многие недостатки математических моделей и методов проистекают из того, что собрать и обработать сведения, необходимые для полноценного описания действительности, чрезвычайно сложно. Но прогресс не стоит на месте, и не так давно появилась новая концепция обработки «сырых» первичных данных, получившая название data mining (букв. «добыча, разработка данных»). С вопросом о возможностях этой технологии применительно к построению адекватных действительности алгоритмических моделей мы обратились к Сергею Арсеньеву, кандидату технических наук, генеральному директору компании «Мегапьютер», разработчику пакета PolyAnalyst. |