Свежий номер №21 (446) / Анализируй это Дата публикации: 06.06.2002
Алексей Арустамов,
alex@basegroup.ru
Data Mining - метод обнаружения в «сырых» данных ранее неизвестных, нетривиальных, практически полезных и доступных для интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. DM обеспечивает решение всего шести задач: классификация, кластеризация, регрессия, ассоциация, последовательность и отклонения.
-
Классификация - отнесение объектов (наблюдений, событий) к одному из заранее известных классов.
-
Кластеризация - группировка объектов (наблюдений, событий) на основе данных (свойств), описывающих сущность объектов. Объекты внутри кластера должны быть «похожими» друг на друга и отличаться от объектов, вошедших в другие кластеры. Чем болeе похожи объекты внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация.
-
Регрессия, в том числе задачи прогнозирования. Установление функциональной зависимости между зависимыми и независимыми переменными.
-
Ассоциация - выявление закономерностей между связанными событиями. Примером может служить правило, указывающее, что из события X следует событие Y. Такие правила называются ассоциативными. Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом рыночной корзины (market basket analysis).
-
Последовательные шаблоны - установление закономерностей между связанными во времени событиями. Например, после события X через определенное время произойдет событие Y.
-
Анализ отклонений - выявление наиболее нехарактерных шаблонов.
|