Задачи Data Mining. Информация и знания
От данных к решениям
Для начала рассмотрим первый поток. На рис. 4.1.показана связь понятий "данные", "информация" и "решения", которая возникает в процессе принятия решений.
Как видно из рисунка, данный процесс является циклическим. Принятие решений требует информации, которая основана на данных. Данные обеспечивают информацию, которая поддерживает решения, и т.д.
Рассмотренные понятия являются составной частью так называемой информационной пирамиды, в основании которой находятся данные, следующий уровень - это информация, затем идет решение, завершает пирамиду уровень знания. По мере продвижения вверх по информационной пирамиде объемы данных переходят в ценность решений, т.е. ценность для бизнеса. А, как известно, целью Business Intelligence является преобразование объемов данных в ценность бизнеса.
От задачи к приложению
Теперь подойдем к этому же процессу с другой стороны. Рассмотрим рис. 4.2. По словам авторов [17], он не претендует на полноту, зато отображает все уровни, которые затрагивает Data Mining.
Следует отметить, что уровни анализа (данные, информация, знания ) практически соответствуют этапам эволюции анализа данных, которая происходила на протяжении последних лет.
Верхний - уровень приложений - является уровнем бизнеса (если мы имеем дело с задачей бизнеса), на нем менеджеры принимают решения. Приведенные примеры приложений: перекрестные продажи, контроль качества, удерживание клиентов.
Средний - уровень действий - по своей сути является уровнем информации, именно на нем выполняются действия Data Mining; на рисунке приведены такие действия: прогностическое моделирование (было рассмотрено в предыдущей лекции), анализ связей, сегментация данных и другие.
Нижний - уровень определения задачи Data Mining, которую необходимо решить применительно к данным, имеющимся в наличии; на рисунке приведены задачи предсказания числовых значений, классификация, кластеризация, ассоциация.
Рассмотрим таблицу, демонстрирующую связь этих понятий.
Напомним, что для решения задачи классификации результаты работы первой стадии (индукции правил) используются для отнесения нового объекта, с определенной уверенностью, к одному из известных, предопределенных классов на основании известных значений.
Рассмотрим задачу удержания клиентов (определения надежности клиентов фирмы).
Первый уровень. Данные - база данных по клиентам. Есть данные о клиенте (возраст, пол, профессия, доход). Определенная часть клиентов, воспользовавшись продуктом фирмы, осталась ей верна; другие клиенты больше не приобретали продукты фирмы. На этом уровне мы определяем тип задачи - это задача классификации.
На втором уровне определяем действие - прогностическое моделирование. С помощью прогностического моделирования мы с определенной долей уверенности можем отнести новый объект, в данном случае, нового клиента, к одному из известных классов - постоянный клиент, или это, скорее всего, его разовая покупка.
На третьем уровне мы можем воспользоваться приложением для принятия решения. В результате приобретения знаний, фирма может существенно снизить расходы, например, на рекламу, зная заранее, каким из клиентов следует активно рассылать рекламные материалы.
Таким образом, на протяжении нескольких лекций мы определились с понятиями "данные", "задачи", "методы", "действия".