Процесс Data Mining. Построение и использование модели
Погрешности в процессе Data Mining
Процесс Data Mining может быть успешным и неуспешным. Использование Data Mining не является гарантией получения исключительно достоверных знаний и принятия на основе этих знаний абсолютно верных решений.
Построенная модель может обладать рядом погрешностей. Вот некоторые из них: недостоверные исходные допущения при построении модели ; ограниченные возможности при сборе необходимых данных; неуверенность и страхи пользователя системы, и, в силу этого, слабое их применение; неоправданно высокая стоимость.
Наиболее распространенной погрешностью модели являются неверные или недостоверные исходные допущения. Некоторые допущения поддаются объективной предварительной проверке, другие не могут быть заранее проверены. Если модель Data Mining основана на допущениях, естественно, ее точность зависит от точности допущений. Если допущения предыдущих периодов при использовании модели не оправдались, т.е. оказались неточны, то следует отказаться от "продления" этих допущений на будущие периоды.
Допустим ситуацию, когда модель хорошо работает в 18 из 20 филиалов компании. В двух филиалах, скорее всего, причина ошибок кроется не в погрешностях или неточностях модели, а в совсем других причинах, например, в данных. Если же модель плохо работает во всех филиалах без исключения, то, скорее всего, построенная модель некорректна.
Довольно сложно и установить время, которое необходимо для определения качества оценки модели. Этот отрезок времени обусловливается спецификой задачи и определяется индивидуально.
Ограниченные возможности при сборе необходимых данных
Как говорилось в одной из предыдущих Лекций, при формировании переменных модели следует абстрагироваться от тех данных, которые есть в наличии. Однако, не всегда есть возможность получить именно те данные, которые необходимы, а также быть уверенными в их качестве. Тем не менее, следует учитывать, что точность построенной модели определяется точностью входных данных.
Если внешние факторы, включенные в модель, изменяются очень часто, эти изменения должны отражаться в системе. Следует учитывать, что это не всегда возможно, а иногда - нецелесообразно.
Неуверенность пользователей
По словам Шеннона, ни одну модель "нельзя считать успешно выстроенной, пока она не принята, не понята и не применена на практике". Однако во многих исследованиях, касающихся использования моделей, отмечается, что в процессе принятия решений далеко не все построенные модели используются в полной мере, а некоторые вовсе не используются. Основными причинами этого является недоверие к моделям либо их непонимание. Для того чтобы избежать подобных явлений, лица, принимающие решения, должны принимать участие в постановке той задачи, для которой строится модель. В дальнейшем следует научить руководителя работать с моделью (т.е. ее программной реализацией), в частности, объяснить ему функции модели, возможности, ограничения и т.д.
Неоправданно высокая стоимость
В результате процесса Data Mining должна быть получена выгода (конечно, если речь не идет о научных исследованиях). Полученная прибыль должна оправдать расходы на процесс Data Mining, а это не только стоимость программного обеспечения для Data Mining, но и затраты на подготовку данных, обучение, консультирование и т.д. Стоимость проекта зависит от его длительности, типа конечного приложения, уровня подготовки пользователей, варианта внедрения (готовый продукт, разработка "под ключ", адаптация под конкретную задачу).
Выводы
Важным этапом в процессе Data Mining является предварительная подготовка данных, в том числе их очистка. От качества подготовленных данных будут зависеть результаты всего процесса.
В процессе построения и выбора модели Data Mining следует пробовать использовать различные методы и алгоритмы, а также их сочетания. При отсутствии опыта использования методов Data Mining лучше начинать с более простых, поддающихся интерпретации моделей. Далее можно постепенно усложнять модели, т.е. использовать более сложные методы. Не следует требовать от модели абсолютной точности, модель можно начинать использовать при получении первых приемлемых результатов.
Следует помнить, что процесс Data Mining является итеративным. При невозможности получения результатов, которые эксперт предметной области считает приемлемыми, необходимо вернуться на один из предыдущих этапов процесса.