Data Mining

:

Data Mining

: Информация
Опубликован: 22.04.2006 | Уровень: специалист | Доступ: платный
Курс знакомит слушателей с технологией Data Mining, подробно рассматриваются методы, инструментальные средства и применение Data Mining. Описание каждого метода сопровождается конкретным примером его использования.
Обсуждаются отличия Data Mining от классических статистических методов анализа и OLAP-систем, рассматриваются типы закономерностей, выявляемых Data Mining (ассоциация, классификация, последовательность, кластеризация, прогнозирование). Описывается сфера применения Data Mining. Вводится понятие Web Mining. Подробно рассматриваются методы Data Mining: нейронные сети, деревья решений, методы ограниченного перебора, генетические алгоритмы, эволюционное программирование, кластерные модели, комбинированные методы. Знакомство с каждым методом проиллюстрировано решением практической задачи с помощью инструментального средства, использующего технологию Data Mining.Излагаются основные концепции хранилищ данных и места Data Mining в их архитектуре. Вводятся понятия OLTP, OLAP, ROLAP, MOLAP.Обсуждается процесс анализа данных с помощью технологии Data Mining. Подробно рассматриваются этапы этого процесса. Анализируется рынок аналитического программного обеспечения, описываются продукты от ведущих производителей Data Mining, обсуждаются их возможности.
Цель: Познакомить слушателей с теоретическими аспектами технологии Data Mining, методами, возможностью их применения, дать практические навыки по использованию инструментальных средств Data Mining
Необходимые знания: Желательны, но не обязательны знания по информатике, основам теории баз данных, знания по математике (в пределах начальных курсов ВУЗа), технологии обработки информации.

План занятий

ЗанятиеЗаголовок <<Дата изучения
-
Лекция 1
41 минута
Что такое Data Mining?
В лекции подробно рассмотрено понятие Data Mining. Описано возникновение, перспективы, проблемы Data mining. Дан взгляд на технологию Data Mining как на часть рынка информационных технологий.
Оглавление
    -
    Тест 1
    15 минут
    -
    Лекция 2
    44 минуты
    Данные
    В лекции подробно рассматривается понятие данных. Объясняется значение понятий объект и атрибут, выборка, зависимая и независимая переменная. Подробно обсуждаются типы шкал. Приводятся различные типы наборов данных. Кратко рассмотрены понятия базы данных и СУБД.
    Оглавление
      -
      Тест 2
      15 минут
      -
      Лекция 3
      40 минут
      Методы и стадии Data Mining
      В лекции описаны стадии Data Mining и действия, выполняемые в рамках этих стадий. Рассмотрены известные классификации методов Data Mining. Приведена сравнительная характеристика некоторых методов, основанная на их свойствах.
      Оглавление
        -
        Тест 3
        15 минут
        -
        Лекция 4
        44 минуты
        Задачи Data Mining. Информация и знания
        В лекции кратко описана основная суть задач Data Mining и их классификация. Подробно рассмотрены понятия "информация", "знания", а также дано сопоставление и сравнение этих понятий.
        Оглавление
          -
          Тест 4
          15 минут
          -
          Лекция 5
          42 минуты
          Задачи Data Mining. Классификация и кластеризация
          В этой лекции подробно рассматриваются две задачи Data Mining - классификация и кластеризация. Описаны суть задач, процесс решения, методы решения, применение. Приведено сравнение двух рассмотренных задач.
          Оглавление
            -
            Тест 5
            15 минут
            -
            Лекция 6
            42 минуты
            Задачи Data Mining. Прогнозирование и визуализация
            В лекции описана суть задачи прогнозирования. Рассмотрено понятие временного ряда, его компоненты, параметры прогнозирования, виды прогнозов. Кратко охарактеризована задача визуализации данных.
            Оглавление
              -
              Тест 6
              15 минут
              -
              Лекция 7
              37 минут
              Сферы применения Data Mining
              В лекции рассмотрены основные сферы деятельности человека, где может успешно применяться технология Data Mining. Вводятся понятия Web Mining, Text Mining, Call Mining.
              Оглавление
                -
                Тест 7
                15 минут
                -
                Лекция 8
                42 минуты
                Основы анализа данных
                Лекция посвящена основам анализа данных, рассмотрены основные характеристики описательной статистики, кратко изложена суть корреляционного и регрессионного анализа. Приведены примеры решения задач в Microsoft Excel.
                Оглавление
                  -
                  Тест 8
                  15 минут
                  -
                  Лекция 9
                  39 минут
                  Методы классификации и прогнозирования. Деревья решений
                  Описывается метод деревьев решений. Рассматриваются элементы дерева решения, процесс его построения. Приведены примеры деревьев, решающих задачу классификации. Даны алгоритмы конструирования деревьев решений CART и C4.5.
                  Оглавление
                    -
                    Тест 9
                    15 минут
                    -
                    Лекция 10
                    39 минут
                    Методы классификации и прогнозирования. Метод опорных векторов. Метод "ближайшего соседа". Байесовская классификация
                    Описаны основные идеи метода опорных векторов, метода "ближайшего соседа" и байесовской классификации. Рассмотрены преимущества и недостатки этих методов.
                    Оглавление
                      -
                      Тест 10
                      15 минут
                      -
                      Лекция 11
                      48 минут
                      Методы классификации и прогнозирования. Нейронные сети
                      В лекции описывается метод нейронных сетей. Рассмотрены элементы и архитектура, процесс обучения и явление переобучения нейронной сети. Описана такая модель нейронной сети как персептрон. Приведен пример решения задачи при помощи аппарата нейронных сетей.
                      Оглавление
                        -
                        Тест 11
                        15 минут
                        -
                        Лекция 12
                        35 минут
                        Нейронные сети. Самоорганизующиеся карты Кохонена.
                        В лекции продолжается описание работы с нейронными сетями, в частности, рассматриваются классификации нейронных сетей. Описан процесс подготовки данных для обучения. Подробно рассмотрены самоорганизующиеся карты Кохонена, приведен пример решения задачи.
                        Оглавление
                          -
                          Тест 12
                          15 минут
                          -
                          Лекция 13
                          39 минут
                          Методы кластерного анализа. Иерархические методы
                          В лекции рассматриваются основы кластерного анализа, математические характеристики кластера. Описаны две группы иерархического кластерного анализа: агломеративные и дивизимные методы. Приведен пример иерархического кластерного анализа в SPSS.
                          Оглавление
                            -
                            Тест 13
                            15 минут
                            -
                            Лекция 14
                            35 минут
                            Методы кластерного анализа. Итеративные методы.
                            Рассмотрены итеративные методы на примере алгоритма k-средних. Изложена основа факторного анализа и итеративная кластеризация в SPSS. Описан процесс кластерного анализа. Приведен сравнительный анализ иерархических и неиерархических методов и некоторые новые алгоритмы.
                            Оглавление
                              -
                              Тест 14
                              15 минут
                              -
                              Лекция 15
                              46 минут
                              Методы поиска ассоциативных правил
                              В лекции описана суть задачи поиска ассоциативных правил. Рассмотрен алгоритм Apriori. Кратко изложена суть некоторых других алгоритмов. Рассмотрен пример решения задачи в аналитическом пакете Deductor.
                              Оглавление
                                -
                                Тест 15
                                15 минут
                                -
                                Лекция 16
                                36 минут
                                Способы визуального представления данных. Методы визуализации
                                В лекции рассматриваются методы и средства визуального представления информации, в частности, способы представления информации в одно-, двух-, трехмерном измерениях, а также способы отображения информации в более чем трех измерениях. Описаны принципы качественной визуализации. Изложены основные тенденции в области визуализации.
                                Оглавление
                                  -
                                  Тест 16
                                  15 минут
                                  -
                                  Лекция 17
                                  45 минут
                                  Комплексный подход к внедрению Data Mining, OLAP и хранилищ данных в СППР
                                  В лекции рассматриваются такой тип информационных систем, как СППР, их типы и компоненты. Изложены основные идеи OLAP-технологии, архитектуры OLAP-серверов, интеграции Data Mining и OLAP. Описана технология хранилищ данных и преимущества их использования, в частности, для процесса Data Mining.
                                  Оглавление
                                    -
                                    Тест 17
                                    15 минут
                                    -
                                    Лекция 18
                                    37 минут
                                    Процесс Data Mining. Начальные этапы
                                    В лекции рассматриваются три первые этапа процесса Data Mining. Подробно описан процесс подготовки данных, введены понятия качества данных, грязных данных, этапы очистки данных.
                                    Оглавление
                                      -
                                      Тест 18
                                      15 минут
                                      -
                                      Лекция 19
                                      37 минут
                                      Процесс Data Mining. Очистка данных
                                      Рассматриваются две классификации инструментов очистки и редактирования данных, основные функции инструментов очистки данных, классификация ошибок в данных, которые возникают в результате использования средств очистки данных.
                                      Оглавление
                                        -
                                        Тест 19
                                        15 минут
                                        -
                                        Лекция 20
                                        51 минута
                                        Процесс Data Mining. Построение и использование модели
                                        В лекции рассматриваются этапы процесса Data Mining, связанные с построением, проверкой, оценкой, выбором и коррекцией моделей. Подробно исследуются понятия "модель" и "моделирование".
                                        Оглавление
                                          -
                                          Тест 20
                                          15 минут
                                          -
                                          Лекция 21
                                          44 минуты
                                          Организационные и человеческие факторы в Data Mining. Стандарты Data Mining
                                          В лекции процесс Data Mining рассматривается с точки зрения организационных факторов, а также в соответствии с известными методологиями CRISP и SEMMA. Кратко описываются стандарты, имеющие прямое и опосредованное отношение к Data Mining.
                                          Оглавление
                                            -
                                            Тест 21
                                            15 минут
                                            -
                                            Лекция 22
                                            45 минут
                                            Рынок инструментов Data Mining
                                            В лекции рассматривается рынок инструментов Data Mining, в частности, его развитие, поставщики инструментов, классификация инструментов. Описаны критерии, по которым можно сравнивать и выбирать инструмент Data Mining.
                                            Оглавление
                                              -
                                              Тест 22
                                              15 минут
                                              -
                                              Лекция 23
                                              51 минута
                                              Инструменты Data Mining. SAS Enterprise Miner
                                              В лекции рассматривается пакет SAS Enterprise Miner 5.1. Дан обзор программного продукта, описаны основные характеристики и технические требования пакета. Кратко описан подход SAS к созданию информационно-аналитических систем.
                                              Оглавление
                                                -
                                                Тест 23
                                                15 минут
                                                -
                                                Лекция 24
                                                45 минут
                                                Инструменты Data Mining. Система PolyAnalyst
                                                В лекции описывается система PolyAnalyst. Рассматривается ее архитектура, аналитический инструментарий, краткая характеристика математических алгоритмов PolyAnalyst. Кратко охарактеризована система WebAnalyst.
                                                Оглавление
                                                  -
                                                  Тест 24
                                                  15 минут
                                                  -
                                                  Лекция 25
                                                  49 минут
                                                  Инструменты Data Mining. Программные продукты Cognos и система STATISTICA Data Miner
                                                  В лекции рассмотрено два инструмента Data Mining. Первый из них - комплекс программных средств компании Cognos; описаны особенности методологии моделирования в системе. Второй инструмент - STATISTICA Data Miner, описаны средства анализа и схема работы.
                                                  Оглавление
                                                    -
                                                    Тест 25
                                                    15 минут
                                                    -
                                                    Лекция 26
                                                    42 минуты
                                                    Инструменты Oracle Data Mining и Deductor
                                                    В лекции рассматриваются два продукта: Data Mining от Oracle и Deductor. Дана характеристика Oracle Data Mining, реализованные алгоритмы и функциональные возможности. Рассмотрена аналитическая платформа Deductor, архитектура ее системы и аналитические алгоритмы.
                                                    Оглавление
                                                      -
                                                      Тест 26
                                                      15 минут
                                                      -
                                                      Лекция 27
                                                      33 минуты
                                                      Инструмент KXEN
                                                      Рассматривается программное обеспечение KXEN. Указываются отличия подхода KXEN от традиционного подхода Data Mining. Исследуются предпосылки создания системы KXEN и ее технические характеристики. Описаны ключевые компоненты системы KXEN. Разобрана технология IOLAP.
                                                      Оглавление
                                                        -
                                                        Тест 27
                                                        15 минут
                                                        -
                                                        Лекция 28
                                                        36 минут
                                                        Data Mining консалтинг
                                                        Рассмотрено понятие Data Mining-консалтинга, предоставления услуг по эффективному внедрению этой технологии. Описаны преимущества этого варианта. Изложена процедура работы консалтинговой компании SnowCactus с клиентом.
                                                        Оглавление
                                                          -
                                                          Тест 28
                                                          15 минут
                                                          -
                                                          5 часов
                                                          -
                                                          Артем Петровский
                                                          Артем Петровский
                                                          Бангладеш, Бурусу
                                                          qiusheng lv
                                                          qiusheng lv
                                                          Китай, nanhucun