Инструменты Data Mining. SAS Enterprise Miner
Распределенная система интеллектуального анализа данных, ориентированная на крупные предприятия
Пакет SAS Enterprise Miner может быть развернут с использованием Web-портала для тонких клиентов, что обеспечивает удобный доступ к пакету для множества пользователей при минимальных затратах на обслуживание клиентских программ. Пакет SAS Enterprise Miner поддерживает серверные системы Windows, а также различные UNIX~платформы. Технические характеристики пакета изложены в конце этой лекции.
Основные характеристики пакета SAS Enterprise Miner 5.1
Интерфейсы
Простой графический интерфейс, создающий диаграммы процессов обработки данных:
- Быстрое создание большого числа качественных моделей.
- Возможность доступа через Web-интерфейс.
- Доступ к среде программирования SAS.
- Возможность обмена диаграммами в формате XML.
- Возможность повторного использования диаграмм в качестве шаблонов для других проектов и пользователей.
Пакетная обработка:
Экспериментальный интерфейс Java API.
Репозитарий моделей с Web-интерфейсом:
- Управление большими портфелями моделей.
- Поиск моделей по заданному алгоритму, целевой переменной и т.п.
- Публикация результатов в виде ступенчатых диаграмм, деревьев и скоринг-кодов, удобных для специалистов в области бизнеса и анализа данных.
Масштабируемая обработка
- Серверная обработка - обучение модели в асинхронном режиме. Аккуратная остановка обработки (по заданным критериям).
- Параллельная обработка - одновременный запуск нескольких диаграмм или инструментов.
- Многопоточные прогностические алгоритмы.
- Все хранение и обработка данных - на серверах.
Доступ к данным
Доступ более чем к 50 различным файловым структурам.
Интеграция с пакетом SAS ETL Studio посредством SAS Metadata Server:
- SAS ETL Studio можно использовать для определения исходных, обучающих таблиц для пакета Enterprise Miner.
- SAS ETL Studio можно использовать для извлечения и развертывания скоринг-кода пакета Enterprise Miner.
Выборки
- Простая случайная.
- Стратифицированная.
- Взвешенная.
- Кластерная.
- Систематическая.
- Первые N наблюдений.
- Выборка редких событий.
Разбивка данных
- Создание обучающих, проверочных и тестовых наборов данных.
- Обеспечение качественного обобщения моделей на основании контрольных данных.
- Стандартная стратификация по целевому классу.
- Сбалансированная разбивка по любой классовой переменной.
Преобразования
- Простые: логарифмическое, квадратный корень, обратное, квадратичное, экспоненциальное, стандартизованное.
- Накопительные: bucketed (с разбивкой по областям), квантильное, оптимизированная разбивка по взаимосвязи с целевымм значениями.
- Оптимизированные: максимизация нормализации, максимизация корреляции с целевыми значениями, выравнивание распределения по целевым уровням.
Фильтрация недостоверных данных
- Применение различных распределительных порогов, позволяющих исключить значения из экстремальных интервалов.
- Объединение классовых значений, встречающихся менее n раз.
Замена данных
- С использованием мер центрированности.
- На основе распределения.
- Заполнение дерева суррогатными значениями.
- Методом усреднения расстояний.
- С использованием устойчивых M-оценок.
- С использованием стандартных констант.
Описательная статистика
Одномерные статистические таблицы и графики:
- Интервальные переменные n, среднее, медиана, минимум, максимум, стандартное отклонение, масштабированное отклонение и процент отсутствия.
- Классовые переменные число категорий, счетчики, модальные, процентные модальные, процент отсутствия.
- Графики распределения.
- Статистическая разбивка для каждого уровня целевых классов.
Двумерные статистические таблицы и графики:
- Упорядоченные графики корреляции Пирсона и Спирмана.
- Упорядоченный график хи-квадрат с возможностью группировки непрерывных исходных данных по n группам.
- График коэффициентов вариации.
Отбор переменных по logworth-критерию.
Другие интерактивные графики:
- "Тепловые" карты, отражающие корреляцию или ассоциацию типа хи-квадрат первоначальных значений с целевыми признаками по сегментам.
- Графики стоимости переменных, ранжирующие первоначальные значения на основании их стоимости по целевому признаку.
- Распределения классовых переменных по целевым признакам и/или сегментным переменным.
Графики масштабированного среднего отклонения.
Графика/визуализация
Графики, создаваемые в пакетном и интерактивном режимах: графики разброса, гистограммы, многомерные графики, круговые диаграммы, диаграммы с областями, пузырьковые диаграммы.
Удобный Java-мастер для построения графиков:
- Заголовки и сноски.
- Возможность применения к данным предложения WHERE.
- Возможность выбора из нескольких цветовых схем.
- Простота масштабирования осей.
- Использование данных, полученных в результате анализа в пакете Enterprise Miner, для создания специализированных графиков.
Динамическая загрузка данных в клиентское приложение при помощи нескольких методик выборки.
Графики и таблицы интерактивно связаны между собой и поддерживают выполнение таких операций как очистка и связывание.
Удобное копирование данных и графиков в другие приложения, а также возможность их сохранения в виде файлов GIF или TIF.
Кластеризация
- По выбору пользователя или автоматический - выбор k лучших кластеров.
- Различные стратегии кодирования классовых переменных в процессе анализа.
- Управление недостающими данными.
- Графики профилей переменных сегментов, отражающие распределение исходных данных и других факторов в рамках каждого кластера.
- Профиль дерева решений, использующий исходные данные для составления прогноза о принадлежности кластеру.
- Оценочный код PMML.
Анализ рыночной корзины
Выявление ассоциаций и причинно-следственных связей:
- Сетевой график правил, упорядоченный по степени достоверности.
- Статистические графики подъема, достоверности, прогноза достоверности и поддержки правил.
- Статистическая гистограмма частотных показателей в заданных границах поддержки и достоверности.
- График зависимости разброса достоверности от прогнозируемой достоверности.
- Таблица описания правил.
- Сетевой график правил.
Органичная интеграция правил с другими исходными данными обеспечивает расширенное прогностическое моделирование.
Удобный вывод правил обеспечивает кластеризацию клиентов по их покупательным и поведенческим характеристикам.
Анализ Web-активности
- Масштабируемое и эффективное выявление наиболее популярных Интернет-маршрутов на основе анализа данных об Интернет-активности пользователей.
- Выявление наиболее частых последовательностей в последовательных данных любого типа.
Уменьшение размерности
Выбор переменных:
- Удаление переменных, не связанных с целевыми признаками, на основе критериев отбора хи-квадрат или R2.
- Удаление переменных из иерархий.
- Удаление переменных со многими недостающими значениями.
- Сокращение числа классовых переменных с большим количеством уровней.
- Группировка непрерывных исходных данных для выявления нелинейных взаимосвязей.
- Выявление взаимодействий.
Главные компоненты:
- Вычисление собственных значений и собственных векторов на основании матриц корреляции и ковариации.
- Графики: масштабированное отклонение, логарифмические собственные значения, кумулятивные пропорциональные собственные значения.
- Исследование выбранных основных компонентов при помощи методов предиктивного моделирования.
Исследование временных рядов:
- Сокращение объемов транзакционных данных на основе формирования временных рядов с использованием разнообразных методов аккумуляции и преобразования.
- Методы анализа включают сезонный анализ, анализ тенденций, анализ временных областей, сезонную декомпозицию.
- Исследование сокращенных временных рядов при помощи методов кластерного и предиктивного моделирования.
Управление временными метриками при помощи описательных данных.
Утилита SAS Code Node
- Обеспечивает запись кода SAS для упрощения сложных процедур подготовки и преобразования данных.
- Позволяет использовать процедуры других продуктов SAS.
- Поддерживает импорт внешних моделей.
- Позволяет создавать собственные модели и узлы Enterprise Miner.
- Содержит макропеременные, упрощающие ссылку на источники данных, переменные и т.п.
- Имеет расширяемую логику формирования оценочного кода.
Исчерпывающие средства моделирования
- Выбор моделей на базе обучающей, проверочной или тестовой выборки данных с использованием различных критериев, таких как: прибыли или убытки, AIC, SBC, среднеквадратичная ошибка, частота ошибок классификации, ROC, Джини, KS (Колмогорова-Смирнова).
- Поддерживает двоичные, номинальные, порядковые и интервальные исходные данные и целевые признаки.
- Удобный доступ к оценочному коду и всем источникам данных.
- Отображение нескольких результатов в одном окне позволяет лучше оценить эффективность модели.
Регрессии
- Линейная и логистическая.
- Пошаговая, с прямой и обратной выборкой.
- Построитель условий для уравнений: полиномиальных, основных взаимодействий, поддержка иерархии эффектов.
- Перекрестная проверка.
- Правила для иерархии эффектов.
- Методы оптимизации: сопряженные градиенты, метод двойных ломаных, метод Ньютона-Рафсона с линейным или гребневым поиском, квазиньютоновский метод, метод доверительных областей.
- Оценочный код PMML.
Деревья решений
Общая методология:
- CHAID (автоматическое выявление взаимодействия по методу хи-квадрат).
- Деревья классификации и регрессии.
- C 4.5.
- Отбор деревьев на основе целевых значений прибыльности или роста с соответствующим отсечением ветвей.
Критерии расщепления: вероятностный критерий хи-квадрат, вероятностный
F-критерий, критерий Джини, критерий энтропии, уменьшение дисперсии.
Автоматический вывод идентификаторов листьев дерева в качестве входных
значений для последующего моделирования.
Отображение правил на английском языке.
Вычисление значимости переменных для предварительного отбора.
Уникальное представление консолидированной диаграммы дерева.
Интерактивная работа с деревом на настольном ПК:
- Интерактивное расширение и обрезание деревьев.
- Задание специальных точек разбиения, включая двоичные или многовариантные разбиения.
- Свыше 13 динамически связанных таблиц и графиков, позволяющих произвести более качественную оценку дерева.
- Возможность распечатать диаграмму дерева на одном или нескольких листах.
В основе - новая быстрая процедура ARBORETUM.
Нейронные сети
Узел нейронной сети:
- Гибкие архитектуры сетей с развитыми функциями комбинирования и активации.
- 10 методов обучения сети.
- Предварительная оптимизация.
- Автоматическая стандартизация входных параметров.
- Поддержка направленных связей.
Узел самоорганизующейся нейронной сети:
- Автоматизированное создание многоуровневых персептронов для поиска оптимальной конфигурации.
- Выбор функций типа и активации из четырех различных типов архитектур.
- Оценочный код PMML.
Узел нейронной сети анализа данных (DM Neural node):
- Создание модели с уменьшением размерности и выбором функций.
- Быстрое обучение сети.
- Линейное и нелинейное оценивание.
Двухуровневое моделирование
- Последовательное и параллельное моделирование для классовых и интервальных целевых признаков.
- Выбор модели в виде дерева решений, регрессии или нейронной сети на каждом уровне.
- Управление применением прогноза для классов к прогнозу интервалов.
- Точная оценка экономической выгодности клиентов.
Методы вывода путем сопоставления
- Метод отбора ближайших k-соседей для категоризации или прогноза наблюдений.
- Запатентованные методы создания дерева и поиска с уменьшенной размерностью.
Множества моделей
- Объединение прогнозов моделей для создания потенциально более сильного решения.
- Среди методов: усреднение, мажоритарная выборка, выбор максимального значения.
Сравнение моделей
- Сравнение нескольких моделей в рамках единой инструментальной оболочки для всех источников данных.
- Автоматический выбор лучшей модели на основе заданного пользователем критерия.
- Расширенная статистика соответствия и диагностики.
- Ступенчатые диаграммы.
- Кривые ROC.
- Диаграммы прибылей и убытков с возможностью выбора решения.
- Матрица неточностей (классификации).
- График распределения вероятностных оценок классовых целевых признаков.
- Ранжирование и распределение оценок интервальных целевых признаков.
Количественная оценка
- Интерактивная количественная оценка узла в рамках графического интерфейса.
- Автоматическая генерация оценочного кода на языках SAS, C, Java и PMML.
- Моделирование сбора, кластеризации, преобразования и вычисления недостающих значений для оценочных кодов на языках SAS, C и Java.
- Развертывание моделей в нескольких средах.
Инструментальные средства
- Узел удаления переменных.
- Узел слияния данных.
- Узел метаданных, позволяющий изменять столбцы метаданных, например роль, уровень измерений и порядок.