Методы кластерного анализа. Итеративные методы.
Алгоритм PAM ( partitioning around Medoids)
PAM является модификацией алгоритма k-средних, алгоритмом k-медианы (k-medoids).
Алгоритм менее чувствителен к шумам и выбросам данных, чем алгоритм k-means, поскольку медиана меньше подвержена влияниям выбросов.
PAM эффективен для небольших баз данных, но его не следует использовать для больших наборов данных.
Предварительное сокращение размерности
Рассмотрим пример. Есть база данных клиентов фирмы, которых следует разбить на однородные группы. Каждый клиент описывается при помощи 25 переменных. Использование такого большого числа переменных приводит к выделению кластеров нечеткой структуры. В результате аналитику достаточно сложно интерпретировать полученные кластеры.
Более понятные и прозрачные результаты кластеризации могут быть получены, если вместо множества исходных переменных использовать некие обобщенные переменные или критерии, содержащие в сжатом виде информацию о связях между переменными. Т.е. возникает задача понижения размерности данных. Она может решаться при помощи различных методов; один из наиболее распространенных - факторный анализ. Остановимся на нем более подробно.
Факторный анализ
Факторный анализ - это метод, применяемый для изучения взаимосвязей между значениями переменных.
Вообще, факторный анализ преследует две цели:
- сокращение числа переменных;
- классификацию переменных - определение структуры взаимосвязей между переменными.
Соответственно, факторный анализ может использоваться для решения задач сокращения размерности данных или для решения задач классификации.
Критерии или главные факторы, выделенные в результате факторного анализа, содержат в сжатом виде информацию о существующих связях между переменными. Эта информация позволяет получить лучшие результаты кластеризации и лучше объяснить семантику кластеров. Самим факторам может быть сообщен определенный смысл.
При помощи факторного анализа большое число переменных сводится к меньшему числу независимых влияющих величин, которые называются факторами.
Фактор в "сжатом" виде содержит информацию о нескольких переменных. В один фактор объединяются переменные, которые сильно коррелируют между собой. В результате факторного анализа отыскиваются такие комплексные факторы, которые как можно более полно объясняют связи между рассматриваемыми переменными.
На первом шаге факторного анализа осуществляется стандартизация значений переменных, необходимость которой была рассмотрена в предыдущей лекции.
Факторный анализ опирается на гипотезу о том, что анализируемые переменные являются косвенными проявлениями сравнительно небольшого числа неких скрытых факторов.
Факторный анализ - это совокупность методов, ориентированных на выявление и анализ скрытых зависимостей между наблюдаемыми переменными. Скрытые зависимости также называют латентными.
Один из методов факторного анализа - метод главных компонент - основан на предположении о независимости факторов друг от друга.