Опубликован: 22.04.2006 | Уровень: специалист | Доступ: платный
Лекция 19:

Процесс Data Mining. Очистка данных

< Лекция 18 || Лекция 19: 123 || Лекция 20 >
Аннотация: Рассматриваются две классификации инструментов очистки и редактирования данных, основные функции инструментов очистки данных, классификация ошибок в данных, которые возникают в результате использования средств очистки данных.
Ключевые слова: очистка данных, ETL, Data Mining, software, коммерческий инструмент, метаданные, тип данных, отношение, information, discovery, значение, поле, integrity, представление, стандартизация, пользователь, коэффициенты, согласование, анализ данных, исключение, поиск, First, logic, Oracle, проверка допустимости, модуль, парсер, источник данных, purge, library, API, Informix, extract, SAS, репозиторий, СУБД, файл, dbm, ODBC, EDA, интерфейс, планировщик , технологический процесс, SUM, count, MIN, MAX, median, variance, deviation, статистические функции, CASE, поддержка, строковая функция, soundex, enterprise, integrator, Data, technology, data quality, administrator, computer, software system, средства разработки, Object, language, group, программное обеспечение, адрес, AND, standard, список, сертификация, корректность, автоматизация, грязные данные, ошибка Типа 1, место, утраченная ошибка, программа, 2, вероятность, затраты, определение, парсинг, индекс, точность, улучшение, консолидация, стоимость, аналитик

Инструменты очистки данных

На сегодняшний день рынок программного обеспечения предлагает большой выбор средств, целью которых является преобразование и очистка данных.

Рассмотрим две классификации таких средств.

Эрхард Рам (Erhard Ram) и Хонг Хай До (Hong Hai Do) определяют следующую классификацию средств очистки и соответствующие им инструменты.

  1. Средства анализа и модернизации данных.
  2. Специальные средства очистки:
    • очистка специфической области;
    • исключение дубликатов.
  3. Инструменты ETL.

В [93] изложено подробное описание этой классификации, ниже приведено ее краткое описание.

1. Средства анализа и модернизации данных

Средства анализа и модернизации, обрабатывающие данные с целью выявления ошибок, несоответствий и определения необходимых очищающих преобразований, согласно этой классификации, могут быть разделены на средства профайлинга данных и средства Data Mining.

Профайлинг данных. MIGRATIONARCHITECT (Evoke Software) является одним из немногих коммерческих инструментов этой категории. Для каждого атрибута он определяет следующие метаданные: тип данных, длину, множество элементов, дискретные значения и их процентное отношение, минимальные и максимальные значения, утраченные значения и уникальность. MIGRATIONARCHITECT также может помочь в разработке целевой схемы для миграции данных.

Средства Data Mining. Например, WIZRULE (WizSoft) и DATAMININGSUITE (Information Discovery) выводят отношения между атрибутами и их значениями, вычисляют уровень достоверности, отражающий число квалифицирующих рядов.

WIZRULE может отражать три вида правил: математическую формулу, правила if-then ("если-то") и правила правописания, отсеивающие неверно написанные имена, - например, "значение Edinburgh 52 раза встречается в поле Потребитель; 2 случая содержат одинаковые значения". WIZRULE также автоматически указывает на отклонения от набора обнаруженных правил как на возможные ошибки.

Средства модернизации данных, например, INTEGRITY (Vality), используют обнаруженные шаблоны и правила для определения и выполнения очищающих преобразований, т.е. модернизируют унаследованные данные. В INTEGRITY элементы данных подвергаются ряду обработок - разбору, типизации, анализу шаблонов и частот. Результатом этих действий является табличное представление содержимого полей, их шаблонов и частот, в зависимости от того, какие шаблоны можно выбрать для стандартизации данных. Для определения очищающих преобразований INTEGRITY предлагает язык с набором операторов для преобразований столбцов (например, перемещения, расщепления, удаления) и рядов. INTEGRITY идентифицирует и консолидирует записи с помощью метода статистического соответствия. При вычислении оценок для упорядочивания соответствий, по которым пользователь отбирает настоящие дубликаты, используются взвешенные коэффициенты.

2. Специальные средства очистки

Специальные средства очистки обычно имеют дело с конкретными областями - в основном это имена и адреса - или же с исключением дубликатов. Преобразования либо обеспечиваются заранее, в форме библиотеки правил, либо в интерактивном режиме, пользователем. Преобразования данных могут быть автоматически получены и с помощью средств согласования схемы.

Ряд средств ориентирован на специфическую область - например, на очистку данных по именам и адресам или на специфические фазы очистки - например, анализ данных или исключение дубликатов. Благодаря своей ограниченной области применения, специализированные средства обычно очень эффективны, однако для работы с широким спектром проблем преобразования и очистки они нуждаются в дополнении другими инструментами.

2.1. Очистка специфической области

Имена и адреса записаны в различных источниках и обычно имеют множество элементов, поэтому поиск соответствий их конкретному потребителю имеет большое значение для управления отношениями с клиентами. Ряд коммерческих инструментов, например IDCENTRIC (First Logic), PUREINTEGRATE (Oracle), QUICKADDRESS (QAS Systems), REUNION (Pitney Bowes) и TRILLIUM (Trillium Software), предназначены для очистки именно таких данных. Они содержат соответствующие методы: например извлечения и преобразования имен и адресов в отдельные стандартные элементы, проверку допустимости названий улиц, городов и индексов, вместе с возможностями сопоставления на основе очищенных данных. Они включают огромную библиотеку предопределенных правил относительно проблем, часто встречающихся в данных такого рода. К примеру, модуль извлечение TRILLIUM (парсер) и модуль сопоставления содержат свыше 200000 бизнес-правил. Эти инструменты обеспечивают и возможности настройки или расширения библиотеки правил за счет правил, определенных пользователем для собственных специфических случаев.

2.2. Исключение дубликатов

Примерами средств для выявления и удаления дубликатов являются DATACLEANSER (EDD), MERGE/PURGELIBRARY (Sagent/QMSoftware), MATCHIT (HelpITSystems) и MASTERMERGE (Pitney Bowes). Обычно они требуют, чтобы источник данных уже был очищен и подготовлен для согласования. Ими поддерживается несколько подходов к согласованию значений атрибутов; а такие средства как DATACLEANSER и MERGE/PURGE LIBRARY позволяют также интегрировать правила согласования, определенные пользователем.

< Лекция 18 || Лекция 19: 123 || Лекция 20 >
Герман Тарасов
Герман Тарасов
Россия, г. Москва
Артем Фролов
Артем Фролов
Россия, Москва, Московский Технический Университет Связи и Информатики