Опубликован: 20.12.2010 | Уровень: специалист | Доступ: платный
Лекция 11:

Проектирование и разработка процесса ETL

< Лекция 10 || Лекция 11: 123 || Лекция 12 >

Моделирование процесса преобразования данных

Диаграмма преобразования данных

Объект ILM-диаграммы "Процесс преобразования" определяет список задач преобразования данных и поток управления преобразованием.

Построим диаграмму преобразования данных. Задача преобразования данных включает одну или несколько диаграмм преобразования данных, которые позволяют моделировать процессы извлечения данных из источников данных, преобразования данных и загрузки данных в источник назначения. Данные поступают из источников данных (data inputs), преобразуются посредством выполнения определенных манипуляций над ними и загружаются в источник назначения (data outputs). Последовательность этих процессов связывается вместе посредством потока данных (data flows), а сами данные представляются посредством колонок структуры данных, которые используются в каждом из перечисленных процессов.

На рис. 15.15, на диаграмме преобразования данных, показано, что данные извлекаются из БД Acme и Small Corp, затем объединяются в БД DataMerge, фильтруются фильтром DataFilter, сортируются процедурой DataSort и загружаются в БД Giant Corp.

Диаграмма преобразования данных

увеличить изображение
Рис. 15.15. Диаграмма преобразования данных

Для каждого объекта нужно определить перечень колонок, который будет задействован в процессе преобразования на этом объекте. Эти действия выполняются на диалоговом окне " Data Projection Properties "" как показано на рис. 15.16.

Определение структуры данных объекта

Рис. 15.16. Определение структуры данных объекта

Изображенная на рис. 15.15 диаграмма преобразования данных может быть развернута таким образом, чтобы видеть структуры данных на каждом элементе диаграммы, как показано на рис. 15.17.

Диаграмма преобразования данных со структурами данных

увеличить изображение
Рис. 15.17. Диаграмма преобразования данных со структурами данных

Поток данных (стрелочки на диаграмме) передает данные между объектами диаграммы преобразования данных. Для определения потока данных может быть использован редактор отображения (Mapping Editor), как показано для потока данных между DataMerge и DataFilter на рис. 15.18.

Редактор отображения (Mapping Editor)

увеличить изображение
Рис. 15.18. Редактор отображения (Mapping Editor)
Диаграмма управления потоком преобразования данных

Диаграммы управления потоком преобразования данных предназначены для моделирования последовательных или параллельных задач преобразования данных. Диаграмма управления потоком содержит одну или несколько диаграмм управления потоком преобразования, моделирующих порядок, в котором последовательность задач преобразования данных выполняется. Последовательность задач включает в себя инициализацию задачи (starts), выполнение задачи (task executions), решение (decisions), синхронизацию (synchronizations) и завершение задачи. Связанные вместе, они составляют поток управления.

На рис. 15.19 показана диаграмма управления потоком преобразования данных для нашего примера.

Диаграмма управления потоком преобразования данных

Рис. 15.19. Диаграмма управления потоком преобразования данных

Пиктограмма инициализации задачи преобразования ( TransformationStart_1 ) инициирует выполнение последовательности задач преобразования данных на диаграмме управления потоком. Далее последовательно выполняются задачи "Объединить сотрудников" ( Merge Employe ) и "Объединить роли" ( Merge Role ). Решений никаких не принимается, синхронизация не выполняется. Процесс заканчивается выполнением задачи завершения процесса преобразования ( TransformationEnd_1 ).

Все построенные диаграммы связаны между собой на диаграмме высокого уровня ILM-модели (см. рис. 15.9) в объекте "Процесс преобразования" ( TransformationProcess_1 ). На рис. 15.20 и 10.21 соответственно изображены вкладки диалогового окна свойств этого объекта, на которых показана привязка задач преобразования и потока управления.

Таким образом, проектировщик ХД данных может моделировать ETL-процессы для разрабатываемого хранилища данных с помощью CASE-инструментов.

Задачи преобразования в объекте "Процесс преобразования" ILM-модели

Рис. 15.20. Задачи преобразования в объекте "Процесс преобразования" ILM-модели
Поток управления преобразованием данных в объекте "Процесс преобразования" ILM-модели

Рис. 15.21. Поток управления преобразованием данных в объекте "Процесс преобразования" ILM-модели

Заметим, что при изложении материала последнего раздела мы опустили многочисленные детали определения объектов и их свойств при проектировании модели ETL-процесса. Нашей задачей в данном случае является иллюстрация возможностей CASE-инструментов. Отметим также, что ведущие компании, производители комплексных решений для создания ХД, такие как IBM, Oracle, MicroSoft и ряд других, поставляют встроенные средства для проектирования ETL-процессов. Поэтому проектировщику ХД будет необходимо ознакомиться с возможностями таких инструментов после выбора несущей СУБД.

Резюме

Таким образом, разработка ETL-процесса включает в себя следующие основные стадии:

  • планирование ETL-процесса ;
  • конструирование процесса заполнения таблиц измерений;
  • конструирование процесса заполнения таблиц фактов;
  • извлечение данных ;
  • преобразование и очистка данных ;
  • загрузка данных.

При проектировании процессов преобразования данных проектировщик ХД должен решить следующие задачи:

  • проанализировать требования к данным ХД;
  • проанализировать и описать источники данных для ХД;
  • создать модель преобразования данных высокого уровня;
  • определить и подробно описать каждую задачу преобразования данных ;
< Лекция 10 || Лекция 11: 123 || Лекция 12 >
Владислав Нагорный
Владислав Нагорный

Подскажите, пожалуйста, планируете ли вы возобновление программ высшего образования? Если да, есть ли какие-то примерные сроки?

Спасибо!

Лариса Парфенова
Лариса Парфенова

1) Можно ли экстерном получить второе высшее образование "Программная инженерия" ?

2) Трудоустраиваете ли Вы выпускников?

3) Можно ли с Вашим дипломом поступить в аспирантуру?

 

Владимир Вишневский
Владимир Вишневский
Россия, Москва
Ольга Балуева
Ольга Балуева
Россия