Введение в HACMP
Что такое HACMP
HACMP является сокращением от "High Availability Cluster Multi-Processing". Главными составляющими здесь являются высокая доступность и мультиобработка в кластерной (многоузловой) среде.
Высокая доступность
В современных сложных средах обеспечение непрерывности работы приложений является основным компонентом эффективной реализации IT-системы. Высокая доступность – одна из составляющих, способствующих обеспечению непрерывности обслуживания клиентов приложения путем маскирования (скрытия) или устранения как запланированных, так и незапланированных простоев (остановок) в работе систем и приложений. Это достигается путем устранения единых точек отказа (Single Point Of Failure, SPOF1Здесь и далее мы будем упоминать в скобках оригинальные названия терминов (на английском языке), чтобы читателю было проще соотнести термины, используемые в этом руководстве, с теми терминами, которые он встретит в англоязычной документации и при непосредственной работе с HACMP. ) в аппаратном и программном обеспечении. Решение высокой доступности гарантирует, что отказ любого компонента решения (аппаратного обеспечения, программного обеспечения или управления системой) не вызовет длительной недоступности приложения и его данных для конечного пользователя.
Решения высокой доступности должны устранять единые точки отказа посредством соответствующего проектирования, планирования, выбора оборудования, конфигурирования программного обеспечения, управления приложениями, тщательного управления средой и дисциплин управления изменениями.
Вкратце высокую доступность можно определить как процесс обеспечения доступности приложения для использования посредством дублирования и/или реализации общего доступа к аппаратным ресурсам, управляемым специализированным программным компонентом.
Кластерная мультиобработка
Помимо высокой доступности, HACMP также содержит компонент, обеспечивающий мультиобработку. В основе функции мультиобработки лежит тот факт, что кластер содержит множество аппаратных и программных ресурсов, управляемых HACMP и обеспечивающих сложную функциональность приложений и более эффективное использование ресурсов.
Краткое определение кластерной мультиобработки может иметь такой вид: множество приложений, выполняющихся на нескольких узлах с общим или одновременным доступом к данным.
Хотя компонент кластерной мультиобработки и является желательным, эффективное использование им всех доступных в многоузловой (кластерной) среде ресурсов зависит от возможностей приложения и реализации системы. Их реализация должна начинаться на этапе планирования и проектирования кластеров.
HACMP – всего лишь одна из технологий высокой доступности, построенная на все более надежных операционных системах, более надежном оборудовании с возможностью выполнения "горячей замены", все более устойчивых приложениях и предлагающая функции мониторинга и автоматического реагирования.
Решение высокой доступности на основе HACMP обеспечивает автоматическое обнаружение сбоев, диагностику, восстановление приложений и реинтеграцию узлов. При использовании соответствующего приложения HACMP также может обеспечивать одновременный доступ к данным для приложений параллельной обработки, предлагая таким образом отличную горизонтальную и вертикальную масштабируемость (с добавлением возможностей управления динамическим LPAR).
IBM также разработала расширенную версию HACMP, содержащую функции аварийного восстановления, интегрированные в решение под названием HACMP Extended Distance (HACMP/XD), которое поддерживает функциональность HACMP между двумя географически распределенными сайтами. HACMP/XD поддерживает множество различных методов репликации данных и подробно обсуждается в "Концепции и планирование HACMP Extended Distance" , "Понятия и планирование HACMP Extended Distance".
Решения по обеспечению доступности: обзор
Существует множество решений, обеспечивающих широкий диапазон опций доступности. В таблице 1.1 описаны различные типы решений обеспечения доступности и их характеристики.
Решения по обеспечению высокой доступности в целом предлагают следующие преимущества:
- стандартные аппаратные и сетевые компоненты (могут использоваться с существующим оборудованием);
- работают практически со всеми приложениями (зависит только от умения того, кто осуществляет внедрение);
- работают с широким диапазоном типов дисков и сетей;
- отличная доступность при приемлемой стоимости.
Решение высокой доступности от компании IBM для IBM eserver® pSeries предлагает различные преимущества, включая следующие:
- решение является проверенным (результат более чем 15 лет разработки);
- гибкость (практически любое приложение, выполняющееся на автономной системе AIX, может быть защищено с использованием HACMP);
- использование доступных аппаратных компонентов (pSeries);
- проверенное качество поддержки наших клиентов.
При планировании внедрения решения HACMP следует учитывать следующие аспекты:
- тщательное проектирование и подробное планирование;
- устранение единых точек отказа;
- выбор соответствующего оборудования;
- надлежащее внедрение (без использования упрощенных подходов);
- упорядоченные методы системного администрирования и управление изменениями;
- документированные процедуры эксплуатации;
- всесторонний тестовый план и тщательное тестирование. Пример среды HACMP представлен на рис. 1.1
Время отключения (простоя)
Время отключения (простоя) означает период, когда приложение недоступно для обслуживания своих клиентов. Можно разделить отключения на две категории:
- запланированные:
- замена оборудования;
- обслуживание;
- обновление программного обеспечения;
- резервное копирование (автономное резервное копирование);
- тестирование (периодическое тестирование необходимо для проверки кластеров);
- разработка;
- незапланированные:
- ошибки администратора;
- отказы приложений;
- отказы оборудования;
- ошибки операционной системы;
- стихийные бедствия.
Таким образом, роль HACMP состоит в том, чтобы обеспечивать доступность приложения как при незапланированных отказах, так и при выполнении обычных повседневных административных задач. HACMP обеспечивает мониторинг и автоматическое восстановление ресурсов, от которых зависит приложение.
Единая точка отказа
Единой точкой отказа (single point of failure, SPOF) является любой отдельно взятый компонент в составе кластера, который в случае сбоя делает приложение недоступным для конечных пользователей.
Хорошее проектирование позволяет устранить единые точки отказа (узлы, устройства хранения, сети) в кластере. HACMP осуществляет управление этими компонентами, а также управление ресурсами, необходимыми для приложения (включая скрипты запуска-перезапуска приложений).
В конечном счете цель любого информационного решения в критической среде состоит в том, чтобы обеспечить непрерывную доступность приложения и защиту данных. Высокая доступность – только один из элементов в обеспечении непрерывной работы. В основе высокой доступности лежит доступность оборудования, программного обеспечения (операционной системы и ее компонентов), приложения и сетевых компонентов.
Во избежание возникновения единых точек отказа необходимы:
- избыточные (резервные) серверы;
- избыточные сетевые пути;
- избыточные пути хранения (данных);
- избыточное хранение (зеркальное отображение/RAID);
- мониторинг;
- обнаружение и диагностика отказов;
- автоматическое перемещение (failover) приложения при сбое;
- автоматическая реинтеграция ресурсов.
Как говорилось выше, хорошее проектирование позволяет устранить единые точки отказа, и HACMP осуществляет управление доступностью приложения во время отключений. В табл. 1.2 перечислены все объекты кластеров, сбой которых может вызвать недоступность приложения. Каждый объект кластера может представлять собой физический или логический компонент.
Объекты кластера | Способ устранения единой точки отказа |
---|---|
Узел (серверы) | Использование нескольких узлов |
Электропитание | Использование нескольких цепей или источников питания и/или ИБП |
Сетевой адаптер | Избыточность сетевых адаптеров |
Сеть | Несколько сетей, подключенных ко всем узлам, избыточные сетевые пути с независимым оборудованием между каждым узлом и клиентами |
Подсистема TCP/IP | Использование сетей "точка-точка" для подключения каждого узла к соседнему узлу в кольце |
Адаптер ввода-вывода | Избыточность адаптеров ввода-вывода |
Контроллеры | Избыточность контроллеров |
Хранение | Избыточность оборудования, дисковые стойки, зеркальное отображение/технология RAID, избыточность путей данных |
Приложение | Конфигурирование мониторинга приложения и резервных узлов для "подхвата" приложения и его данных |
Сайты | Использование более одного сайта для аварийного восстановления |
Группы ресурсов | Использование групп ресурсов для управления всеми ресурсами, требуемыми приложению |
HACMP также обеспечивает оптимизацию доступности, допуская динамическое реконфигурирование работающих кластеров. Задачи обслуживания, такие, как добавление или удаление узлов, можно выполнять без остановки и перезапуска кластера.
Кроме того, на работающем кластере можно выполнять другие задачи управления, такие, как изменение конфигурации системы хранения, управление пользователями с применением eдиной точки управления кластером (Cluster Single Point of Control, C-SPOC), не прерывая доступ пользователя к приложению, выполняющемуся на узлах кластера (cluster nodes). C-SPOC также обеспечивает репликацию изменений, выполненных на одном узле, по всему кластеру последовательным образом.