Опубликован: 01.10.2013 | Уровень: для всех | Доступ: платный
Лекция 8:

Методы и средства обеспечения живучести и восстановления работоспособности МКМД-бит-потоковых субпроцессоров

Аннотация: В лекции раскрыты специфические особенности обеспечения живучести и восстановления работоспособности (фактически микропрограммного "ремонта" без отключения источников питания) МКМД-бит-потоковых субпроцессоров, которые вытекают из возможности использования некратного (по отношению ко всей бит-матрице) резерва.
Ключевые слова: ВС, объект, вероятность, очередь, ПО, минимум, подразделения, ОКМД, место, ложная тревога, бит, полнота, целочисленной задаче, мощность, достоверность, гипотеза, пространство, размерность, прямой, пространство состояний, поток, доступ, топология, время выполнения, затраты, конфигурация, разбиение, площадь, управляемый модуль, управляющий блок, контроль, исполнение, операции, меандр, время тестирования, диагностика, функциональный контроль, принятия решений, операнд, процент, АЛУ, накапливающий сумматор, выход, фаза тестирования, координаты, адрес, макроконвейер, шина, регистр, процессор, Произведение, матрица перехода, представление, матрица, шина управления, вывод, инструкция, сдвиговый регистр, интерфейс, NAND, матрица трансформации, длина, конечные, критерий эффективности, адаптивного алгоритма, алгоритм, стратегия обхода, цикла, анализ, локализация, идентификация, алгебраические, адаптация, неравенство, разрядность, устойчивость к отказам, ресурс, режим реального времени

7.1. Методы и средства повышения отказоустойчивости МКМД-бит-потоковых субпроцессоров

Наиболее жесткие требования к качеству решения задач обеспечения живучести и восстановления работоспособности предъявляются к (Б)ВС, обеспечивающих управление в реальном времени аэрокосмическими летательными аппаратами (ЛА). Несмотря на кажущееся сходство этих задач, между ними имеется достаточно важное системное отличие.

Под живучестью понимается способность некоторого объекта или системы сохранять заданные правила функционирования при наличии отказов в составляющих объект или систему частях. В отличие от надежности объекта или системы, которая оценивает вероятность появления отказа, живучесть априори предполагает наличие отказа, то есть при оценке надежности рассмотрение объекта или системы заканчивается после появления отказа, в то время как с позиций живучести отказ является только началом анализа поведения объекта или системы.

Обеспечение живучести (Б)ВС необходимо проводить в темпе реального времени или близком к реальному, чтобы сохранить боевую эффективность ЛА. Это требует соответствующих программно-аппаратных средств обнаружения, локализации, идентификации и парирования отказов, задействованных непосредственно во время вычислений. Поэтому основным показателем эффективности систем обеспечения живучести следует считать время парирования отказа, а израсходованный при этом аппаратный резерв приходится учитывать во вторую очередь.

Восстановление работоспособности (Б)ВС можно провести в пакетном режиме при подготовке самолето-вылета. Поэтому задействованные в этом процессе программно-аппаратные средства способны повысить только боеготовность ЛА, и их эффективность необходимо оценивать по минимуму аппаратурного резерва, задействованного в ремонтно-восстановительных работах непосредственно в районе боевых действий, а не в районе базирования. Минимум аппаратного резерва также оказывает прямое влияние на время перебазирования авиационного подразделения из района стационарного базирования в район боевых действий, что крайне важно в условиях динамично развивающихся локальных военных конфликтов.

В современных опто- и микроэлектронных ОКМД-технологиях [147, 237, 281] живучесть (сверх)параллельных (суб)процессоров поддерживается в реальном времени за счет встроенных в каждый вычислитель средств диагностики и средств подстановки на место отказавших исправных вычислителей из существенно меньшего (по отношению ко всему коллективу активных вычислителей) "горячего" резерва. Все эти средства реагируют, как правило, не на функциональный, а на аппаратный отказ, повышающий вероятность ложной тревоги, а значит, и необоснованный расход "горячего" аппаратного резерва.

В МКМД-бит-потоковой технологии живучесть (суб)процессоров поддерживается за счет создания на той же бит-матрице алгоритмически ориентированных устройств диагностики и толерантного (пере)размеще-ния "рабочего тела" (микро)программы на всей бит-матрице, включая и "горячий" резерв [298, 299].

Это исключает свойственные опто- и микроэлектронным ОКМД-технологиям аппаратно-временные издержки на встроенные и распределенные по всему коллективу вычислителей средства диагностики, коммутации и управления "перемещением" (с ограниченным радиусом) резервных ( rb ) вычислителей (рис. 7.1) на место отказавших, но требует дополнительных аппаратно-временных затрат на перекомпоновку топологии всей (микро)программы МКМД-бит-потокового (суб)процессора, включая и алгоритмически ориентированные модули диагностики.

Распределенная система подстановки резервных (rb) ОКМД-вычислителей

Рис. 7.1. Распределенная система подстановки резервных (rb) ОКМД-вычислителей

В соответствии с решаемыми задачами система обеспечения живучести МКМД-бит-потоковых (суб)процессоров включает три работающие в режиме разделения времени подсистемы (рис. 7.2):

Система обеспечения живучести МКМД-бит-потоковых субпроцессоров

Рис. 7.2. Система обеспечения живучести МКМД-бит-потоковых субпроцессоров
  • обнаружения недопустимых с точки зрения пользователя функциональных отклонений в каждом активном поток-операторе;
  • локализации отказов в бит-матрице и идентификации их типов;
  • парирования карт отказов за счет толерантной перекомпоновки всего "рабочего тела" (микро)программы на бит-матрице, имеющей I_{rb} строк и J_{rb} столбцов централизованного и, вообще говоря, произвольно "перемещаемого" по рабочей области бит-матрицы (I_{0}, J_{0}) "горячего" резерва (рис. 7.3), из которых только первая подсистема работает в режиме реального времени и параллельно с активными поток-операторами пользователя, а две последние способны поддержать только квазиреальный масштаб времени, возможно, и с потерей полноты локализации и идентификации карт отказов, а также коэффициента использования "горячего" резерва.

Полнота обнаружения, локализации и идентификации карт отказов и минимальный уровень аппаратно-временных затрат на толерантную перекомпоновку топологии "рабочего тела" каждой (микро)программы пользователя в основном определяются следующими особенностями построения и работы системы обеспечения живучести.

Централизованная система компоновки резервных МКМД-вычислителей

Рис. 7.3. Централизованная система компоновки резервных МКМД-вычислителей
  1. Подсистема обнаружения отказов:
    • представляет собой объединение алгоритмически ориентированных (микро)программных модулей диагностики, неразрывно инициализируемых с соответствующим поток-оператором пользователя;
    • использует методы и средства информационной и аппаратной избыточности, которые реагируют только на те отказы аппаратуры, которые приводят к значимым с точки зрения пользователя функциональным изменениям в активном поток-операторе;
    • имеет варьируемый латентный период, зависящий от общего времени задержки в каждой потоковой слов-инструкции, критического пути в граф-потоке оператора пользователя и времени доставки по FIFO-регистровым каналам обмена (1-2)-битной диагностической реакции от места обнаружения отказа до периферии бит-матрицы;
    • снижает вероятность "ложной тревоги" за счет индифферентного отношения к картам отказов в недоиспользованном аппаратном ресурсе каждого бит-процессора (см. табл. 4.2), "топология" которых представляет собой теоретико-множественное дополнение до активизированного им "рабочего тела" каждого поток-оператора.
  2. Подсистема локализации и идентификации отказов:
    • функционирует с точностью до координат отказавшего бит-процессора и списка (не)реализуемых в нем управляющих, коммутационных и арифметико-логических функций;
    • использует бит-матрицу не столько в МКМД-, сколько в ОКМД-подобном режиме векторно-конвейерного распараллеливания тестовых микропрограмм, формируемых алгоритмическим путем из одно-, двух- или трех бит-процессорных термов ограниченного количества типов;
    • работает в режиме независимого и разделенного во времени формирования множественного отклика на каждую тестовую комбинацию или группу комбинаций тестовых данных от всех термов, принадлежащих одному диагностическому каналу;
    • первой парирует сформированную карту, в том числе и локально катастрофических отказов, за счет обхода обнаруженных неисправностей, обеспечивая тем самым максимально возможную полноту диагностики в каждом цикле своей работы ( Tlr -адаптивность тестовых микропрограмм к действующей карте отказов).
  3. Подсистема парирования множественных карт отказов:
    • использует простейшие и потому достаточно быстрые глобальные аффинные преобразования всего "рабочего тела" микропрограммы типа: сдвиги, вращения повороты на целочисленной решетке, приводящие к согласованию затребованного и имеющегося аппаратурного ресурса с учетом действующей карты отказов;
    • может выполнять сложные и потому относительно медленные локальные аффинные преобразования типа: растяжения, срезы, кручения, приводящие к структурным и, вообще говоря, обратимым "деформациям" "рабочего тела" микропрограммы за счет включения в их состав коммутационных термов, обеспечивающих его толерантную перекомпоновку;
    • решает и реализует в квазиреальном масштабе времени целочисленную задачу оптимального разбиения "рабочего тела" микропрограммы на независимо деформируемые и/или перемещаемые модули.

При этом не исключается использование классических методов и средств введения информационной и/или аппаратной избыточности на всех стадиях обнаружения, локализации и парирования отказов. В частности, допустимо на уровне субпроцессоров использовать фон-неймановскую схему мажоритарного резервирования, которая работает по принципу "два из трех", "три из пяти" и т. д. и которая эффективно парирует в темпе реального времени одиночные отказы аппаратуры, характерные для условий эксплуатации (Б)ВС в "нормальных" условиях.

Стратегия работы подсистемы локализации и идентификации отказов вносит решающий вклад в снижение размерности решаемых в ней задач, а значит, и в повышение динамики работы всей системы обеспечения живучести МКМД-бит-потоковых (суб)процессоров.

В рамках этой стратегии основной вклад в повышение эффективности работы программно-аппаратных средств локализации и идентификации множественных отказов вносит ОКМД-подобный режим работы тестовых микропрограмм, который позволяет обойти свойственное МКМД-режиму "проклятие размерности" задачи тестирования бит-матриц большой размерности (свыше 10^{3} бит-процессоров).

Действительно, мощность пространства состояний МКМД-бит-процессорной матрицы Q(МКМД) = 2^{Rp*I*J} при сверхбольшом ( I*J > 10^{3} ) коллективе вычислителей оценивается фантастическими даже для астрономии числами, превращающими процесс локализации и идентификации в "теравековой", даже если одно из этих состояний тестируется за 10-16 сек (0,1 фемтосекунды, что сравнимо с временем установления устойчивых состояний электронов при возбуждении атомов).

Мощность пространства состояний такой же бит-матрицы, но тестируемой в ОКМД-подобном режиме, определяется разрядностью R_{p} регистров инструкций составляющих бит-процессоров: Q(ОКМД) = 2^{Rp}, что для СБИС Н1841 ВФ1 ( R_{p} = 16 ) требует более 64000 тестовых микропрограмм.

Такое кардинальное снижение размерности не нарушает полноту и достоверность тестирования, если неисправность в одном бит-процессоре не нарушает работоспособность ближайших ортогональных соседей. Для бит-процессоров, принадлежащих различным СБИС, такая гипотеза достоверна даже при работе на терагерцовых частотах, так как они размещаются на плате на достаточно больших расстояниях, которые исключают паразитные электромагнитные взаимодействия между периферийными бит-процессорами. Паразитные электромагнитные взаимодействия между исправными и неисправными бит-процессорами одной и той же СБИС исключаются специальными конструктивно-технологическими мерами, которые исключают появление тиристорных и т. п. эффектов в широком, но контролируемом диапазоне изменения внешних воздействующих факторов.

Однако даже такое кардинальное снижение размерности задач локализации и идентификации отказов не позволяет решать их в (квази) реальном масштабе времени из-за большого времени распространения тест-данных и индивидуальных откликов от периферии к центру бит-матрицы и наоборот.

Поэтому необходимо ввести достоверные ограничения, разбивающие пространство перебора на две части: тестируемые прямыми методами и косвенными. Это требует учета структурно-функциональных, схемотехнических и топологических особенностей построения конкретных бит-матричных СБИС и призвано снизить более чем на 3-4 порядка размерность задачи прямой диагностики. В таких случаях все пространство состояний объекта диагностики разбивается на два подпространства, одно из которых составляет ядро диагностики и контролируется прямыми методами анализа реальных физических реакций на тестовые данные. Выводы о работоспособности объекта диагностики в состояниях, принадлежащих второму подпространству, делаются косвенным путем на основе определенных правил вывода, достоверность которых поддерживается реализуемыми на практике допущениями ( гипотезами ).

Из структурно-функциональной схемы бит-процессора (см. рис. 3.2) видно, что такая достоверная (реализуемая в процессе производства СБИС и аппаратуры) упрощающая гипотеза требуется прежде всего для снижения размерности пространства системы внутренней коммутации каждого бит-процессора. Мощность этого пространства задается размером полей А1-А6 регистра бит-инструкций, и для СБИС Н1841 ВФ1 она равна 212.

При выборе подпространства прямой диагностики внутренней системы коммутации бит-процессоров необходимо учитывать, что она поддерживает условия требуемого пространственно-временного, FIFO - регистрового взаимодействия бит-инструкций активизированного поток-оператора пользователя. Поэтому выбранные кодовые комбинации для тестируемых бит-инструкций должны обеспечить опосредованный через другие бит-процессоры информационный доступ к каждому бит-процессору тестируемого канала как по входным воздействиям, так и по полученным откликам в процессе тестирования.

Евгений Акимов
Евгений Акимов

Добрый день!

 

Скажите, пожалуйста,планируется ли продолжение курсов по нанотехнологиям?

Спасибо,

Евгений

 

Nozimjon Fayziev
Nozimjon Fayziev
Таджикистан, Душанбе
Анна Волкова
Анна Волкова
Россия, г. Новосибирск