НОУ ИНТУИТ | Теория и практика параллельных вычислений. Лекция 2: Моделирование и анализ параллельных вычислений

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Опубликован: 28.07.2007 | Доступ: свободный | Студентов: 2055 / 521 | Оценка: 4.53 / 4.26 | Длительность: 25:10:00

ISBN: 978-5-9556-0096-3

Темы: Программирование, Суперкомпьютерные технологии

Специальности: Программист

|

Вам нравится? Нравится 23 студентам

| Поделиться |

Поддержать курс

| Скачать электронную книгу

2.3. Определение времени выполнения параллельного алгоритма

Вычислительная схема алгоритма G совместно с расписанием H_p может рассматриваться как модель параллельного алгоритма A_p(G,H_p), исполняемого с использованием p процессоров. Время выполнения параллельного алгоритма определяется максимальным значением времени, применяемым в расписании

$T_p(G,H_p)=\max_{i \in V}(t_i + 1).$

Для выбранной схемы вычислений желательно использование расписания, обеспечивающего минимальное время исполнения алгоритма

$T_p(G)=\min_{H_p} T_p(G,H_p).$

Уменьшение времени выполнения может быть обеспечено и путем подбора наилучшей вычислительной схемы

$T_p = \min_{G} T_p(G).$

Оценки T_p(G,H_p), T_p(G) и T_p могут быть применены в качестве показателей времени выполнения параллельного алгоритма. Кроме того, для анализа максимально возможного параллелизма можно определить оценку наиболее быстрого исполнения алгоритма

$T_{\infty} = \min_{p \ge 1} T_p.$

Оценку $T_{\infty }$ можно рассматривать как минимально возможное время выполнения параллельного алгоритма при использовании неограниченного количества процессоров (концепция вычислительной системы с бесконечным количеством процессоров, обычно называемой паракомпьютером, широко применяется при теоретическом анализе параллельных вычислений).

Оценка T₁ определяет время выполнения алгоритма при использовании одного процессора и представляет, тем самым, время выполнения последовательного варианта алгоритма решения задачи. Построение подобной оценки является важной задачей при анализе параллельных алгоритмов, поскольку она необходима для определения эффекта использования параллелизма (ускорения времени решения задачи). Очевидно, что

$T_1 (G) = |\overline{V}|,$

где $|\overline{V}|$ , напомним, есть количество вершин вычислительной схемы без вершин ввода. Важно отметить, что если при определении оценки ограничиться рассмотрением только одного выбранного алгоритма решения задачи и использовать величину

$T_1 = \min_{G} T_1 (G),$

то получаемые при такой оценке показатели ускорения будут характеризовать эффективность распараллеливания выбранного алгоритма. Для оценки эффективности параллельного решения исследуемой вычислительной задачи время последовательного решения следует определять с учетом различных последовательных алгоритмов, т.е. использовать величину

$T_1^* = \min T_1,$

где операция минимума берется по множеству всех возможных последовательных алгоритмов решения данной задачи.

Приведем без доказательства теоретические положения, характеризующие свойства оценок времени выполнения параллельного алгоритма (см. [22]).

Теорема 1. Минимально возможное время выполнения параллельного алгоритма определяется длиной максимального пути вычислительной схемы алгоритма, т.е.

$T_{\infty }(G)=d(G).$

Теорема 2. Пусть для некоторой вершины вывода в вычислительной схеме алгоритма существует путь из каждой вершины ввода. Кроме того, пусть входная степень вершин схемы (количество входящих дуг) не превышает 2. Тогда минимально возможное время выполнения параллельного алгоритма ограничено снизу значением

$T_{\infty }(G)=log_{2}n,$

где n есть количество вершин ввода в схеме алгоритма.

Теорема 3. При уменьшении числа используемых процессоров время выполнения алгоритма увеличивается пропорционально величине уменьшения количества процессоров, т.е.

$\forall q=cp,\ 0<c<1\Rightarrow T_{p}\le cT_{q}.$

Теорема 4. Для любого количества используемых процессоров справедлива следующая верхняя оценка для времени выполнения параллельного алгоритма

$\forall p\Rightarrow T_{p}<T_{\infty }+T_{1}/p.$

Теорема 5. Времени выполнения алгоритма, которое сопоставимо с минимально возможным временем $T_{\infty }$ , можно достичь при количестве процессоров порядка $p \sim T_{1}/T_{\infty }$ , а именно,

$p\ge T_{1}/T_{\infty }\Rightarrow T_{p}\le 2T_{\infty }.$

При меньшем количестве процессоров время выполнения алгоритма не может превышать более чем в 2 раза наилучшее время вычислений при имеющемся числе процессоров, т.е.

$p < T_1 / T_{\infty} \Rightarrow \frac{T_1}{p} \le T_p \le 2 \frac{T_1}{p}.$

Приведенные утверждения позволяют дать следующие рекомендации по правилам формирования параллельных алгоритмов:

при выборе вычислительной схемы алгоритма должен использоваться граф с минимально возможным диаметром (см. теорему 1);
для параллельного выполнения целесообразное количество процессоров определяется величиной $p \sim T_{1}/T_{\infty }$ (см. теорему 5);
время выполнения параллельного алгоритма ограничивается сверху величинами, приведенными в теоремах 4 и 5.

Для вывода рекомендаций по формированию расписания по параллельному выполнению алгоритма приведем доказательство теоремы 4.

Доказательство теоремы 4. Пусть $H_{\infty }$ есть расписание для достижения минимально возможного времени выполнения $T_{\infty }$ . Для каждой итерации $\tau ,\ 0<\tau <T_{\infty }$ , выполнения расписания $H_{\infty }$ обозначим через $n_{\tau }$ количество операций, выполняемых в ходе итерации $\tau.$ Расписание выполнения алгоритма с использованием p процессоров может быть построено следующим образом. Выполнение алгоритма разделим на $T_{\infty }$ шагов; на каждом шаге $\tau$ следует выполнить все $n_{\tau }$ операций, которые выполнялись на итерации $\tau$ расписания $H_{\infty }$ . Эти операции могут быть выполнены не более чем за $\lceil n_{\tau }/p\rceil$ итераций при использовании p процессоров. Как результат, время выполнения алгоритма T_p может быть оценено следующим образом

$T_p = \sum_{\tau=1}^{T_{\infty}} \left{\lceil} \frac{n_{tau}}{p} \right{\rceil} < \sum_{\tau=1}^{T_{\infty}} \left( \frac{n_{tau}}{p} + 1 \right) = \frac{T_1}{p} + T_{\infty} .$

Доказательство теоремы дает практический способ построения расписания параллельного алгоритма. Первоначально может быть построено расписание без учета ограниченности числа используемых процессоров ( расписание для паракомпьютера ). Затем, согласно схеме вывода теоремы, может быть построено расписание для конкретного количества процессоров.

Дальше >>

Авторизоваться

Теория и практика параллельных вычислений

Моделирование и анализ параллельных вычислений

2.3. Определение времени выполнения параллельного алгоритма

Вопросы и ответы