НОУ ИНТУИТ | Теория и практика параллельных вычислений. Лекция 2: Моделирование и анализ параллельных вычислений

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Опубликован: 28.07.2007 | Доступ: свободный | Студентов: 2045 / 513 | Оценка: 4.53 / 4.26 | Длительность: 25:10:00

ISBN: 978-5-9556-0096-3

Темы: Программирование, Суперкомпьютерные технологии

Специальности: Программист

|

Вам нравится? Нравится 23 студентам

| Поделиться |

Поддержать курс

| Скачать электронную книгу

2.5.3. Модифицированная каскадная схема

Получение асимптотически ненулевой эффективности может быть обеспечено, например, при использовании модифицированной каскадной схемы (см. [22]). Для упрощения построения оценок можно предположить n=2^k, k=2^s. Тогда в новом варианте каскадной схемы все вычисления производятся в два последовательно выполняемых этапа суммирования (см. рис. 2.4):

на первом этапе вычислений все суммируемые значения подразделяются на (n/log₂n ) групп, в каждой из которых содержится log₂n элементов; далее для каждой группы вычисляется сумма значений при помощи последовательного алгоритма суммирования; вычисления в каждой группе могут выполняться независимо друг от друга (т.е. параллельно – для этого необходимо наличие не менее (n/log₂n ) процессоров);
на втором этапе для полученных (n/log₂n) сумм отдельных групп применяется обычная каскадная схема.

Рис. 2.4. Модифицированная каскадная схема суммирования

Тогда для выполнения первого этапа требуется log₂n параллельных операций при использовании p₁=(n/log₂n) процессоров. Для выполнения второго этапа необходимо

log₂(n/log₂n)<=log₂n

параллельных операций для p₂=(n/log₂n)/2 процессоров. Как результат, данный способ суммирования характеризуется следующими показателями:

T_p=2log₂n, p=(n/log₂n).

С учетом полученных оценок показатели ускорения и эффективности модифицированной каскадной схемы определяются соотношениями:

S_p=T₁/T_p=(n–1)/2log₂n,
E_p=T₁/pT_p=(n–1)/(2(n/log₂n)log₂n)=(n–1)/2n.

Сравнивая данные оценки с показателями обычной каскадной схемы, можно отметить, что ускорение для предложенного параллельного алгоритма уменьшилось в 2 раза, однако для эффективности нового метода суммирования можно получить асимптотически ненулевую оценку снизу

$E_p = (n–1) / 2n \ge 0,25, \; \lim E_p \rightarrow 0,5 \; \text{при } n \rightarrow \infty .$

Можно отметить также, что данные значения показателей достигаются при количестве процессоров, определенном в теореме 5. Кроме того, необходимо подчеркнуть, что, в отличие от обычной каскадной схемы, модифицированный каскадный алгоритм является стоимостно-оптимальным, поскольку стоимость вычислений в этом случае

C_p=pT_p=(n/log₂n)(2log₂n)

является пропорциональной времени выполнения последовательного алгоритма.

2.5.4. Вычисление всех частных сумм

Вернемся к исходной задаче вычисления всех частных сумм последовательности значений и проведем анализ возможных способов последовательной и параллельной организации вычислений. Вычисление всех частных сумм на скалярном компьютере может быть получено при помощи обычного последовательного алгоритма суммирования при том же количестве операций (!)

T₁=n.

При параллельном исполнении применение каскадной схемы в явном виде не приводит к желаемым результатам; достижение эффективного распараллеливания требует привлечения новых подходов (может быть, даже не имеющих аналогов при последовательном программировании) для разработки новых параллельно-ориентированных алгоритмов решения задач. Так, для рассматриваемой задачи нахождения всех частных сумм алгоритм, обеспечивающий получение результатов за log₂n параллельных операций (как и в случае вычисления общей суммы), может состоять в следующем (см. рис. 2.5, а также [22]):

перед началом вычислений создается копия S вектора суммируемых значений ( S=x );
далее на каждой итерации суммирования i, 1<=i<=log₂n, формируется вспомогательный вектор Q путем сдвига вправо вектора S на 2^i-1 позиций (освобождающиеся при сдвиге позиции слева устанавливаются в нулевые значения); итерация алгоритма завершается параллельной операцией суммирования векторов S и Q.

Рис. 2.5. Схема параллельного алгоритма вычисления всех частных сумм

(величины S_i-j означают суммы значений от i до j элементов числовой последовательности)

Всего параллельный алгоритм выполняется за log₂n параллельных операций сложения. На каждой итерации алгоритма параллельно выполняются n скалярных операций сложения и, таким образом, общее количество скалярных операций определяется величиной

K_пар=nlog₂n

(параллельный алгоритм содержит большее (!) количество операций по сравнению с последовательным способом суммирования). Необходимое количество процессоров определяется количеством суммируемых значений ( p=n ).

С учетом полученных соотношений показатели ускорения и эффективности параллельного алгоритма вычисления всех частных сумм оцениваются следующим образом:

S_p=T₁/T_p=n/log₂n,
E_p=T₁/pT_p=n/(plog₂n)=n/(nlog₂n)=1/log₂n.

Как следует из построенных оценок, эффективность алгоритма также уменьшается при увеличении числа суммируемых значений, и при необходимости повышения величины этого показателя может оказаться полезной модификация алгоритма, как и в случае с обычной каскадной схемой.

Дальше >>

Авторизоваться

Теория и практика параллельных вычислений

Моделирование и анализ параллельных вычислений

2.5.3. Модифицированная каскадная схема

2.5.4. Вычисление всех частных сумм

Вопросы и ответы