НОУ ИНТУИТ | Введение в принципы функционирования и применения современных мультиядерных архитектур (на примере Intel Xeon Phi). Лекция 3: Оптимизация вычислений в задаче о разложении чисел на простые сомножители. Векторизация и балансировка нагрузки

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Нижегородский государственный университет им. Н.И.Лобачевского

Опубликован: 30.05.2014 | Доступ: свободный | Студентов: 304 / 36 | Длительность: 11:26:00

Темы: Программирование, Суперкомпьютерные технологии

Специальности: Программист, Системный архитектор

|

Вам нравится? Нравится 13 студентам

| Поделиться |

Поддержать курс

| Скачать электронную книгу

Распределение вычислений с использованием динамического планировщика

Попробуем сбалансировать нагрузку. Для этого воспользуемся дополнительными возможностями директивы #pragma omp parallel for – изменим планировщик со статического на динамический. При динамическом планировании числа будут чередоваться между потоками. Если потока четыре, то первое число достанется первому потоку, второе – второму и т.д. Следующее число, которое получит первый поток, будет 5. Второй 6 и т.д. На рис. 8.9 показан пример распределения чисел при создании четырех потоков.

Рис. 8.9. Распределение нагрузки между потоками – вариант 2

Ниже приведен код факторизации чисел с использованием динамического планирования.

void factorization() 
{
#pragma omp parallel for schedule(dynamic)
  for (int i = 1; i < NUM_NUMBERS; i++)
  {
    int number = i;
    int idx = number;

    for (int j = 2; j < idx; j++)
    {
      if (number == 1) break; 

      int r;
      r = number % j;
      if (r == 0)
      {
        number /= j;
        divisors[idx].push_back(j);
        j--;
      }
    }    
  }
}

Скомпилируем и выполним код. На рис. 8.10 представлен результат выполнения программы при использовании динамического планирования.

увеличить изображение
Рис. 8.10. Результат вычислений параллельного кода на MIC с применение статического планирования.

На рис. 8.11 приведен график сравнения времени выполнения параллельных алгоритмов со статическим и динамическим планированием.

Рис. 8.11. График сравнения времени выполнения параллельных алгоритмов со статическим и динамическим планированием.

Как видно из графика время выполнения алгоритма замедлилось почти в два раза.

В чем причина подобного замедления?

Основная причина в методе распределения чисел. Все четные потоки получают четные числа. Потоков четное число. Как следствие четные ядра сопроцессора будут выполнять работы вдвое меньше. Взамен того, чтобы сбалансировать вычисления мы добились большего дисбаланса. Так как потоков много, дисбаланс при статическом планировании оказался менее ярко выраженным.

Дальше >>

Введение в принципы функционирования и применения современных мультиядерных архитектур (на примере Intel Xeon Phi)

Самостоятельная работа 3: Оптимизация вычислений в задаче о разложении чисел на простые сомножители. Векторизация и балансировка нагрузки

Распределение вычислений с использованием динамического планировщика

Вопросы и ответы

Авторизоваться

Введение в принципы функционирования и применения современных мультиядерных архитектур (на примере Intel Xeon Phi)

Самостоятельная работа 3: Оптимизация вычислений в задаче о разложении чисел на простые сомножители. Векторизация и балансировка нагрузки

Распределение вычислений с использованием динамического планировщика

Вопросы и ответы