НОУ ИНТУИТ | Введение в принципы функционирования и применения современных мультиядерных архитектур (на примере Intel Xeon Phi). Лекция 3: Оптимизация вычислений в задаче о разложении чисел на простые сомножители. Векторизация и балансировка нагрузки

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Нижегородский государственный университет им. Н.И.Лобачевского

Опубликован: 30.05.2014 | Доступ: свободный | Студентов: 304 / 36 | Длительность: 11:26:00

Темы: Программирование, Суперкомпьютерные технологии

Специальности: Программист, Системный архитектор

|

Вам нравится? Нравится 13 студентам

| Поделиться |

Поддержать курс

| Скачать электронную книгу

Параллельная реализация алгоритма

Для реализации параллельного алгоритма воспользуемся директивами OpenMP. Вначале произведем распараллеливание, используя статический планировщик. Затем, попробуем увеличить производительность за счет изменения планировщика.

Распределение вычислений с использованием статического планировщика

Простейший подход к распараллеливанию в задаче разложения чисел из диапазона от 1 до состоит в том, чтобы разделить множество факторизуемых чисел на равные части по числу потоков. На рис. 8.6 показан пример распределения чисел при создании четырех потоков.

Рис. 8.6. Распределение нагрузки между потоками – вариант 1

В случае применения директив OpenMP подобного распределения можно добиться, используя статический планировщик, используемый по умолчанию.

Модифицируем код факторизации с учетом выбранного способа распараллеливания.

void factorization() 
{
#pragma omp parallel for
  for (int i = 1; i < NUM_NUMBERS; i++)
  {
    int number = i;
    int idx = number;

    for (int j = 2; j < idx; j++)
    {
      if (number == 1) break; 

      int r;
      r = number % j;
      if (r == 0)
      {
        number /= j;
        divisors[idx].push_back(j);
        j--;
      }
    }    
  }
}

Скомпилируем и выполним код. На рис. 8.7 приведен результат вычислений параллельного кода исполненного на ускорителе Intel Xeon Phi с применение статического планирования.

Рис. 8.7. Результат вычислений параллельного кода на MIC с применение статического планирования

На рис. 8.8 представлен график демонстрирующий ускорение параллельной реализации алгоритма.

Рис. 8.8. Сравнение времени вычислений последовательных и параллельной реализаций

Ускорение алгоритма факторизации чисел относительно последовательной версии исполненных на Intel Xeon Phi составило 47,2 раза. Результат можно считать неплохим, но далеким от идеала. Шестьдесят ядер могли обеспечить гораздо лучшее ускорение.

Что помешало большему ускорению?

Ответ простой, вычисления сильно разбалансированы и большое время тратится на синхронизацию потоков. Фактор для чисел первых потоков можно найти гораздо быстрее, чем для последних чисел.

Дальше >>

Введение в принципы функционирования и применения современных мультиядерных архитектур (на примере Intel Xeon Phi)

Самостоятельная работа 3: Оптимизация вычислений в задаче о разложении чисел на простые сомножители. Векторизация и балансировка нагрузки

Параллельная реализация алгоритма

Распределение вычислений с использованием статического планировщика

Вопросы и ответы

Авторизоваться

Введение в принципы функционирования и применения современных мультиядерных архитектур (на примере Intel Xeon Phi)

Самостоятельная работа 3: Оптимизация вычислений в задаче о разложении чисел на простые сомножители. Векторизация и балансировка нагрузки

Параллельная реализация алгоритма

Распределение вычислений с использованием статического планировщика

Вопросы и ответы