Московский государственный университет путей сообщения
Опубликован: 10.10.2014 | Доступ: свободный | Студентов: 688 / 131 | Длительность: 22:10:00
Лекция 1:

Введение.Основы генетических алгоритмов

Фундаментальная теорема ГА

Влияние репродукции

Напомним, что в процессе репродукции хромосомы копируются в промежуточную популяцию согласно их значениям фитнесс-функции – хромосома x_i со значением f(x_i) выбирается с вероятностью P(x_i)=\frac{f(x_i)}{\sum f(x_j)}.

После репродукции мы ожидаем на следующем шаге получить m(H,t+1) двоичных стрингов, отображаемых схемой H. Известно, что

m(H,t+1)=\frac{m(H,t)*N*f(H)}{\sum f(x_j)} ( 1.1)

Это обусловлено тем, что:

  1. в среднем вероятность выбора стрингов, покрываемых схемой H, определяется величиной \frac{f(H)}{\sum f(x_j)},
  2. число стрингов, представляемых H, равно m(H,t),
  3. число стрингов в популяции равно N.

Мы можем переписать эту формулу с учетом обозначения

\overline{f(x)}=\frac{\sum_{j=1}^N f(x_j)}{N}
и получим следующее выражение для числа особей, покрываемых схемой в промежуточной популяции :

m(H,t+1)=\frac{m(H,t)*f(H)}{\overline{f(x)} ( 1.2)

Другими словами, схемы "растут" как отношение среднего значения фитнесс-функции схемы к среднему значению фитнесс-функции популяции. Схема со значением фитнесс-функции выше средней в популяции имеет больше возможностей для копирования и наоборот. Правило репродукции Холланда гласит: "схема со значением фитнесс-функции выше среднего живёт и размножается, а со значением фитнесс-функции ниже среднего умирает".

Предположим, что схема H имеет значение выше среднего фитнесс-функции на величину c*f, где c– константа. Тогда последнее выражение (1.2) можно модифицировать:

m(H,t+1)=\frac{m(H,t)*(\bar f+c*\bar f)}{\bar f}=(1+c)m(H,t)

Начиная с t=0 и предполагая, что c– величина постоянная, получаем следующее выражение числа особей промежуточной популяции, покрываемых схемой,

m(H,t)=m(H,0)*(1+c)^t ( 1.3)

Это равенство описывает геометрическую прогрессию. Очевидно, что при c>0 схема "размножается" а при c<0 схема умирает.

Далее рассмотрим влияние оператора кроссинговера на число особей в популяции, покрываемых схемой.

Влияние кроссинговера

Рассмотрим конкретный стринг А=011|1000 длины n=7 и две схемы, представляющие этот стринг: H_1 = *1*| ***0, H_2= ***| 10**

Здесь символ "|" , как обычно, обозначает точку кроссинговера k=3.

Очевидно, что схема H_1 после кроссинговера с точкой k=3, скорее всего, будет уничтожена потому, что "1" в позиции 2 и "0" в позиции 7 попадут в разные новые стринги после кроссинговера. С другой стороны, ясно, что схема H_2 будет выживать, так как "10" в позициях 4,5 будут содержаться вместе в одном новом стринге. Хотя мы взяли точку скрещивания ОК случайно, ясно, что схема H_1 менее приспособлена к выживанию, чем схема H_2. Если точка скрещивания ОК выбирается случайным образом среди n-1=7-1=6 возможных позиций, то ясно, что схема H_1 разрушается с вероятностью

P(d)=\frac{L(H_1)}{(n-1)}=\frac{5}{6}

Очевидно, что эта же схема выживает с вероятностью

P(S)=1-P(d)=\frac{1}{6}

Аналогично, схема H_2 имеет длину L(H_2) = 1 и вероятность её уничтожения P(d) = 1/6, а вероятность выживания схемы после применения ОК P(S) = 5/6. Очевидно, что нижняя граница вероятности выживания схемы после применения ОК может быть вычислена для любой схемы. Так как схема выживает, когда точка ОК попадает вне "определенной длины" , вероятность выживания для простого ОК определяется по формуле P_s(OK) = 1 – L(H)/(n-1).

Если ОК выполняется посредством случайного выбора, например, с вероятностью P_c, то вероятность выживания схемы определяется так: P(S) \ge 1 – P_c*L(H)/(n-1).

Очевидно, что это выражение уменьшается при P_c\to 1. Теперь мы можем асимптотически оценить совместный эффект операторов репродукции и кроссинговера. При независимости выполнения OP и OK можно получить следующее выражение:

m(H,t+1)\ge m(H,t)\frac{f(H)}{\bar f}[1-P_c\frac{L(H)}{n-1}] ( 1.4)

Таким образом, число схем H в новой популяции зависит от двух факторов:

  1. значение фитнесс-функции схемы выше или ниже значения ЦФ популяции;
  2. схема имеет "длинную" или "короткую" L(H) (определенную длину).

Видно, что схемы со значением ЦФ выше средней и с короткой длиной L(H) имеют возможность экспоненциального роста в новой популяции.

Далее рассмотрим влияние оператора мутации на число особей в популяции, покрываемых схемой.