Опубликован: 13.09.2006 | Уровень: специалист | Доступ: платный | ВУЗ: Новосибирский Государственный Университет
Лекция 2:

Модели нейронов

< Лекция 1 || Лекция 2: 123456 || Лекция 3 >

Сигмоидальный нейрон

Нейрон сигмоидального типа имеет структуру, подобную модели МакКаллока-Питса, с той разницей, что функция активации является непрерывной и может быть выражена в виде сигмоидальной униполярной или биполярной функции. Униполярная функция, как правило, представляется формулой (рис.2)

f(x)=1/(1+exp(-\beta x)),

Униполярная функция

Рис. 2. Униполярная функция

тогда как биполярная функция задается в виде (рис.3) f(x) = tanh(\beta x).

Биполярная функция

Рис. 3. Биполярная функция

Параметр \beta влияет на крутизну графика функции f(x). При \beta\rightarrow\infty сигмоидальная функция превращается в функцию ступенчатого типа, идентичную функции активации персептрона. На практике чаще всего используется значение \beta = 1.

Важным свойством сигмоидальной функции является ее дифференцируемость. Для униполярной функции имеем

df(x)/dx = \beta f(x)(1 - f(x))

тогда как для биполярной функции

df(x)/dx = \beta (1 - f(x))^2.

Применение непрерывной функции активации позволяет использовать при обучении градиентные методы оптимизации. Проще всего реализовать метод наискорейшего спуска, в соответствии с которым уточнение вектора весов w = [w_0,w_1, \ldots,
w_N]^T проводится в направлении отрицательного градиента целевой функции E=(y - d)^2/2, где

y=f(u)=f(\sum_{i=0}^N {w_{i}x_{i}} ).

Компонента градиента имеет вид

\nabla_{i}E=dE/dw_i=ex_{i}df(u)/du,

где e=y-d означает разницу между фактическим и ожидаемым значением выходного сигнала нейрона. Если ввести обозначение \delta = e\cdot
df(u)/du, то можно получить выражение, определяющее i -ю составляющую градиента в виде

\nabla_{i}E= \delta x_i.

Значения весовых коэффициентов уточняются по формуле

w_{i}(t+1)=w_{i}(t)-\alpha \delta x_i,

где \alpha\in(0,1).

Применение градиентного метода для обучения нейрона гарантирует достижение только локального минимума. Для выхода из окрестности локального минимума результативным может оказаться обучение с моментом. В этом методе процесс уточнения весов определяется не только информацией о градиенте функции, но и предыдущим изменением весов. Подобный способ может быть задан выражением

\triangle w_{i}(t+1) = - \alpha\delta x_{i} + \beta \triangle w_{i}(t),

в котором первый член соответствует обычному методу наискорейшего спуска, тогда как второй член, называемый моментом, отражает последнее изменение весов и не зависит от фактического значения градиента. Значение \beta выбирается из интервала (0,1).

< Лекция 1 || Лекция 2: 123456 || Лекция 3 >
Ирина Ткаченко
Ирина Ткаченко
Россия, Москва
Николай Ткаченко
Николай Ткаченко
Россия