НОУ ИНТУИТ | Нейрокомпьютерные системы. Лекция 4: Задача нелинейного разделения двух классов

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Опубликован: 13.09.2006 | Уровень: специалист | Доступ: платный | ВУЗ: Новосибирский Государственный Университет

|

Вам нравится? Нравится 20 студентам

| Поделиться |

Поддержать программу

Аннотация: Рассматриваются: решение задачи нелинейного разделения двух классов методом максимума правдоподобия и многослойной сетью, реализация булевых функций посредством нейронной сети.

Ключевые слова: объект, вероятность, матрица, минимизация, решающее правило, класс, сумматор, Произведение, функция, коэффициенты, персептрон, нейрон, гиперплоскость, значение, сеть, отрезок, входной, вектор

Метод максимума правдоподобия

Рассмотрим задачу разделения двух классов, с каждым из которых связано вероятностное распределение в пространстве векторов значений признаков. Будем обозначать плотности этих распределений P(x|C_i), i = 1,2, C_i - событие, состоящее в том, что объект принадлежит { }-му классу. Нас интересует апостериорная вероятность: P(C_i|x) — вероятность принадлежности объекта к { }-му классу при условии, что он характеризуется вектором признаков Известная из теории вероятности формула Байеса дает

$P(C_i|x) = P(C_i)P(x|C_i)/ \sum_{j} P(C_j)P(x|C_j)$

где P(C_i) — вероятность появления объектов { }-го класса. Для нормальных -мерных распределений

$P(x|Ci) = 1/ \{(2\pi )^{k/2}({det \sum}^i)^{1/2}exp [-\frac{1}{2}(x - M^i), ( {\sum}^i)^{-1}(x - M^i)]\},$

где M^i — математическое ожидание в { }-м классе, { $\sum^i$ } — ковариационная матрица для { }-го класса. В результате обработки данных находят статистические оценки { $\sum^i$ } и M^i : пусть для { }-го класса имеются векторы $x^1 \ldots x^r$ , тогда полагаем

$M^i = ( \sum^r_{j=1} x^j)/r, ( {\sum}^i)_{pq} = \frac{1}{r} \sum^r_{j=1} (x_p^j - M_p^i) (x_q^j - M_q^i).$

Минимизация в формуле Байеса дает простое решающее правило: принадлежит -му классу, если P(C_i|x) > P(C_j|x) для всех $j\neq i$ , т.е выбирается такой класс, для которого вероятность максимальна. Поскольку в формуле Байеса для всех C_i знаменатель общий, то решающее правило приобретает следующий вид: выбираем то , для которого P(C_i)P(x|C_i) максимально. Для нормального распределения удобно прологарифмировать эту величину. Окончательно получаем:

принадлежит -му классу, если среди величин

$P_j = ln P(C_j) - (ln det {\sum}^j)/2 - [({x - M^j}), ({\sum}^j)^{-1}(x - M^j)]/2$

величина P_i - максимальная. Таким образом, разделяющей является поверхность второго порядка, а операцию разделения на два класса выполняет квадратичный адаптивный сумматор в комбинации с пороговым нелинейным элементом. Пороговый элемент вычисляет ступенчатую функцию f(P_1 - P_2) , в результате для первого класса получим ответ 1, для второго - 0.

Нейрофизиологическая аналогия

Идея использования НС с квадратичными сумматорами для улучшения способности сети к обобщению базируется на хорошо известном факте индукции в естественных НС, когда возбуждение в одних областях мозга влияет на возбуждение в других. Простейшей формализацией этого является введение коэффициента, пропорционального сигналу от -го нейрона, в величину веса -го сигнала -го нейрона. Снабдив такое произведение весом $q_{ij}$ — "коэффициентом индукции", получим рассматриваемую архитектуру

где Q(x) и L(x) - соответственно квадратичная и линейная функция, P
= const , - функция активации нейрона. Коэффициенты функций Q, L и константа являются подстроечными параметрами, определяющимися в ходе обучения.