Россия, Москва |
Задача нелинейного разделения двух классов
Метод максимума правдоподобия
Рассмотрим задачу разделения двух классов, с каждым из которых связано вероятностное распределение в пространстве векторов значений признаков. Будем обозначать плотности этих распределений - событие, состоящее в том, что объект принадлежит { }-му классу. Нас интересует апостериорная вероятность: — вероятность принадлежности объекта к { }-му классу при условии, что он характеризуется вектором признаков Известная из теории вероятности формула Байеса дает
где — вероятность появления объектов { }-го класса. Для нормальных -мерных распределений
где — математическое ожидание в { }-м классе, { } — ковариационная матрица для { }-го класса. В результате обработки данных находят статистические оценки { } и : пусть для { }-го класса имеются векторы , тогда полагаем
Минимизация в формуле Байеса дает простое решающее правило: принадлежит -му классу, если для всех , т.е выбирается такой класс, для которого вероятность максимальна. Поскольку в формуле Байеса для всех знаменатель общий, то решающее правило приобретает следующий вид: выбираем то , для которого максимально. Для нормального распределения удобно прологарифмировать эту величину. Окончательно получаем:
принадлежит -му классу, если среди величин
величина - максимальная. Таким образом, разделяющей является поверхность второго порядка, а операцию разделения на два класса выполняет квадратичный адаптивный сумматор в комбинации с пороговым нелинейным элементом. Пороговый элемент вычисляет ступенчатую функцию , в результате для первого класса получим ответ 1, для второго - 0.
Нейрофизиологическая аналогия
Идея использования НС с квадратичными сумматорами для улучшения способности сети к обобщению базируется на хорошо известном факте индукции в естественных НС, когда возбуждение в одних областях мозга влияет на возбуждение в других. Простейшей формализацией этого является введение коэффициента, пропорционального сигналу от -го нейрона, в величину веса -го сигнала -го нейрона. Снабдив такое произведение весом — "коэффициентом индукции", получим рассматриваемую архитектуру
где и - соответственно квадратичная и линейная функция, , - функция активации нейрона. Коэффициенты функций и константа являются подстроечными параметрами, определяющимися в ходе обучения.