Опубликован: 01.03.2007 | Доступ: свободный | Студентов: 1591 / 212 | Оценка: 4.58 / 4.39 | Длительность: 20:15:00
Специальности: Программист
Лекция 2:

Решение задач нейронными сетями

Если это уравнение имеет два корня y=\alpha_1, \alpha_2, ( \alpha_1 < \alpha_2 ) то наилучшим решающим правилом будет: при \alpha_1 < {(x, \alpha )} < \alpha_2 объект принадлежит одному классу, а при \alpha_1 > {(x, \alpha )} или {(x, \alpha )} > \alpha_2 - другому (какому именно, определяется тем, которое из произведений p_i \rho_i (\chi ) больше). Если корней нет, то оптимальным является отнесение к одному из классов. Случай единственного корня представляет интерес только тогда, когда \sigma _{1}=\sigma _{2}. При этом уравнение превращается в линейное и мы приходим к исходному варианту - единственной разделяющей точке \alpha_0.

Таким образом, разделяющее правило с единственной разделяющей точкой \alpha_0 не является наилучшим для нормальных распределений и надо искать две разделяющие точки.

Если сразу ставить задачу об оптимальном разделении многомерных нормальных распределений, то получим, что наилучшей разделяющей поверхностью является квадрика (на прямой типичная "квадрика" - две точки). Предполагая, что ковариационные матрицы классов совпадают (в одномерном случае это предположение о том, что \sigma _{1}=\sigma _{2} ), получаем линейную разделяющую поверхность. Она ортогональна прямой, соединяющей центры выборок не в обычном скалярном произведении, а в специальном: \left\langle {x,y} \right\rangle = \left( {x,\Sigma^{-1} y} \right), где \Sigma - общая ковариационная матрица классов. За деталями отсылаем к прекрасно написанной книге [2.17], см. также [2.11, 2.12, 2.16].

Важная возможность усовершенствовать разделяющее правило состоит с использовании оценки не просто вероятности ошибки, а среднего риска: каждой ошибке приписывается "цена" ci и минимизируется сумма {\rm{c}}_1 {\rm{p}}_1 \rho_1 {\rm{(}}\chi {\rm{) + c}}_2 {\rm{p}}_2 \rho_2 {\rm{(}}\chi {\rm{)}}. Ответ получается практически тем же (всюду pi заменяются на ci pi ), но такая добавка важна для многих приложений.

Требование безошибочности разделяющего правила на обучающей выборке принципиально отличается от обсуждавшихся критериев оптимальности. На основе этого требования строится персептрон Розенблатта - "дедушка" современных нейронных сетей [2.1].

Возьмем за основу при построении гиперплоскости, разделяющей классы, отсутствие ошибок на обучающей выборке. Чтобы удовлетворить этому условию, придется решать систему линейных неравенств:

{{\rm{(}}{x^i}{\rm{,}}\alpha )}  > \alpha_0 {\rm{(i = 1}},...,{\rm{n)}}

{\rm{(y}}^{\rm{i}}{\rm{,}}\alpha {\rm{)}}  < \alpha_0 {\rm{(i = 1}},...,{\rm{m)}}

Здесь xi ( i=1,..,n ) - векторы из обучающей выборки, относящиеся к первому классу, а yi ( j=1,..,m ) - ко второму.

Удобно переформулировать задачу. Увеличим размерности всех векторов на единицу, добавив еще одну координату - \alpha_0 к \alpha, x0=1 - ко всем x и y0 =1 - ко всем y. Сохраним для новых векторов прежние обозначения - это не приведет к путанице.

Наконец, положим zi = xi ( i=1,...,n ), zj = -yj ( j=1,...,m ).

Тогда получим систему n +m неравенств

{\rm{(z}}^{\rm{i}}{\rm{,}}\alpha {\rm{)}} > {0 {\rm{(i = 1}},...,{\rm{n +m)}}}

которую будем решать относительно \alpha. Если множество решений непусто, то любой его элемент \alpha порождает решающее правило, безошибочное на обучающей выборке.

Итерационный алгоритм решения этой системы чрезвычайно прост. Он основан на том, что для любого вектора x его скалярный квадрат (x,x) больше нуля. Пусть \alpha - некоторый вектор, претендующий на роль решения неравенств {{\rm{(z}}^{\rm{i}}{\rm{,}}\alpha {\rm{)}}} > {0 {\rm{(i = 1}},...,{\rm{n +m)}}}, однако часть из них не выполняется. Прибавим те zi, для которых неравенства имеют неверный знак, к вектору \alpha и вновь проверим все неравенства {{\rm{(z}}^{\rm{i}}{\rm{,}}\alpha {\rm{)}}} > 0 и т.д. Если они совместны, то процесс сходится за конечное число шагов. Более того, добавление zi к \alpha можно производить сразу после того, как ошибка ( {{\rm{(z}}^{\rm{i}}{\rm{,}}\alpha {\rm{)}}} < 0 ) обнаружена, не дожидаясь проверки всех неравенств - и этот вариант алгоритма тоже сходится [2.2].