Азербайджан |
Обучение по прецедентам (по Вапнику, Червоненкису)
12.1. Задача построения классификатора
Пусть
-
– пространство образов,
-
– признаковое пространство,
-
– индикаторная функция,
-
– множество признаков.
Тогда .
Пусть также
-
– множество прецедентов,
-
– решающее правило.
Тогда
Выбор решающего правила исходит из минимизации ,
где
– метрика, мера близости функций
и
.
Построение
называют задачей обучения.
– это ученик,
процедура формирования – это учитель, прецеденты – это обучающая последовательность.
12.2. Качество обучения классификатора
Относительная доля несовпадений классификации с учителем для
решающего правила есть: , где
.
Надежность обучения классификатора – это вероятность получения решающего правила с заданным качеством.
Пусть – класс дискриминантных функций,
где
– параметр. Число степеней свободы при
выборе конкретной функции в классе определяется количеством
параметров в векторе
, т.е. размерностью
.
Например, для классов линейных и квадратичных функций имеем:
Линейная дискриминантная функция: .
В таком случае имеем
степень свободы.
Квадратичная дискриминантная функция: .
В таком случае имеем
степеней свободы.
С увеличением степеней свободы увеличивается способность классификатора по разделению.
12.3. Вероятностная модель
Пусть прецеденты – это результат реализации случайных величин. Рассмотрим величину риска (т.е. ошибки) связанной с классификацией. Определим понятия риск среднего и риска эмпирического.
Пусть на заданы
-алгебра и мера
.
Пусть также
-
– вектор признаков,
-
– класс функций, из которых выбирается решающее правило,
-
– решающее правило (результат классификации), которое принимает значение 0 или 1 при фиксированном векторе параметра,
-
– характеристическая функция множества,
-
– множество параметров, описывающие различные функции в
.
Тогда , где
и
,
.
В данных обозначениях средний риск выглядит следующим образом:
![K(\alpha)=\int\limits_X \chi\{y\neq f(x,\alpha)\}dP.](/sites/default/files/tex_cache/d02285364e5a618805677dd9018ea864.png)
Для случая двух классов, при , имеем:
![K(\alpha)=\int\limits_{\Omega}(y-f(x,\alpha))^2 dP](/sites/default/files/tex_cache/40945befdd848a3878b23fca007da50f.png)
![K(\alpha)=\int\limits_{(X,M)}(y-f(x,\alpha))^2 dP(x,y),](/sites/default/files/tex_cache/877b75bab10a71b1ec54965d231c4b36.png)
![dP](/sites/default/files/tex_cache/488ab29adec84b0394426c82ab48b26d.png)
![X](/sites/default/files/tex_cache/02129bb861061d1a052c592e2dc6b383.png)
12.4. Задача поиска наилучшего классификатора
Рассмотрим минимизацию функционала:
![K(\alpha)\rightarrow\min_{\alpha\in A}](/sites/default/files/tex_cache/ea06c06f1bd9dfad8f62b7ae843cb869.png)
Задача же поиска наилучшего классификатора состоит в нахождении такого, что
![K(\alpha^*)=\min_{\alpha\in A}K(\alpha)](/sites/default/files/tex_cache/b41b5ebea7d473d5704381b76e572c73.png)
Если же минимума не существует, то надо найти такое, что
![\left|
K(\alpha^*)-\inf_{\alpha\in A}K(\alpha)
\right|
<\delta.](/sites/default/files/tex_cache/d70ed0c894fe5b782a90a5778070c533.png)
Другими словами, необходимо решить задачу минимизации среднего риска.
Поскольку неизвестно, будем решать задачу минимизации
эмпирического риска. Пусть
– число прецедентов. Тогда эмпирический
риск задается выражением:
![K_{\textit{эмп}}(\alpha)=\frac{1}{l}\sum_{i=1}^l\left|y-f(x,\alpha)\right|.](/sites/default/files/tex_cache/946c5d53f973c2edd804c1806c7b82e8.png)
Таким образом, задача минимизации эмпирического риска выглядит так:
![K_{\textit{эмп}}(\alpha)\rightarrow\min_{\alpha\in A},](/sites/default/files/tex_cache/358c607c462344ba6e4cd2ada6bae030.png)
![\alpha](/sites/default/files/tex_cache/7b7f9dbfea05c83784f8b85149852f08.png)
В идеале надо получить взаимосвязанные оценки эмпирического и среднего риска.
Отметим, что чем меньше , тем легче построить
такую,
что
обращается в ноль, либо очень мало. Но при этом истинное
значение
может сильно отличаться от
.
Необходимо выбрать
такую, чтобы имела
место равномерная сходимость по
выражения:
![P
\left\{
\sup_{\alpha}
\left|
K_{\textit{эмп}}(\alpha)-K(\alpha)
\right|
>\varepsilon
\right\}
\xrightarrow[l\rightarrow\infty]{\phantom{0}} 0.](/sites/default/files/tex_cache/aa6f765795f81ef44d2c15efa65ebca3.png)
Фактически это есть сходимость частот к математическому ожиданию.
В дальнейшем будем считать, что в зависимости от конкретного
набора прецедентов можем получить любые . Но необходимо, чтобы
полученные эмпирическое решающее хорошо работало (отражало общие
свойства) для всех образов. Поэтому в формуле присутствует равномерная
сходимость.