Московский государственный университет имени М.В.Ломоносова
Опубликован: 30.04.2008 | Доступ: свободный | Студентов: 1613 / 248 | Оценка: 4.24 / 3.92 | Длительность: 14:56:00
Специальности: Математик
Лекция 12:

Обучение по прецедентам (по Вапнику, Червоненкису)

< Лекция 11 || Лекция 12: 12

12.5. Сходимость эмпирического риска к среднему. Случай конечного числа решающих правил.

Пусть

  • K(\alpha) – математическое ожидание ошибки классификатора f(x,\alpha),
  • A – событие – ошибка классификатора при решающем правиле f(x,\alpha),
  • P(A) – вероятность,
  • v(A) – частота в l испытаниях.

Воспользуемся неравенством Бернштейна, тогда

P\{|v(A)-P(A)|>\varepsilon\}\leq e^{-2e^2 l}
есть оценка – соотношение между частотой и вероятностью при заданном количестве испытаний.

Пусть \xi_jслучайная величина. Тогда E(\xi_j)=0 – математическое ожидание \xi_j, E\xi_j^2=\delta^2дисперсия, причем |\xi_j|\leq L. Обозначим S_0=\xi_1+\xi_2+\ldots+\xi_n. Тогда соответствующая оценка имеет вид:

P
\left\{
|S_n|>t\delta\sqrt{n}
\right\}
\leq 2\cdot\exp
\left\{
-\frac{t^2}{2\cdot\left(1+\frac{a}{3}\right)}
\right\},
\text{ где }a=\frac{L\cdot t}{\sqrt{n\delta}}.
l=\frac{\ln N-\ln\eta}{2e^2}\text{ и }e=\sqrt{\frac{\ln N-\ln\eta}{2l}},
где l – необходимое количество прецедентов для обеспечения близости.

Теорема. Пусть из множества, состоящего из N решающих правил, выбирается правило, частота ошибок которого на прецедентах составляет v. Тогда с вероятностью 1-\eta можно утверждать, что вероятность ошибочной классификации с помощью данного правила f(x\alpha) составит величину, меньшую v+e, если длина обучающей последовательности не меньше l=\frac{\ln N-\ln\eta}{2e^2}, где e=\sqrt{\frac{\ln N-\ln\eta}{2l}}, \eta и e заданы и последовательность независима.

Данная теорема справедлива для случая конечного числа решающих правил. Вапник и Червоненкис смогли обобщить эти оценки на случай бесконечного числа решающих правил.

12.6. Случай бесконечного числа решающих правил

Введем понятие "разнообразия класса функций для бесконечного множества". Пусть x_1,x_2,\ldots,x_l – прецеденты.

Определение. Дихотомией называется разбиение множества на два подмножества.

В нашем случае имеем 2^l дихотомий. Итак, пусть f(x,\alpha), \; \alpha\in A – это класс решающих правил, причем f(x,\alpha)=\{0,1\}. Пусть \Delta(x_1,x_2,\ldots,x_l) есть количество дихотомий на классе решающих правил. Тогда зададим энтропию следующим образом:

H(l)=E\{\log_2\Delta(x_1,x_2,\ldots,x_l)\},
где математическое ожидание берется по всем выборкам (x_1,x_2,\ldots,x_l). Тогда
H^S(l)=E\{\log_2\Delta^S(x_1,x_2,\ldots,x_l)\}
есть энтропия класса S решающих правил на выборках длины l.

12.6.1. Критерий равномерной сходимости v(\alpha) к вероятностям P(\alpha)

Теорема. Для равномерной сходимости v(\alpha)=K_{\textit{эмп}}(\alpha) к K(\alpha)=P(\alpha) по классу \alpha\in A необходимо и достаточно, чтобы \frac{H(l)}{l}\xrightarrow[l\rightarrow\infty]{\phantom{0}} 0.

Суть данного критерия – не пытаться выделить очень точный классификатор, так как это отдаляет от общности.

Сразу же возникает проблема необходимость перехода к бесконечным системам решающих правил. Существенно, что значение имеет лишь конечное подмножество систем решающих правил, необходимое для разделения конечного числа прецедентов.

12.6.2. Достаточное условие равномерной сходимости

Проверка условия критерия равномерной сходимости по вероятности затрудняется неопределенностью распределения выборки. Поэтому достаточные условия формулируются таким образом, чтобы не зависеть от распределения и при этом гарантировать равномерную сходимость. В таком случае вместо энтропии рассматривается величина:

m^S(l)=\max_{x_1,\ldots,x_l}\Delta^S(x_1,x_2,\ldots,x_l),
где m^S(l) – это функция роста класса решающих функций f(x,\alpha).

Т.к. логарифм максимума равен максимуму логарифмов, что, в свою очередь, не меньше математического ожидания от логарифма, то

\log_2 m^S(l)\geq H^S(l).

Если

\lim_{l\rightarrow\infty}
\left\lfloor
\log_2 m^S(l)/l
\right\rfloor
\rightarrow 0,
то по свойствам пределов
\lim_{l\rightarrow\infty}\frac{H^S(l)}{l}\rightarrow\infty.

Данное условие легко проверятся для различных классов решающих правил.

Другими словами m^S(l) можно трактовать как максимальное число способов разделения l точек на два класса с помощью решающих правил f(x,\alpha),\;\alpha\in A.

Теорема. Функция роста либо тождественно равна 2^l, либо, мажорируется функцией \sum_{i=0}^{n-1} C_l^i, где n – минимальное значение l, при котором m^S(l)\neq 2^l, т.е. либо m^S(l)=2^l, либо m^S(l)\leq\sum_{i=0}^{n-1} C_l^i.

В свою очередь

\sum_{i=0}^{n-1} C_l^i\leq 1,5\cdot\frac{l^{n-1}}{(n-1)!}.
Значит
m^S(l)\leq 1,5\cdot\frac{l^{n-1}}{(n-1)!},
где l=1,2,\ldots,n, и \frac{l^{n-1}}{(n-1)!} – степенная функция, мажорирующая m^S(l).

Существует максимум n-1 точка, которая еще разбивается всеми возможными способами с помощью правила f(x,\alpha), но никакие n точек этим свойством не обладают.

Определение. n-1 называется емкостью класса решающих функций или мера разнообразия решающих правил в классе f()x,\alpha или VCразмерностью класса – универсальная характеристика класса решающих функций.

Отметим, что если m^S(l)=2^l для всех l, то емкость бесконечна.

Теорема. Если емкость класса решающих функций конечна, то всегда имеет место равномерная сходимость частот к вероятностям такое, что

\lim_{l\rightarrow\infty}
\left(
\frac{\log_2 m^S(l)}{l}
\right)
\leq\lim_{l\rightarrow\infty}
\left(
\frac{(n-1)\log l+\log 1.5}{l}
\right)
=0
и достаточное условие выполнено.

12.6.3. Скорость сходимости

Запишем оценку для бесконечного числа решающих правил. Ее вид аналогичен случаю конечного числа решающих правил:

P
\left\{
\sup_{\alpha}|P(\alpha)-v(\alpha)|>\varepsilon
\right\}
<3m^S(2l)\cdot e^{\frac{\varepsilon^2(l-1)}{4}}.

Если емкость бесконечна, то оценка тривиальная (не больше единицы). Пусть r – конечная емкость класса решающих функций. Тогда

P
\left\{
\sup_{\alpha}|P(\alpha)-v(\alpha)|>\varepsilon
\right\}
<4,5\cdot\frac{(2l)^r}{r}\cdot e^{\frac{\varepsilon^2(l-1)}{4}}.

Введем обозначение: \eta=4,5\cdot\frac{(2l)^r}{r}\cdot e^{\frac{\varepsilon^2(l-1)}{4}}, Тогда P
\left\{
\sup_{\alpha}|P(\alpha)-v(\alpha)|>\varepsilon
\right\}
<\eta
.

Отсюда следует, что \varepsilon=\sqrt{\frac{r\left(\ln\frac{2l}{r}+1\right)-\ln\frac{\eta}{5}}{l-1}}
.

Значит, с вероятностью, превышающей 1-\eta качество эмпирического оптимального решающего правила отличается от истинно оптимально решающего правила не более чем на величину \Delta=2\varepsilon.

В следующей таблице представлен некоторый итог наших рассуждений.

Малая емкость класса решающих функций (бедный) Большая емкость класса решающих функций (богатый)
Близость эмпирического решающего правила к оптимальному решающему правилу Хорошая Плохая
Качество разделения (минимизация ошибки) Низкое Высокое

Таким образом, необходимо минимизировать степени свободы.

12.6.4. Случай класса линейных решающих функций

Пусть f(x,\alpha) – линейная решающая функция, mразмерность пространства.

Как уже отмечалось выше, имеем 2^l дихотомий, где lдлина выборки. Хотим выяснить, какое количество дихотомий реализуется с помощью гиперплоскостей?

Максимальное число точек в пространстве размерности ь, которое с помощью гиперплоскостей можно разбить всеми возможными способами на два класса есть ь+1. Если m^S(l)\leq 1,5\cdot\frac{l^{m+1}}{(m+1)!}, то линейный риск будет равномерно сходиться к среднему риску. Емкость класса конечна и равна m+1.

< Лекция 11 || Лекция 12: 12