Азербайджан |
Классификация на основе байесовской теории решений
2.4. Дискриминантные функции и поверхности решения
Минимизация риска и вероятности ошибки эквивалентны разделению
пространства признаков на областей. Если области
и
смежные, то
они разделены поверхностью решения в многомерном пространстве. Для
случая минимизации вероятности ошибки поверхность решения задается
уравнением:
![P(\Omega_i|x)-P(\Omega_j|x)=0](/sites/default/files/tex_cache/d33db6df2c080cacbbd3c5d289b2ad73.png)
![g_i(x)=f(P(\Omega_i|x)),](/sites/default/files/tex_cache/cdaf55c923a94cbf6537d447f9a71db1.png)
![f](/sites/default/files/tex_cache/8fa14cdd754f91cc6554c9e71929cce7.png)
Определение. Функция называется дискриминантной функцией.
Таким образом, поверхность решения будет задаваться уравнением:
![g_i(x)-g_j(x)=0, \; i=1,2,\ldots,M \, , \; i\neq j.](/sites/default/files/tex_cache/8162b7871c7f0008ca48c0f6cea05b23.png)
Для задачи классификации по вероятности ошибки или риску не всегда удается вычислить вероятности. В этом случае бывает более предпочтительно вычислить разделяющую поверхность на основе другой функции стоимости. Такие подходы дают решения, субоптимальные по отношению к Байесовской классификации.
2.5. Байесовский классификатор для нормального распределения
Распределение Гаусса очень широко используется по причине
вычислительного удобства и адекватности во многих случаях. Рассмотрим
многомерную плотность нормального распределения :
![p(x|\Omega_i)=\frac{1}{(2\pi)^{1\!/2}|\Sigma_i|^{1\!/2}}\cdot
\exp\left(-\frac12 \frac{(x-\mu_i)^T}{\Sigma_i(x-\mu_i)}\right),\; i=1,2,\ldots,M](/sites/default/files/tex_cache/5f91216e96d17e572885c3365a5804f7.png)
![\mu_i=E[X]](/sites/default/files/tex_cache/7f71ce38c2710ae6437629563825d352.png)
![x](/sites/default/files/tex_cache/9dd4e461268c8034f5c8564e155c67a6.png)
![\Omega_i](/sites/default/files/tex_cache/fa83c48253385292aaeb29bc766ba66f.png)
![\Sigma_i](/sites/default/files/tex_cache/6b2267dda6c4dde1b79152ef8269f59a.png)
![l\times l](/sites/default/files/tex_cache/27771e2208849288b9fe644ee103c902.png)
![\Omega_i, \; \Sigma_i=E\lfloor(x-\mu_i)(x-\mu_i)^T\rfloor](/sites/default/files/tex_cache/10f8022052d5f068f5d10024efd94071.png)
![|\Sigma_i|](/sites/default/files/tex_cache/1d545a851ef5ae4985e73674d6ff4384.png)
![x, \mu_i](/sites/default/files/tex_cache/0ec643c060564f70a6532f848309b653.png)
![x^T, \mu_i^T](/sites/default/files/tex_cache/09e1f5af002fd35cb0a18ac473ccafad.png)
5.1. Квадратичная поверхность решения. На основе этих данных необходимо построить байесовский классификатор. Рассмотрим логарифмическую дискриминантную функцию:
![\begin{gathered}
g_i(x) = \ln (P(\Omega_i|x))= \\
=\ln (p(x|\Omega_i)P(\Omega_i))= \\
=\ln p(x|\Omega_i)+\ln P(\Omega_i)= \\
=-\frac{1}{2} \frac{(x-\mu_i)}{\Sigma_i}(x-\mu_i)^T+\ln P(\Omega_i) +\ln \frac{1}{(2\pi)^{1\!/2}|\Sigma_i|^{1\!/2}}= \\
=-\frac{1}{2} \frac{(x-\mu_i)}{\Sigma_i}(x-\mu_i)^T+\ln P(\Omega_i) -\frac{l}{2} \ln(2\pi)-\frac12\ln |\Sigma_i| = \\
=-\frac{1}{2} \frac{(x-\mu_i)}{\Sigma_i}(x-\mu_i)^T+\ln P(\Omega_i) + C_i, \text{ где } C_i=-\frac{l}{2} \ln(2\pi)-\frac{1}{2} \ln |\Sigma_i|
\end{gathered}](/sites/default/files/tex_cache/5092947e7bbac45ebec55bfdef10f684.png)
Эта функция представляет собой квадратичную форму. Следовательно,
разделяющая поверхность является гиперповерхностью второго порядка.
Поэтому Байесовский классификатор является квадратичным
классификатором.
Пример. Пусть .
Тогда
.
![g_i(x)=-\frac{1}{2\sigma_i^2}(x_1^2+x_2^2)+\frac{1}{\sigma_i^2}(\mu_{i1}x_1+\mu_{i2}x_2)-
\frac{1}{\sigma_i^2}(\mu_{i1}^2+\mu_{i2}^2)+\ln(P(\Omega_i))+C_i](/sites/default/files/tex_cache/f852182c6854f3dd19b0d74b97394662.png)
Пример. Пусть
![P(\Omega_1)=P(\Omega_2), \; \mu_1=(0,0), \; \mu_2=(1,0), \; \Sigma_1=
\begin{pmatrix}
0.1 & 0 \\
0 & 0.15
\end{pmatrix},
\Sigma_2=
\begin{pmatrix}
0.2 & 0 \\
0 & 0.25
\end{pmatrix}.](/sites/default/files/tex_cache/d65027be988ef467da1660b323d5c649.png)
![\frac{1}{\Sigma_1}=
\begin{pmatrix}
10 & 0 \\
0 & 20/3
\end{pmatrix}
,\;
\frac{1}{\Sigma_2}=
\begin{pmatrix}
5 & 0 \\
0 & 4
\end{pmatrix}.](/sites/default/files/tex_cache/11158724889aaff59393780f1155bf0a.png)
![\begin{gathered}
g_1(x)=-\frac12(x_1,x_2)
\begin{pmatrix}
10 & 0 \\
0 & 20/3
\end{pmatrix}
\begin{pmatrix}
x_1 \\
x_2
\end{pmatrix}
+\ln P(\Omega_1)-\ln(2\pi)+\frac12\ln\frac{200}{3}= \\
=\left(10x_1^2+\frac{20}{3}x_2^2\right)+\ln P-\ln(2\pi)+\frac12\ln\frac{200}{3} \\
g_2(x)=-\frac12(x_1-1,x_2)
\begin{pmatrix}
5 & 0 \\
0 & 4
\end{pmatrix}
\begin{pmatrix}
x_1-1 \\
x_2
\end{pmatrix}
+\ln P(\Omega_2)-\ln(2\pi)+\frac12\ln 20 = \\
=-\frac12(5(x_1-1)^2+4x_2^2)+\ln P(\Omega_2)-\ln(2\pi)+\frac12\ln 20 \\
g_1(x)-g_2(x)=-\frac12
\left(10x_1^2+\frac{20}{3}x_2^2-5(x_1-1)^2-4x_2^2\right)
+\frac12\left(\ln\frac{200}{3}-\ln 20\right)= \\
=-\frac12\left(5(x_1+1)^2+\frac83 x_2^2\right)+5+\frac12\ln\frac{10}{3}
\end{gathered}](/sites/default/files/tex_cache/2a1354f6b56f307115b1f52d5687908b.png)
Т.к. ,
то
![\begin{gathered}
5(x_1+1)^2+\frac83 x_2^2=10+\ln\frac{10}{3} \\
\frac{(x_1+1)^2}{8/3}+\frac{x_2^2}{5}=\frac{3}{40}\left(10+\ln\frac{10}{3}\right) \\
\frac{(x_1+1)^2}{\left(2\sqrt{2/3}\right)^2}+\frac{x_2^2}{\left(\sqrt{5}\right)^2}=\frac{3}{40}\left(10+\ln\frac{10}{3}\right)
\end{gathered}](/sites/default/files/tex_cache/b854dfe23cda00e1aeca868f49f7e003.png)
![(-1,0)](/sites/default/files/tex_cache/e0e8df1bb589167f4821658def3ef372.png)
Пример. Пусть
![P(\Omega_1)=P(\Omega_2), \; \mu_1=(0,0), \; \mu_2=(1,0), \; \Sigma_1=
\begin{pmatrix}
0.1 & 0 \\
0 & 0.15
\end{pmatrix},
\Sigma_2=
\begin{pmatrix}
0.15 & 0 \\
0 & 0.1
\end{pmatrix}.](/sites/default/files/tex_cache/b35d6a0746bbdc4ff988b725c6fc0ced.png)
![\frac{1}{\Sigma_1}=
\begin{pmatrix}
10 & 0 \\
0 & 20/3
\end{pmatrix}
,\;
\frac{1}{\Sigma_2}=
\begin{pmatrix}
20/3 & 0 \\
0 & 10
\end{pmatrix}.](/sites/default/files/tex_cache/22e862b54b624aa9cc0e4e85fec90ac5.png)
Из предыдущего примера:
![\begin{gathered}
g_1(x)=-\frac12\left(5(x_1-1)^2+4x_2^2\right)+\ln P(\Omega_2)-\ln(2\pi)+\frac12\ln 20 \\
g_2(x)=-\frac12(x_1-1,x_2)
\begin{pmatrix}
10/3 & 0 \\
0 & 10
\end{pmatrix}
\begin{pmatrix}
x_1-1 \\
x_2
\end{pmatrix}
+\ln P(\Omega_2)+\frac12\ln\frac{200}{3} \\
g_1(x)-g_2(x)=-\frac12\left(10x_1^2+\frac{20}{3}x_2^2-\frac{20}{3}(x_1-1)^2-10x_2^2\right)=\\
=-\frac12\left(\frac{10}{3}x_1^2-\frac{10}{3}x_2^2+\frac{40}{3}x_1-\frac{20}{3}\right)=\\
=-\frac12\cdot\frac{10}{3}(x_1^2-x_2^2+4x_1-2)=-\frac53\left((x_1+2)^2-x_2^2-6\right)
\end{gathered}](/sites/default/files/tex_cache/98025667db8c501759e7eb009fe8daa6.png)
![g_1(x)-g_2(x)=0](/sites/default/files/tex_cache/b1f068000488d6025ae935f1e25500b5.png)
![-\frac53\left((x_1+2)^2-x_2^2-6\right)=0](/sites/default/files/tex_cache/0069a2ac4c3c63e054fcf3628e600011.png)
![(x_1+2)^2-x_2^2](/sites/default/files/tex_cache/91516f47d96f2fc79707b9f210fd994c.png)
![(-2,0)](/sites/default/files/tex_cache/a80dca1cac9c2b1ab9574b1bde8dcdb9.png)
5.2. Линейная поверхность решения. Условие остается тем же:
![p(x|\Omega_i)=\frac{1}{(2\pi)^{1\!/2}\cdot|\Sigma_i|}\cdot
\exp\left(-\frac12\frac{x-\mu_i}{\Sigma}(x-\mu_i)^T\right),\; i=1,2,\ldots,M.](/sites/default/files/tex_cache/869329c54e3605a4064afee2ae2e8192.png)
В предыдущем пункте мы получили квадратичную форму:
![\begin{gathered}
h_i(x)=\ln\left(p(x|\Omega_i)P(\Omega_i)\right)=\\
=\ln p(p(x|\Omega_i)+\ln P(\Omega_i)=\\
=-\frac12\frac{x-\mu_i}{\Sigma_i}(x-\mu_i)^T+\ln P(\Omega_1)+C_i,\text{ где } C_i=\ln\frac{1}{(2\pi)^{1\!/2}|\Sigma_i|^{1\!/2}}
\end{gathered}.](/sites/default/files/tex_cache/ff679609727c9dd8f0483563074aace8.png)
Пусть , тогда
![\begin{gathered}
h_i(x)=-\frac12\left[\frac{x}{\Sigma_i}x^T-\frac{\mu_i}{\Sigma_i}x^T-\frac{x}{\Sigma_i}\mu_i^T+\frac{\mu_i}{\Sigma_i}\mu_i^T\right]+\ln P(\Omega_i)+C_i= \\
=-\frac12\left[\frac{x}{\Sigma_i}x^T-2\frac{\mu_i}{\Sigma_i}x^T+\frac{\mu_i}{\Sigma_i}\mu_i^T\right]+\ln P(\Omega_i)+C_i=\\
=-\frac12\left[K_i(x)-2W_i x^T+W_i\mu_i^T\right]+\ln P(\Sigma_i)+C_i=\\
=-\frac12 K_i(x)+L_i(x)+C_i, \text{ где } L_i(x)=W_i x^T+W_{i0};\; W_i=\frac{\mu_i}{\Sigma_i};\\
W_{i0}=\ln P(\sigma_i\mu_i^T)
\end{gathered}](/sites/default/files/tex_cache/9360cf77b387fbeb987527ea3ed8a64c.png)
При можно сравнивать только
и
.
Таким образом, при
мы получили линейную поверхность решения.
5.2.1. Линейная поверхность решения с диагональной матрицей ковариации.
Рассмотрим случай, когда матрица диагональная с одинаковыми элементами: . Тогда
имеет вид:
;
![L_{ij}(x)=L_i(x)-L_j(x)=W^T(x-x_0)=0,](/sites/default/files/tex_cache/c54bd70b56bf61900577945191331702.png)
![W=\mu_i-\mu_j,\;x_0=\frac12(\mu_i+\mu_j)-\sigma^2\frac{\mu_i-\mu_j}{\|\mu_i-\mu_j\|^2}\ln\frac{P(\Omega_i)}{P(\Omega_j)}](/sites/default/files/tex_cache/dae4eeb39e07b43c59e9f945f8e9b0b0.png)
![x_0](/sites/default/files/tex_cache/3e0d691f3a530e6c7e079636f20c111b.png)
Если , то
– это
середина вектора
.
Т.к. , то
.
Следовательно, поверхность решения ортогональна
.
Пример. Рассмотрим пример разделяющей поверхности решения для
двухклассовой задачи с нормальным распределением. Поверхность решения
лежит ближе к , если
.
Соответственно, поверхность решения лежит
ближе к
, если
.
Также, если
мало по отношению к
, то положение
поверхности решения не очень чувствительно к изменению
и
.
Последнее справедливо, т.к. вектора лежат в малых окрестностях
и
,
поэтому изменение гиперплоскости их затрагивает не сильно. В центре
изображен случай малого, а справа случай большого
.
5.2.2. Линейная поверхность решения с недиагональной матрицей ковариации. В этом случае уравнение:
![L_{ij}(x)=L_i(x)-L_j(x)=W^T(x-x_0)=0](/sites/default/files/tex_cache/bd2fd1d5c5c378f319a4d4740b074143.png)
![W=\frac{\mu_i-\mu_j}{\Sigma}\text{ и }x_0=\frac12(\mu_i+\mu_j)-\frac{\mu_i-\mu_j}{\|\mu_i-\mu_j\|_{\Sigma^{-1}}^2}](/sites/default/files/tex_cache/4a5519360b58428e67fe70d945f340f7.png)
![\Sigma^{-1}](/sites/default/files/tex_cache/6535205b6e257fa3f48008d06361f94b.png)
![x](/sites/default/files/tex_cache/9dd4e461268c8034f5c8564e155c67a6.png)
![\|x\|_{\Sigma^{-1}}=(x^T\Sigma^{-1}x)^{1\!/2}](/sites/default/files/tex_cache/f6677538e0f6f69369b6cc09a54b647f.png)
![\overline{\mu_i\mu_j}](/sites/default/files/tex_cache/71e0e2a74a9ebb0e0e6947983ddc3bf0.png)
![\Signa^{-1}(\mu_i-\mu_j)](/sites/default/files/tex_cache/a00cbfb9f85a81cae91ed6a13724344a.png)