Азербайджан |
Классификация на основе байесовской теории решений
2.3. Минимизация среднего риска
Вероятность ошибки классификации – не всегда лучший критерий проверки классификатора. В том случае, когда цена ошибок различного типа существенно различается, лучше использовать другой критерий качества классификации – минимум среднего риска.
Рассмотрим задачу классификации по классам.
– области
предпочтения классов
. Предположим, что вектор
из класса
лежит в
, т.е. классификация происходит с ошибкой. Свяжем с этой ошибкой
штраф
называемый потерями в результате того, что объект из класса
был принят за объект из класса
. Обозначим через
матрицу
потерь.
Определение. Выражение называется риском при классификации объекта класса
.
Определение. Выражение называется общим средним риском.
Теперь мы можем поставить задачу о выборе классификатора, минимизирующего этот риск. Преобразуем выражение общего среднего риска:
![\begin{gathered}
r=\sum_{i=1}^M r_k P(\Omega_k)=\sum_{k=1}^M P(\Omega_k)\sum_{i=1}^M\lambda_{ki}\int\limits_{R_i}p(x|\Omega_k)dx= \\
=\sum_{i=1}^M\left( \sum_{k=1}^M P(\Omega_k)\lambda_{ki}\int\limits_{R_i}p(x|\Omega_k)dx\right)= \\
=\sum_{i=1}^M\int\limits_{R_i}\left(\sum_{k=1}^M\lambda_{ki}p(x|\Omega_k)P(\Omega_k)\right)dx
\end{gathered}](/sites/default/files/tex_cache/e72dcb5dfd2138f1c43398bae14b008e.png)
Из этого выражения видно, что риск минимален, когда каждый из
интегралов в данной сумме минимален, т.е. , если
, при
,
где
.
Пример. Рассмотрим ситуацию радиолокационной разведки. На экране радара отражаются не только цели, но и помехи. Такой помехой может служить стая птиц, которую можно принять за небольшой самолет. В данном случае это двухклассовая задача.
Рассмотрим матрицу штрафов: .
– это штраф за принятие
объекта из класса
за объект класса
. Тогда
![\begin{gathered}
l_1=\lambda_{11}p(x|\Omega_1)P(\Omega_1)+\lambda_{21}p(x|\Omega_2)P(\Omega_2)\\
l_2=\lambda_{12}p(x|\Omega_1)P(\Omega_1)+\lambda_{22}p(x|\Omega_2)P(\Omega_2)
\end{gathered}](/sites/default/files/tex_cache/865b48211c8bda5bacb4286358bbfe98.png)
![x](/sites/default/files/tex_cache/9dd4e461268c8034f5c8564e155c67a6.png)
![\Omega_1](/sites/default/files/tex_cache/74f6a6fffbec1079cb0d0fae9690be4f.png)
![l_1<l_2](/sites/default/files/tex_cache/46dd7814cca4a93abd43f96b06e8ddb9.png)
![\begin{gathered}
\lambda_{11}p(x|\Omega_1)P(\Omega_1)+\lambda_{21}p(x|\Omega_2)P(\Omega_2)<
\lambda_{12}p(x|\Omega_1)P(\Omega_1)+\lambda_{22}p(x|\Omega_2)P(\Omega_2) \\
(\lambda_{21}-\lambda_{22})p(x|\Omega_2)P(\Omega_2)<(\lambda_{12}-\lambda_{11})p(x|\Omega_1)P(\Omega_1)
\end{gathered}](/sites/default/files/tex_cache/6e1ef983f5fe8b519f71d7fe31adaf03.png)
![\lambda_{21}>\lambda_{22}](/sites/default/files/tex_cache/367ad20aec8e188f8f78610ab879af5a.png)
![\lambda_{12}>\lambda_{11}](/sites/default/files/tex_cache/7cd2969ad859e81d142070be27e56c0e.png)
![\frac{p(x|\Omega_1)}{p(x|\Omega_2)}>\frac{\lambda_{21}-\lambda_{22}}{\lambda_{12}-\lambda_{11}}\cdot\frac{P(\Omega_2)}{P(\Omega_1)}](/sites/default/files/tex_cache/4fd972ea07daf8240041768429013d06.png)
Стоящее в левой части неравенства отношение называется отношением
правдоподобия. Неравенство описывает условие предпочтения класса
классу
.
Пример. Рассмотрим двухклассовую задачу, в которой для
единственного признака известна плотность распределения:
![\begin{gathered}
p(x|\Omega_1)=\frac{1}{\sqrt{\pi}}\exp\left(-x^2\right) \\
p(x|\Omega_2)=\frac{1}{\sqrt{\pi}}\exp\left(-(x-1)^2\right)
\end{gathered}](/sites/default/files/tex_cache/833a45a4b47682f06588ccf0521226d1.png)
![P(\Omega_1)=P(\Omega_2)=\frac12](/sites/default/files/tex_cache/845d036086bc8a7cb86e990f5600cdf8.png)
Задача – вычислить пороги для
a) минимальной вероятности ошибки
b) минимального риска при матрице риска
![L=\begin{pmatrix}0&0.5\\1&0\end{pmatrix}.](/sites/default/files/tex_cache/cc89136658861b398fec6d655ee05de9.png)
Решение задачи a):
![\begin{gathered}
p(x|\Omega_1)P(\Omega_1)=p(x|\Omega_2)P(\Omega_2) \\
\exp\left(-x^2\right)=\exp\left(-(x-1)^2\right) \\
-x^2=-(x-1)^2 \\
\widehat{x}=\frac12
\end{gathered}](/sites/default/files/tex_cache/25044b136a2c3a8e0424a9dbfd8bf2a1.png)
Решение задачи b):
![\begin{gathered}
\frac{p(x|\Omega_1)}{p(x|\Omega_2)}=\frac{\lambda_{21}-\lambda_{22}}{\lambda_{12}-\lambda_{11}}\cdot\frac{P(\Omega_2)}{P(\Omega_1)} \\
\frac{\exp\left(-x^2\right)}{\exp\left(-(x-1)^2\right)} \\
-x^2=\ln 2-(x-1)^2 \\
\widetilde{x}=frac12(1-\ln 2)
\end{gathered}](/sites/default/files/tex_cache/3aecf047753a9d78fcab148de29b370a.png)
Пример. Рассмотрим двухклассовую задачу с Гауссовскими
плотностями распределения и
и матрицей потерь
.
Задача – вычислить порог для проверки отношения правдоподобия.
Решение. С учетом матрицы потерь отношение правдоподобия
![\frac{p(x|\Omega_1)}{p(x|\Omega_2)}=\frac{\lambda_{21}-\lambda_{22}}{\lambda_{12}-\lambda_{11}}\cdot\frac{P(\Omega_2)}{P(\Omega_1)}](/sites/default/files/tex_cache/a19419a33abcd4561c85815821163d10.png)
![\frac{p(x|\Omega_1)}{p(x|\Omega_2)}=\frac{\lambda_{21}}{\lambda_{12}}\cdot\frac{P(\Omega_2)}{P(\Omega_1)}](/sites/default/files/tex_cache/3a7bc3a12ef08223d78aa188ddbb5318.png)
Запишем плотности распределения
![\begin{gathered}
p(x|\Omega_1)=\frac{1}{\sqrt{2\pi\sigma}}\exp\left(-\frac{x^2}{2\sigma^2}\right); \;
p(x|\Omega_2)=\frac{1}{\sqrt{2\pi\sigma}}\exp\left(-\frac{(x-1)^2}{2\sigma^2}\right) \\
\frac{p(x|\Omega_1)}{p(x|\Omega_2)}=\frac{\lambda_{21}}{\lambda_{12}}\cdot\frac{P(\Omega_2)}{P(\Omega_1)}=
\exp\left(\frac{(x-1)^2}{2\sigma^2}-\frac{x^2}{2\sigma^2}\right) \\
x^2-(x-1)^2=-2\sigma^2 \ln\left(\frac{\lambda_{21}}{\lambda_{12}}\cdot\frac{P(\Omega_2)}{P(\Omega_1)}\right) \\
x=\frac12-\sigma^2\ln\left(\frac{\lambda_{21}}{\lambda_{12}}\cdot\frac{P(\Omega_2)}{P(\Omega_1)}\right)
\end{gathered}](/sites/default/files/tex_cache/e1249d142a61af278bcf35142b144a8c.png)
Пример. Рассмотрим двухклассовую задачу с матрицей потерь .
Пусть
– вероятность ошибки, соответствующая вектору из класса
и
– вероятность ошибки, соответствующая вектору из класса
.
Задача – найти средний риск.
Решение.
![\begin{gathered}
r=\sum_{i=1}^M r_k P(\Omega_k)= \\
=\sum_{i=1}^M\left(\sum_{k=1}^M P(\Omega_k)\lambda_{ki}\int\limits_{R_i}p(x|\Omega_k)dx\right)= \\
=\lambda_{11}(1-\varepsilon_1)P(\Omega_1)+
\lambda_{12}\varepsilon_1 P(\Omega_1)+
\lambda_{21}\varepsilon_2 P(\Omega_2)+
\lambda_{22}(1-\varepsilon_2)P(\Omega_2)= \\
=\lambda_{11}P(\Omega_1)+(\lambda_{12}-\lambda_{11})\varepsilon_1 P(\Omega_1)+
(\lambda_{21}-\lambda_{22})\varepsilon_2 P(\Omega_2)+\lambda_{22}P(\Omega_2)
\end{gathered}](/sites/default/files/tex_cache/3aa9332bafa1eee261eec7d4ee320d30.png)
Пример. Доказать, что в задаче классификации по классам,
вероятность ошибки классификации ограничена:
.
Указание: показать, что .