Опубликован: 16.12.2009 | Уровень: для всех | Доступ: платный
Лекция 8:

Статистика нечисловых данных

Случайные множества. Будем рассматривать случайные подмножества некоторого множества Q . Если Q состоит из конечного числа элементов, то считаем, что случайное подмножество S - это случайный элемент со значениями в 2^Q - множестве всех подмножеств множества Q , состоящем из 2^{card(Q)} элементов. Чтобы удовлетворить математиков, считаем, что все подмножества Q измеримы. Тогда распределение случайного подмножества S=S(\omega) множества Q - это

P_S(A)=P(S=A)=(\{\omega:S(\omega)=A\}), A \subseteq Q ( 6)

В формуле (6) предполагается, что S: \Omega \to 2^Q где (\Omega, F, P) - вероятностное пространство (здесь \Omega - пространство элементарных событий, F-\omega -алгебра случайных событий, P -вероятностная мера на F ), на котором определен случайный элемент S(\omega).Через распределение P_S(A) выражаются вероятности различных событий, связанных с S . Так ,чтобы найти вероятность накрытия фиксированного элемента q случайным множеством S , достаточно вычислить

P(q \in S)=P(\{\omega : q \in S(\omega)\})= \sum_{A:q \in A, A \subseteq 2^Q}P(S=A),

где суммирование идет по всем подмножествам A множества Q , содержащим q . Пусть Q=\{q_1, q_2, \dots, q_k\} . Рассмотрим случайные величины, определяемые по случайному множеству S следующим образом

\chi_i(\omega)=\begin {cases}
1, q_i \in S(\omega),\\
0, q_i \notin S(\omega).
\end{cases}

Определение 3. Случайное множество S называется случайным множеством с независимыми элементами, если случайные величины \chi_i(\omega), i=1,2,\dots, k независимы (в совокупности).

Последовательность случайных величин \chi_1, \chi_2, \dots, \chi_k -бернуллиевский вектор с X_i= \chi_i и p_i=P(q_i \in S(\omega)), i=1,2, \dots, k Из последней формулы подпункта "Дихотомические данные" следует, что распределение случайного множества с независимыми элементами задается формулой

P(S=A)= \prod_{q_i \in A}p_i \prod_{q_i \in Q /A}(1-p_i)

т.е. такие распределения образуют k = card(Q) - мерное параметрическое семейство, входящее в (2^{card(Q)} - 1) - одномерное семейство всех распределений случайных подмножеств множества Q .

При исследовании случайных подмножеств произвольного множества Q будем рассматривать их как случайные величины со значениями в некотором пространстве подмножеств множества Q, например, в пространстве замкнутых подмножеств 2^Q множества Q . Представляющими интерес лишь для математиков способами введения измеримой структуры в 2^Q интересоваться не будем. Отсутствие специального интереса к проблеме измеримости связано с тем, что при эконометрическом моделировании и обработке на ЭВМ все случайные подмножества рассматриваются как конечные (т.е. подмножества конечного множества).

Случайные множества находят разнообразные применения в многообразных проблемах эконометрики и математической экономики, в том числе в задачах управлении запасами и ресурсами (см. об этом главу 5 в монографии [3]), в задачах менеджмента и маркетинга, в экспертных оценках, в частности, при анализе мнений голосующих или опрашиваемых, каждый из которых отмечает несколько пунктов из списка и т.д. Кроме того, случайные множества применяются в гранулометрии, при изучении пористых сред и объектов сложной природы в таких областях, как металлография, петрография, биология, в частности, математическая морфология, в изучении структуры веществ и материалов, в исследовании процессов распространения, в частности, просачивания, распространения пожаров, экологических загрязнений, при районировании, в том числе в изучении областей поражения, в частности, поражения металла коррозией и сердечной мышцы при инфаркте миокарда, и т.д., и т.п. Можно вспомнить о компьютерной томографии, о наглядном представлении сложной информации на экране компьютера, об изучении распространения рекламной информации, о картах Кохонена (популярный метод представления информации при применении нейросетей) и т.д.

Ранговые методы. Ранее установлено, что любой адекватный алгоритм в порядковой шкале является функцией от некоторой матрицы C. Пусть никакие два из результатов наблюдений x_1, x_2, \dots, x_n не совпадают, а r_1, r_2, \dots, r_n - их ранги. Тогда элементы матрицы C и ранги результатов наблюдений связаны взаимно однозначным соответствием:

r_i=1+ \sum_{1 \le j \le n}(1-c_{ij})

а c_{ij} через ранги выражаются так: c_{ij}=1 , если r_i <r_j , и c_{ij}=0 в противном случае.

Сказанное означает, что при обработке данных, измеренных в порядковой шкале, могут применяться только ранговые статистические методы. Отметим, что часто используемое в непараметрической статистике преобразование Y=F(x) (здесь F(x) - непрерывная функция распределения случайной величины X, причем F предполагается произвольной) фактически означает переход к порядковой шкале, поскольку статистические выводы при этом инвариантны относительно допустимых преобразований в порядковой шкале.

Разумеется, ранговые статистические методы могут применяться не только при обработке данных, измеренных в порядковой шкале. Так, для проверки независимости двух количественных признаков в случае, когда нет уверенности в нормальности соответствующего двумерного распределения, целесообразно пользоваться коэффициентами ранговой корреляции Кендалла или Спирмена.

Как было подробно обосновано в "Статистический анализ числовых величин (непараметрическая статистика)" и "Многомерный статистический анализ" , в настоящее время с помощью непараметрических и прежде всего ранговых методов можно решать все те задачи эконометрики и прикладной статистики, что и с помощью параметрических методов, в частности, основанных на предположении нормальности. Однако параметрические методы вошли в массовое сознание исследователей и инженеров и мешают широкому внедрению более обоснованной и прогрессивной ранговой статистики. Так, при проверке однородности двух выборок вместо критерия Стъюдента целесообразно использовать ранговые методы, но пока это делается редко.

Объекты общей природы. Вероятностная модель объекта нечисловой природы в общем случае- случайный элемент со значениями в пространстве произвольного вида, а модель выборки таких объектов - совокупность независимых одинаково распределенных случайных элементов. Именно такая модель была использована для обработки наблюдений, каждое из которых - нечеткое множество [10].

Из-за имеющего разнобоя в терминологии приведем математические определения из справочника по теории вероятностей академика РАН Ю.В Прохорова и проф. Ю.А. Розанова [25].

Пусть (X,B) -некоторое измеримое пространство; (F,B) -измеримая функция \xi= \xi (\omega) на пространстве элементарных событий (\Omega, F, P) (где P - вероятностная мера на \omega -алгебре F - измеримых подмножеств \Omega, называемых событиями) со значениями в (X,B) называется случайной величиной (чаще этот математический объект называют случайным элементом, оставляя термин "случайная величина" за частным случаем, когда Х - числовая прямая) в фазовом пространстве (X,B). Распределением вероятностей этой случайной величины \Xi называется функция P_{\xi}=P_{\xi}(B) на \omega -алгебре фазового пространства, определенная как

P_{\xi}=P\{\xi \in B \}, (B \in B) ( 7)

(распределение вероятностей P_{\xi} представляет собой вероятностную меру в фазовом пространстве (X,B) ) [25, с. 132].

Пусть \xi_1, \xi_2, \dots, \xi_n - случайные величины на пространстве случайных событий (\Omega, F, P) в соответствующих фазовых пространствах (X_k, B_k). Совместным распределением вероятностей этих величин называется функция P_{\xi_1, \xi_2, \dots, \xi_n}= P_{\xi_1, \xi_2, \dots, \xi_n}(B_1, B_2, \dots, B_n), определенная на множествах B_1 \in B_1, B_2 \in B_2, \dots, B_n \in B_n как

P_{\xi_1, \xi_2, \dots, \xi_n}(B_1, B_2, \dots, B_n) = P_{\xi_1, \xi_2, \dots, \xi_n}(\xi_1 \in B, \xi_2 \in B_2, \dots, \xi_n \in B_n) ( 8)

Распределение вероятностей P_{\xi_1, \xi_2, \dots, \xi_n} как функция на полукольце множеств вида B_1 \times B_2 \times \dots \times B_n, B_1 \in B_1, B_2 \in B_2, \dots, B_n \in B_n в произведении пространств X_1, X_2, \dots, X_n представляет собой функцию распределения. Случайные величины \xi_1, \xi_2, \dots, \xi_n называются независимыми, если при любых B_1, B_2, \dots, B_n (см. [25, с.133])

P_{\xi_1, \xi_2, \dots, \xi_n}(B_1, B_2, \dots, B_n)=P_{\xi 1}(B_1)P_{\xi 2}(B_2) \dots P_{\xi n}(B_n) ( 9)

Предположим, что совместное распределение вероятностей P_{\xi, \eta}(A, B) случайных величин \xi и \eta абсолютно непрерывно относительно некоторой меры Q на произведении пространств X \times Y, являющейся произведением мер Q_X и Q_Y, т.е.:

P_{\xi, \eta}(A,B)=\int_{A*B}p(x,y)Q(dx, dy) ( 10)

для любых A \in A и B \in B, где p(x,y) - соответствующая плотность распределения вероятностей [25, с.145].

В формуле (10) предполагается, что \xi=\xi(\omega) и \eta=\eta(\omega) - случайные величины на одном и том же пространстве элементарных событий \Omega со значениями в фазовых пространствах (X,A) и (Y,B). Существование плотности p(x,y) вытекает из абсолютной непрерывности P_{\xi, \eta}(A,B) относительно Q в соответствии с теоремой Радона - Никодима.

Условное распределение вероятностей P_{\xi}(A|\eta) A \in A может быть выбрано одинаковым для всех \omega \in \Omega при которых случайная величина \eta=\eta(\omega) сохраняет одно и то же значение: \eta(\omega)=y При почти каждом y \in Y (относительно распределения P_{\eta} в фазовом пространстве (Y,B) ) условное распределение вероятностей P_{\eta}(A|y)=P_{\omega, \xi}(A) где \omega \in \{\eta=y\} и a\inA будет абсолютно непрерывно относительно меры Q_x:

Q_X(A)=\int_{A*X}(dx, dy)

Причем соответствующая плотность условного распределения вероятностей будет иметь вид:

p_{\xi}(x|y)=\frac{p_{\xi}(dx|y)}{Q_X(dx)}=\frac{p(x,y)}{\int_X p(x,y)Q_X(dx)} ( 11)

При построении вероятностных моделей реальных явлений важны вероятностные пространства из конечного числа элементарных событий. Для них перечисленные выше общие понятия становятся более прозрачными, в частности, снимаются вопросы измеримости (все подмножества конечного множества обычно считаются измеримыми). Вместо плотностей и условных плотностей рассматриваются вероятности и условные вероятности. Отметим, что вероятности можно рассматривать как плотности относительно меры, приписывающей каждому элементу пространства элементарных событий вес 1, т.е. считающей меры Q(A)=Card(A) (мера каждого множества равна числу его элементов). В целом ясно, что определения основных понятий теории вероятностей в общем случае практически не отличаются от таковых в элементарных курсах, во всяком случае с идейной точки зрения.

За последние двадцать лет в эконометрике и прикладной математической статистике сформировалась новая область - статистика нечисловых данных, она же - статистика объектов нечисловой природы. К настоящему времени она развита не менее, чем ранее выделенные статистика случайных величин, многомерный статистический анализ, статистика временных рядов и случайных процессов. Краткая сводка основных постановок и результатов математической статистики в пространствах нечисловой природы даны ниже в настоящей лекции. Теория, построенная для результатов наблюдений, лежащих в пространствах общей природы, является центральным стержнем в статистике нечисловой природы. В ее рамках удалось разработать и изучить методы оценивания параметров и характеристик, проверки гипотез (в частности, с помощью статистик интегрального типа), параметрической и непараметрической регрессии (восстановления зависимостей), непараметрического оценивания плотности, дискриминантного и кластерного анализов и т.д.

Вероятностно-статистические методы, развитые для результатов наблюдений из пространств произвольного вида, позволяют единообразно проводить анализ данных из любого конкретного пространства. Так, в монографии [3] они применены к конечным случайным множествам, в работе [10] - к нечетким множествам. С их помощью установлено поведение обобщенного мнения экспертной комиссии (медианы Кемени) при увеличении числа экспертов, когда ответы экспертов лежат в том или ином пространстве бинарных отношений. В пункте методы распознавания образов, основанные на непараметрических оценках плотности распределения вероятностей в пространстве общей природы, применены для разработки алгоритма диагностики в пространстве разнотипных данных (часть координат вектора измерена по количественным шкалам, часть - по качественным - см. "Основы теории измерений" ).

Михаил Агапитов
Михаил Агапитов

Не могу найти  требования по оформлению выпускной контрольной работы по курсу профессиональной переподготовки "Менеджмент предприятия"

Подобед Александр
Подобед Александр

Я нажал кнопку "начать курс" и почти его уже закончил, но для получения диплома на бумаге, нужно его же оплатить? Как оплатить? 

Вячеслав Гримальский
Вячеслав Гримальский
Россия
Михаил Байков
Михаил Байков
Россия, Москва, Московский Авиационный Институт, 2009