Опубликован: 16.12.2009 | Уровень: для всех | Доступ: платный
Лекция 8:

Статистика нечисловых данных

Случайные множества. Будем рассматривать случайные подмножества некоторого множества Q . Если Q состоит из конечного числа элементов, то считаем, что случайное подмножество S - это случайный элемент со значениями в 2^Q - множестве всех подмножеств множества Q , состоящем из 2^{card(Q)} элементов. Чтобы удовлетворить математиков, считаем, что все подмножества Q измеримы. Тогда распределение случайного подмножества S=S(\omega) множества Q - это

P_S(A)=P(S=A)=(\{\omega:S(\omega)=A\}), A \subseteq Q ( 6)

В формуле (6) предполагается, что S: \Omega \to 2^Q где (\Omega, F, P) - вероятностное пространство (здесь \Omega - пространство элементарных событий, F-\omega -алгебра случайных событий, P -вероятностная мера на F ), на котором определен случайный элемент S(\omega).Через распределение P_S(A) выражаются вероятности различных событий, связанных с S . Так ,чтобы найти вероятность накрытия фиксированного элемента q случайным множеством S , достаточно вычислить

P(q \in S)=P(\{\omega : q \in S(\omega)\})= \sum_{A:q \in A, A \subseteq 2^Q}P(S=A),

где суммирование идет по всем подмножествам A множества Q , содержащим q . Пусть Q=\{q_1, q_2, \dots, q_k\} . Рассмотрим случайные величины, определяемые по случайному множеству S следующим образом

\chi_i(\omega)=\begin {cases}
1, q_i \in S(\omega),\\
0, q_i \notin S(\omega).
\end{cases}

Определение 3. Случайное множество S называется случайным множеством с независимыми элементами, если случайные величины \chi_i(\omega), i=1,2,\dots, k независимы (в совокупности).

Последовательность случайных величин \chi_1, \chi_2, \dots, \chi_k -бернуллиевский вектор с X_i= \chi_i и p_i=P(q_i \in S(\omega)), i=1,2, \dots, k Из последней формулы подпункта "Дихотомические данные" следует, что распределение случайного множества с независимыми элементами задается формулой

P(S=A)= \prod_{q_i \in A}p_i \prod_{q_i \in Q /A}(1-p_i)

т.е. такие распределения образуют k = card(Q) - мерное параметрическое семейство, входящее в (2^{card(Q)} - 1) - одномерное семейство всех распределений случайных подмножеств множества Q .

При исследовании случайных подмножеств произвольного множества Q будем рассматривать их как случайные величины со значениями в некотором пространстве подмножеств множества Q, например, в пространстве замкнутых подмножеств 2^Q множества Q . Представляющими интерес лишь для математиков способами введения измеримой структуры в 2^Q интересоваться не будем. Отсутствие специального интереса к проблеме измеримости связано с тем, что при эконометрическом моделировании и обработке на ЭВМ все случайные подмножества рассматриваются как конечные (т.е. подмножества конечного множества).

Случайные множества находят разнообразные применения в многообразных проблемах эконометрики и математической экономики, в том числе в задачах управлении запасами и ресурсами (см. об этом главу 5 в монографии [3]), в задачах менеджмента и маркетинга, в экспертных оценках, в частности, при анализе мнений голосующих или опрашиваемых, каждый из которых отмечает несколько пунктов из списка и т.д. Кроме того, случайные множества применяются в гранулометрии, при изучении пористых сред и объектов сложной природы в таких областях, как металлография, петрография, биология, в частности, математическая морфология, в изучении структуры веществ и материалов, в исследовании процессов распространения, в частности, просачивания, распространения пожаров, экологических загрязнений, при районировании, в том числе в изучении областей поражения, в частности, поражения металла коррозией и сердечной мышцы при инфаркте миокарда, и т.д., и т.п. Можно вспомнить о компьютерной томографии, о наглядном представлении сложной информации на экране компьютера, об изучении распространения рекламной информации, о картах Кохонена (популярный метод представления информации при применении нейросетей) и т.д.

Ранговые методы. Ранее установлено, что любой адекватный алгоритм в порядковой шкале является функцией от некоторой матрицы C. Пусть никакие два из результатов наблюдений x_1, x_2, \dots, x_n не совпадают, а r_1, r_2, \dots, r_n - их ранги. Тогда элементы матрицы C и ранги результатов наблюдений связаны взаимно однозначным соответствием:

r_i=1+ \sum_{1 \le j \le n}(1-c_{ij})

а c_{ij} через ранги выражаются так: c_{ij}=1 , если r_i <r_j , и c_{ij}=0 в противном случае.

Сказанное означает, что при обработке данных, измеренных в порядковой шкале, могут применяться только ранговые статистические методы. Отметим, что часто используемое в непараметрической статистике преобразование Y=F(x) (здесь F(x) - непрерывная функция распределения случайной величины X, причем F предполагается произвольной) фактически означает переход к порядковой шкале, поскольку статистические выводы при этом инвариантны относительно допустимых преобразований в порядковой шкале.

Разумеется, ранговые статистические методы могут применяться не только при обработке данных, измеренных в порядковой шкале. Так, для проверки независимости двух количественных признаков в случае, когда нет уверенности в нормальности соответствующего двумерного распределения, целесообразно пользоваться коэффициентами ранговой корреляции Кендалла или Спирмена.

Как было подробно обосновано в "Статистический анализ числовых величин (непараметрическая статистика)" и "Многомерный статистический анализ" , в настоящее время с помощью непараметрических и прежде всего ранговых методов можно решать все те задачи эконометрики и прикладной статистики, что и с помощью параметрических методов, в частности, основанных на предположении нормальности. Однако параметрические методы вошли в массовое сознание исследователей и инженеров и мешают широкому внедрению более обоснованной и прогрессивной ранговой статистики. Так, при проверке однородности двух выборок вместо критерия Стъюдента целесообразно использовать ранговые методы, но пока это делается редко.

Объекты общей природы. Вероятностная модель объекта нечисловой природы в общем случае- случайный элемент со значениями в пространстве произвольного вида, а модель выборки таких объектов - совокупность независимых одинаково распределенных случайных элементов. Именно такая модель была использована для обработки наблюдений, каждое из которых - нечеткое множество [10].

Из-за имеющего разнобоя в терминологии приведем математические определения из справочника по теории вероятностей академика РАН Ю.В Прохорова и проф. Ю.А. Розанова [25].

Пусть (X,B) -некоторое измеримое пространство; (F,B) -измеримая функция \xi= \xi (\omega) на пространстве элементарных событий (\Omega, F, P) (где P - вероятностная мера на \omega -алгебре F - измеримых подмножеств \Omega, называемых событиями) со значениями в (X,B) называется случайной величиной (чаще этот математический объект называют случайным элементом, оставляя термин "случайная величина" за частным случаем, когда Х - числовая прямая) в фазовом пространстве (X,B). Распределением вероятностей этой случайной величины \Xi называется функция P_{\xi}=P_{\xi}(B) на \omega -алгебре фазового пространства, определенная как

P_{\xi}=P\{\xi \in B \}, (B \in B) ( 7)

(распределение вероятностей P_{\xi} представляет собой вероятностную меру в фазовом пространстве (X,B) ) [25, с. 132].

Пусть \xi_1, \xi_2, \dots, \xi_n - случайные величины на пространстве случайных событий (\Omega, F, P) в соответствующих фазовых пространствах (X_k, B_k). Совместным распределением вероятностей этих величин называется функция P_{\xi_1, \xi_2, \dots, \xi_n}= P_{\xi_1, \xi_2, \dots, \xi_n}(B_1, B_2, \dots, B_n), определенная на множествах B_1 \in B_1, B_2 \in B_2, \dots, B_n \in B_n как

P_{\xi_1, \xi_2, \dots, \xi_n}(B_1, B_2, \dots, B_n) = P_{\xi_1, \xi_2, \dots, \xi_n}(\xi_1 \in B, \xi_2 \in B_2, \dots, \xi_n \in B_n) ( 8)

Распределение вероятностей P_{\xi_1, \xi_2, \dots, \xi_n} как функция на полукольце множеств вида B_1 \times B_2 \times \dots \times B_n, B_1 \in B_1, B_2 \in B_2, \dots, B_n \in B_n в произведении пространств X_1, X_2, \dots, X_n представляет собой функцию распределения. Случайные величины \xi_1, \xi_2, \dots, \xi_n называются независимыми, если при любых B_1, B_2, \dots, B_n (см. [25, с.133])

P_{\xi_1, \xi_2, \dots, \xi_n}(B_1, B_2, \dots, B_n)=P_{\xi 1}(B_1)P_{\xi 2}(B_2) \dots P_{\xi n}(B_n) ( 9)

Предположим, что совместное распределение вероятностей P_{\xi, \eta}(A, B) случайных величин \xi и \eta абсолютно непрерывно относительно некоторой меры Q на произведении пространств X \times Y, являющейся произведением мер Q_X и Q_Y, т.е.:

P_{\xi, \eta}(A,B)=\int_{A*B}p(x,y)Q(dx, dy) ( 10)

для любых A \in A и B \in B, где p(x,y) - соответствующая плотность распределения вероятностей [25, с.145].

В формуле (10) предполагается, что \xi=\xi(\omega) и \eta=\eta(\omega) - случайные величины на одном и том же пространстве элементарных событий \Omega со значениями в фазовых пространствах (X,A) и (Y,B). Существование плотности p(x,y) вытекает из абсолютной непрерывности P_{\xi, \eta}(A,B) относительно Q в соответствии с теоремой Радона - Никодима.

Условное распределение вероятностей P_{\xi}(A|\eta) A \in A может быть выбрано одинаковым для всех \omega \in \Omega при которых случайная величина \eta=\eta(\omega) сохраняет одно и то же значение: \eta(\omega)=y При почти каждом y \in Y (относительно распределения P_{\eta} в фазовом пространстве (Y,B) ) условное распределение вероятностей P_{\eta}(A|y)=P_{\omega, \xi}(A) где \omega \in \{\eta=y\} и a\inA будет абсолютно непрерывно относительно меры Q_x:

Q_X(A)=\int_{A*X}(dx, dy)

Причем соответствующая плотность условного распределения вероятностей будет иметь вид:

p_{\xi}(x|y)=\frac{p_{\xi}(dx|y)}{Q_X(dx)}=\frac{p(x,y)}{\int_X p(x,y)Q_X(dx)} ( 11)

При построении вероятностных моделей реальных явлений важны вероятностные пространства из конечного числа элементарных событий. Для них перечисленные выше общие понятия становятся более прозрачными, в частности, снимаются вопросы измеримости (все подмножества конечного множества обычно считаются измеримыми). Вместо плотностей и условных плотностей рассматриваются вероятности и условные вероятности. Отметим, что вероятности можно рассматривать как плотности относительно меры, приписывающей каждому элементу пространства элементарных событий вес 1, т.е. считающей меры Q(A)=Card(A) (мера каждого множества равна числу его элементов). В целом ясно, что определения основных понятий теории вероятностей в общем случае практически не отличаются от таковых в элементарных курсах, во всяком случае с идейной точки зрения.

За последние двадцать лет в эконометрике и прикладной математической статистике сформировалась новая область - статистика нечисловых данных, она же - статистика объектов нечисловой природы. К настоящему времени она развита не менее, чем ранее выделенные статистика случайных величин, многомерный статистический анализ, статистика временных рядов и случайных процессов. Краткая сводка основных постановок и результатов математической статистики в пространствах нечисловой природы даны ниже в настоящей лекции. Теория, построенная для результатов наблюдений, лежащих в пространствах общей природы, является центральным стержнем в статистике нечисловой природы. В ее рамках удалось разработать и изучить методы оценивания параметров и характеристик, проверки гипотез (в частности, с помощью статистик интегрального типа), параметрической и непараметрической регрессии (восстановления зависимостей), непараметрического оценивания плотности, дискриминантного и кластерного анализов и т.д.

Вероятностно-статистические методы, развитые для результатов наблюдений из пространств произвольного вида, позволяют единообразно проводить анализ данных из любого конкретного пространства. Так, в монографии [3] они применены к конечным случайным множествам, в работе [10] - к нечетким множествам. С их помощью установлено поведение обобщенного мнения экспертной комиссии (медианы Кемени) при увеличении числа экспертов, когда ответы экспертов лежат в том или ином пространстве бинарных отношений. В пункте методы распознавания образов, основанные на непараметрических оценках плотности распределения вероятностей в пространстве общей природы, применены для разработки алгоритма диагностики в пространстве разнотипных данных (часть координат вектора измерена по количественным шкалам, часть - по качественным - см. "Основы теории измерений" ).

Дмитрий Лямин
Дмитрий Лямин
Анна Корнева
Анна Корнева

Подскажите, пожалуйста, помимо самого обучения 1 руб. и отправки диплома по почте (за пересылку), ещё нужно платить за оформление самого диплома или удостоверения?

Ирина Симонян
Ирина Симонян
Армения, Ереван, ЕГУ, 1998
Дмитрий Степаненко
Дмитрий Степаненко
Россия