Опубликован: 16.12.2009 | Уровень: для всех | Доступ: платный
Лекция 4:

Статистический анализ числовых величин (непараметрическая статистика)

Таблица 4.1. Общий вариационный ряд для элементов двух выборок
Ранги 1 2 3,5 3,5 5 6 7 8,5 8,5 10 11 12 14
Элементы выборок 0 1 2 2 3 5 6 7 7 11 13 14 15
Номера выборок 1 2 1 2 1 1 2 1 2 2 1 1 1
Ранги 14 14 16 17 18 19 20 21 22 23 24 25 26
Элементы выборок 15 15 17 21 22 25 29 30 33 44 47 66 97
Номера выборок 2 2 1 2 1 2 2 2 2 2 2 1 1

Хотя с точки зрения теории математической статистики вероятность совпадения двух элементов выборок равна 0, в реальных выборках экономических данных совпадения встречаются. Так, в рассматриваемых выборках, как видно из табл.1, два раза повторяется величина 2, два раза - величина 7 и три раза - величина 15. В таких случаях говорят о наличии "связанных рангов", а соответствующим совпадающим величинам приписывают среднее арифметическое тех рангов которые они занимают. Так, величины 2 и 2 занимают в объединенной выборке места 3 и 4, поэтому им приписывается ранг (3+4)/2=3,5. Величины 7 и 7 занимают в объединенной выборке места 8 и 9, поэтому им приписывается ранг (8+9)/2=8,5. Величины 15, 15 и 15 занимают в объединенной выборке места 13, 14 и 15, поэтому им приписывается ранг (13+14+15)/3=14.

Следующий шаг - подсчет значения статистики Вилкоксона, т.е. суммы рангов элементов первой выборки

S = R_1 + R_2 +\dots + R_m = 1+3,5+5+6+8,5+11+12+14+16+18+25+26=146.

Подсчитаем также сумму рангов элементов второй выборки

S_1 = 2+3,5+7+8,5+10+14+14+17+19+20+21+22+23+24= 205.

Величина S_1 может быть использована для контроля вычислений. Дело в том, что суммы рангов элементов первой выборки S и второй выборки S_1 вместе составляют сумму рангов объединенной выборки, т.е. сумму всех натуральных чисел от 1 до m+n. Следовательно,

S+ S_1 = (m+n)(m+n+1)/2= (12+14)(12+14+1)/2= 351.

В соответствии с ранее проведенными расчетами S+S_1 = 146+205=351. Необходимое условие правильности расчетов выполнено. Ясно, что справедливость этого условия не гарантирует правильности расчетов.

Перейдем к расчету статистики Т. Согласно формуле (3)

М(S) = 12(12+14+1)/ 2 = 162, D(S) = 12.14(12+14+1)/ 12= 378.

Следовательно,

T = ( S - 162) (378 )^{ - 2} = (146-162) / 19,44 = - 0.82.

Поскольку |T| \le 1,96, то гипотеза однородности принимается на уровне значимости0,05.

Что будет, если поменять выборки местами, вторую назвать первой? Тогда вместо S надо рассматривать S_1. Имеем

М(S_1 ) = 14(12+14+1)/ 2 = 189, D(S) = D(S_1 ) = 378 ,\\
T_1 = ( S_1 - 189) (378 )^{ - 2} = (205-189) / 19,44 = 0.82.

Таким образом, значения статистики критерия отличаются только знаком (можно показать, что это утверждение верно всегда). Поскольку в правиле принятия решения используется только абсолютная величина статистики, то принимаемое решение не зависит от того, какую выборку считаем первой, а какую второй. Для уменьшения объема таблиц принято считать первой выборку меньшего объема.

Продолжим обсуждение критерия Вилкоксона. Правила принятия решений и таблица критических значений для критерия Вилкоксона строятся в предположении справедливости гипотезы полной однородности, описываемой формулой (2). А что будет, если эта гипотеза неверна? Другими словами, какова мощность критерия Вилкоксона?

Пусть объемы выборок достаточно велики, так что можно пользоваться асимптотической нормальностью статистики Вилкоксона. Тогда в соответствии с формулами (1) статистика T будет асимптотически нормальна с параметрами

М(T) =  ( 12mn )^{ ?} (1/2 - a) (m+n+1)^{ - ?}  ,
D(T) = 12 [(n - 1) b^2  + (m - 1) g^2  + a(1 -a) ] (m+n+1)^{ - 1} ( 5)

Из формул (5) видно большое значение гипотезы

H_{01}:  a =  P(X < Y) = 1/2 ( 6)

Если эта гипотеза неверна, то, поскольку m \le n, справедлива оценка

|M(T)| \ge (12m n (2n+1)^{ - 1})^{ 1/2} |1/2 - a|,

а потому |E(T)| безгранично растет при росте объемов выборок. В то же время, поскольку

b^2 \le \int_0^1 L^2(t)dt \le 1, g^2 \le \int_0^1 t^2dL(t) \le 1, \alpha(1-\alpha) \le 1/4

то

D(T) \le 12 [(n - 1) + (m - 1) + 1/4] (m+n+1)^{ - 1} \le 12 ( 7)

Следовательно, вероятность отклонения гипотезы H01 , когда она неверна, т.е. мощность критерия Вилкоксона как критерия проверки гипотезы (6), стремится к 1 при возрастании объемов выборок, т.е. критерий Вилкоксона является состоятельным для этой гипотезы при альтернативе

АH_{01}:  a =  P(X < Y) \ne 1/2 ( 8)

Если же гипотеза (6) верна, то статистика T асимптотически нормальна с математическим ожиданием 0 и дисперсией, определяемой формулой

D(T) = 12 [(n - 1) b^2  + (m - 1) g^2  + 1/4 ] (m+n+1)^{-1} ( 9)

Гипотеза (6) является сложной, дисперсия (9), как показывают приводимые ниже примеры, в зависимости от значений b^2 и g^2 может быть как больше 1, так и меньше 1, но согласно неравенству (7) никогда не превосходит 12.

Приведем пример двух функций распределения F(x) и G(x) таких, что гипотеза (6) выполнена, а гипотеза (2) - нет. Поскольку

a =  P(X < Y) =\int_0^1F(x)dG(x), 1 - a =  P(Y < X) = \int_0^1G(x)dF(x)

и a = 1/2 в случае справедливости гипотезы (2), то для выполнения условия (6) необходимо и достаточно, чтобы

\int_{-\infty}^{+\infty}(F(x)-G(x))dF(x)=0 ( 10)

а потому естественно в качестве F(x) рассмотреть функцию равномерного распределения на интервале (-1 ; 1). Тогда формула (11) переходит в условие

\int_{-\infty}^{+\infty}(F(x)=G(x))=-\frac 12 \int_{-\infty}^{+infty} \left(G(x)-\frac{(x+1)}{2} \right)dx=0 ( 11)

Это условие выполняется, если функция (G(x) - (x + 1)/2 ) является нечетной.

Пример 2. Пусть функции распределения F(x) и G(x) сосредоточены на интервале (-1 ; 1) , на котором

F(x) = (x + 1)/2 ,  G(x) = ( x + 1 + 1/\pi \sin \pi x ) / 2

Тогда

x=F^{-1}(t)=2 -1, L(t)=G(F^{-1}(t))=(2t+1/\pi \sin \pi (2t-1))/2=t+1/2 \pi \sin \pi (2t-1)

Условие (11) выполнено, поскольку функция (G(x) - (x + 1)/2) является нечетной. Следовательно, a = 1/2. Начнем с вычисления

g^2 =\int_0^1dL(t)-1/4=\int_0^1t^2d(t+\frac{1}{2 \pi}\sin \pi(2t-1))-\frac 14

Поскольку

d(t+\frac{1}{2\pi}\sin \pi(2t-1))=(1+\cos \pi(2t-1))dt)

то

g^2=\int_0^1 t^2(1+\cos \pi(2t-1))dt-\frac 14=\frac{1}{12}+\int_0^1t^2 \cos \pi(2t-1)dt

С помощью замены переменных t = (x +1) / 2 получаем, что

\int_0^1t^2 \cos \pi(2t-1)dt=\frac 18 \left(\int_{-1}^1x^2 \cos \pi xdx +\int_{-1}^1x \cos \pixdx+\int_{-1}^1 \cos \pi xdx \right)

В правой части последнего равенства стоят табличные интегралы (см., например, справочник [14, с.71]. Проведя соответствующие вычисления, получаем, что в правой части стоит 1/8 ( - 4/ \pi^2) = - 1/(2 \pi^2) . Следовательно,

g^2 = 1/12  - 1/(2 \pi^2) = 0,032672733

Перейдем к вычислению b^2. Поскольку

b^2=\int_0^1 L^2(t)dt-\frac 14= \int_0^1 \left(t+\frac 12 \pi \sin \pi (2t-1) \right)^2 dt-\frac 14

то

b^2=\frac{1}{12}+\frac{1}{\pi}\int_0^1 (t \sin \pi(2t-1))dt+ \left(\frac{\pi}{2}\right)^2 \int_0^1 \sin^2 \pi(2t-1)dt

С помощью замены переменных t = (x+1)/2 переходим к табличным интегралам (см., например, справочник [14, с.65]):

b^2=\frac{1}{12}+\frac{1}{4\pi}\int_{-1}^1 x \sin \pi xdx+\frac{1}{4\pi}\int_{-1}^1 \pi xdx+\frac{1}{8\pi^2}\int_{-1)^1 \sin^2 \pi xdx

Проведя необходимые вычисления, получим, что

b^2=\frac{1}{12}+\frac{1}{4\pi}\left(-\frac{2}{\pi}\right)+0+\frac{1}{8\pi^2}=\frac{1}{12}-\frac{3}{8\pi^2}=0.045337893

Следовательно, для рассматриваемых функций распределения нормированная и центрированная статистика Вилкоксона (см. формулу (4)) асимптотически нормальна с математическим ожиданием 0 и дисперсией (см. формулу (9))

D(T) = ( 0,544 n + 0,392 m + 2,064 ) (m+n+1)^{ - 1}

Как легко видеть, дисперсия всегда меньше 1. Это значит, что в рассматриваемом случае гипотеза полной однородности (2) при проверке с помощью критерия Вилкоксона будет приниматься чаще, чем если она на самом деле верна.

На наш взгляд, это означает, что критерий Вилкоксона нельзя считать критерием для проверки гипотезы (2) при альтернативе общего вида. Он не всегда позволяет проверить однородность - не при всех альтернативах. Точно так же критерии типа хи-квадрат нельзя считать критериями проверки гипотез согласия и однородности - они позволяют обнаружить не все различия, поскольку некоторые из них "скрадывает" группировка.

Обсудим теперь, действительно ли критерий Вилкоксона нацелен на проверку равенства медиан распределений, соответствующих выборкам.

Пример 3. Построим семейство пар функций распределения F(x) и G(x) таких, что их медианы различны, но для F(x) и G(x) выполнена гипотеза (6). Пусть распределения сосредоточены на интервале (0 ; 1) , и на нем G(x) = x, а F(x) имеет кусочно-линейный график с вершинами в точках (0 ; 0), (\lambda, 1/2 ), (\delta, 3/4), (1 ; 1) . Следовательно,

F(x) = 0 при x < 0 ;

F(x) = x / (2 \lambda) на [0 ; \lambda) ;

F(x) = 1/2 + (x - \lambda) / (4 \delta - 4 \lambda) на [\lambda ; \delta) ;

F(x) = 3/4 + (x - \delta ) / (4 - 4 \delta) на [\delta; 1] ;

F(x) = 1 при x > 1.

Очевидно, что медиана F(x) равна \lambda, а медиана G(x) равна 1/2 .

Согласно соотношению (9) для выполнения гипотезы (6) достаточно определить \delta как функцию \lambda , \delta = \delta (\lambda) , из условия

\int_0^1 F(x)dx=\frac 12

Вычисления дают

\delta = \delta (\lambda) = 3 (1 - \lambda)/2.

Учитывая, что \delta лежит между \lambda и 1, не совпадая ни с тем, ни с другим, получаем ограничения на \lambda, а именно, 1/3 < \lambda < 3/5. Итак, построено искомое семейство пар функций распределения.

Дмитрий Лямин
Дмитрий Лямин
Анна Корнева
Анна Корнева

Подскажите, пожалуйста, помимо самого обучения 1 руб. и отправки диплома по почте (за пересылку), ещё нужно платить за оформление самого диплома или удостоверения?

Ирина Симонян
Ирина Симонян
Армения, Ереван, ЕГУ, 1998
Дмитрий Степаненко
Дмитрий Степаненко
Россия