Опубликован: 16.12.2009 | Уровень: для всех | Доступ: платный
Лекция 4:

Статистический анализ числовых величин (непараметрическая статистика)

Как и в случае проверки однородности независимых выборок, в зависимости от вида альтернативной гипотезы выделяют два подуровня моделей. Рассмотрим сначала альтернативу сдвига

H_{13}:G(x)=F(x+a)

В этом случае распределение Z при альтернативе отличается сдвигом от симметричного относительно 0. Для проверки гипотезы однородности может быть использован критерий знаковых рангов, разработанный Вилкоксоном (см., например, справочник [9, с.46-53]).

Он строится следующим образом. Пусть R(Z_j) является рангом |Z_j| в ранжировке от меньшего к большему абсолютных значений разностей |Z_1|, |Z_2|,\dots, |Z_n|, j=1,2,\dots,n . Положим для j=1,2,\dots, n

Q(Z_j)=\begin{cases}
1, Z_j > 0\\
0, Z_j<0.\\
\end{cases}

Статистика критерия знаковых рангов имеет вид

W^+=\sum_{j=1}^n R(Z_j)Q(Z_j)

Таким образом, нужно просуммировать ранги положительных разностей в вариационном ряду, построенном стандартным образом по абсолютным величинам всех разностей.

Для практического использования статистики критерия знаковых рангов Вилкоксона либо обращаются к соответствующим таблицам и программному обеспечению, либо применяют асимптотические соотношения. При выполнении нулевой гипотезы статистика

W^{++}=\frac{W^+-\frac{n(n+1)}{4}}{\sqrt{\frac{n(n+1)(2n+1)}{24}}}

имеет асимптотическое (при n \to \infty ) стандартное нормальное распределение с математическим ожиданием 0 и дисперсией 1. Следовательно, правило принятия решений на уровне значимости 5%: имеет обычный вид если

|W^{++}|\le1.96

то гипотезу однородности связанных выборок по критерию знаковых рангов Вилкоксона принимают, в противном случае отклоняют. Как обычно, при желании использовать другой уровень значимости применяют в качестве критического значения иной квантиль нормального распределения. Повторим еще раз, что использование предельных теорем допустимо при достаточно больших объемах выборки.

Альтернативная гипотеза общего вида записывается как

H_{14}:H(-x_0) \ne 1-H(x_0)

при некотором х_0 . Таким образом, проверке подлежит гипотеза симметрии относительно 0, которую можно переписать в виде

H(x) + H(-x) -1 = 0.

Для построенной по выборке Z_j = х_j  - у_j , j = 1,2, \dots,n , эмпирической функции распределения H_n(x) последнее соотношение выполнено лишь приближенно:

H_n(x)+H_n(-x)-1 \approx 0

Как измерять отличие от 0? По тем же соображениям, что и в предыдущем пункте, целесообразно использовать статистику типа омега-квадрат. Соответствующий критерий был предложен в работе [17]. Он имеет вид

\omega_n^2=\sum_{j=1}^n(H_n(Z_j)+H_n(-Z_j)-1)^2

В работе [17] найдено предельное распределение этой статистики:

\lim_{n \to \infty}P(\omega_n^2 < x)=S_0(x)

В табл.4.2 приведены критические значения статистики типа омега-квадрат для проверки симметрии распределения (и тем самым для проверки однородности связанных выборок), соответствующие наиболее распространенным значениям уровней значимости (расчеты проведены Г.В. Мартыновым).

Таблица 4.2. Критические значения статистики \omega_n^2 для проверки симметрии распределения
Значение функции распределения S_0(x) Уровень значимости \alpha=1-S_0(x) Критическое значение х статистики \omega_n^2
0,90 0,10 1,20
0,95 0,05 1,66
0,99 0,01 2,80

Как следует из табл.4.2, правило принятия решений при проверке однородности связанных выборок в наиболее общей постановке и при уровне значимости 5% формулируется так. Вычислить статистику \omega_n^2 . Если \omega_n^2 \le 1,66 , то принять гипотезу однородности. В противном случае - отвергнуть.

Пример. Пусть величины Z_j , j=1,2,\dots,20 , таковы:

20, 18, (-2), 34, 25, (-17), 24, 42, 16, 26, 13, (-23), 35, 21, 19, 8, 27, 11, (-5), 7.

Соответствующий вариационный ряд Z(1)<Z(2)< \dots <Z(20) имеет вид:

(-23)<(-17)<(-5)<(-2)<7<8<11<13<16<18<19<20<21<24<25<26<27<34<35<42.

Для расчета значения статистики \omega_n^2 построим табл.4.3 из 7 столбцов и 20 строк, не считая заголовков столбцов (сказуемого таблицы). В первом столбце указаны номера (ранги) членов вариационного ряда, во втором - сами эти члены, в третьем - значения эмпирической функции распределения при значениях аргумента, совпадающих с членами вариационного ряда. В следующем столбце приведены члены вариационного ряда с обратным знаком, а затем указываются соответствующие значения эмпирической функции распределения. Например, поскольку минимальное наблюдаемое значение равно (-23), то H_n(x)=0 при x<-23 , а потому для членов вариационного ряда с 14-го по 20-й в пятом столбце стоит 0. В качестве другого примера рассмотрим минимальный член вариационного ряда, т.е. (-23). Меняя знак, получаем 23. Это число стоит между 13-м и 14-м членами вариационного ряда, 21<23<24 . На этом интервале эмпирическая функция распределения совпадает со своим значением в левом конце, поэтому следует записать в пятом столбце значение 0,65. Остальные ячейки пятого столбца заполняются аналогично. На основе третьего и пятого столбцов элементарно заполняется шестой столбец, а затем и седьмой. Остается найти сумму значенийб стоящих в седьмом столбце. Подобная таблица удобна как для ручного счета, так и при использовании электронных таблиц типа Excel.

Таблица 4.3. Расчет значения статистики \omega_n^2 для проверки симметрии распределения
j Z(j) H_n(Z(j)) -Z(j) H_n(-Z(j)) H_n(Z(j))+H_n(-Z(j))-1 (H_n(Z(j))+H_n(-Z(j))-1)^2
1 -23 0,05 23 0,65 -0,30 0,09
2 -17 0,10 17 0,45 -0,45 0,2025
3 -5 0,15 5 0,20 -0,65 0,4225
4 -2 0,20 2 0,20 -0,60 0,36
5 7 0,25 -7 0,10 -0,65 0,4225
6 8 0,30 -8 0,10 -0,60 0,36
7 11 0.35 -11 0,10 -0,55 0,3025
8 13 0,40 -13 0,10 -0,50 0,25
9 16 0,45 -16 0,10 -0,45 0,2025
10 18 0,50 -18 0,05 -0,45 0,2025
11 19 0,55 -19 0,05 -0,40 0,16
12 20 0,60 -20 0,05 -0,35 0,1225
13 21 0,65 -21 0,05 -0,30 0,09
14 24 0.70 -24 0 -0.30 0.09
15 26 0.75 -25 0 -0.25 0.0625
16 26 0.80 -26 0 -0.20 0.04
17 27 0.85 -27 0 -0.15 0.0225
18 34 0.90 -34 0 -0.10 0.01
19 35 0.95 -35 0 -0.05 0.0025
20 42 1.000 -42 0 0 0

Результаты расчетов (суммирование значений по седьмому столбцу табл.4.3) показывают, что значение статистики \omega_n^2=3,055 . В соответствии с табл.1 это означает, что на любом используемом в прикладных эконометрических исследованиях уровнях значимости отклоняется гипотеза симметрии распределения относительно 0 (а потому и гипотеза однородности в связанных выборках).

В настоящей лекции затронута лишь небольшая часть непараметрических методов анализа числовых эконометрических данных. Обратим вн6имание на непараметрические оценки плотности, которые используются для описания данных, проверки однородности, в задачах восстановления зависимостей и других областях эконометрики. Эконометрические оценки плотности в общем виде рассмотрены в "Статистика нечисловых данных" .

Дмитрий Лямин
Дмитрий Лямин
Анна Корнева
Анна Корнева

Подскажите, пожалуйста, помимо самого обучения 1 руб. и отправки диплома по почте (за пересылку), ещё нужно платить за оформление самого диплома или удостоверения?

Ирина Симонян
Ирина Симонян
Армения, Ереван, ЕГУ, 1998
Дмитрий Степаненко
Дмитрий Степаненко
Россия