Опубликован: 16.12.2009 | Уровень: для всех | Доступ: платный
Лекция 5:

Многомерный статистический анализ

Подходящая замена переменных во многих случаях позволяет перейти к линейной зависимости. Например, если

y= \frac{1}{a+bx}

то замена z=1/y приводит к линейной зависимости z = a + bx. Если y=(a+bx)^2 , то замена z=\sqrt y приводит к линейной зависимости z = a + bx .

Основной показатель качества регрессионной модели. Одни и те же данные можно обрабатывать различными способами. Показателем отклонений данных от модели служит остаточная сумма квадратов SS . Чем этот показатель меньше, тем приближение лучше, значит, и модель лучше описывает реальные данные. Однако это рассуждение годится только для моделей с одинаковым числом параметров. Ведь если добавляется новый параметр, по которому можно минимизировать, то и минимум, как правило, оказывается меньше.

В качестве основного показателя качества регрессионной модели используют оценку остаточной дисперсии

\hat{\sigma}^2(m)= \frac{SS}{n-m}

скорректированную на число m параметров, оцениваемых по наблюдаемым данным. В случае линейной прогностической модели, рассмотренной в первом пункте настоящей лекции, оценка остаточной дисперсии имеет вид

\hat{\sigma}^2(m)= \frac{SS}{n-2}

поскольку число оцениваемых параметров m=2.

Почему эта формула отличается от приведенной в первом пункте? Там в знаменателе n, а здесь - (n-2) . Дело в том, что в первом пункте рассмотрена непараметрическая теория при большом объеме данных (при n \to \infty, а при безграничном возрастании n разница между n и (n-2) сходит на нет.

А вот при подборе вида модели знаменатель дроби, оценивающей остаточную дисперсию, приходится корректировать на число параметров. Если этого не делать, то придется заключить, что многочлен второй степени лучше соответствует данным, чем линейная функция, многочлен третьей степени лучше приближает исходные данные, чем многочлен второй степени, и т.д. В конце концов доходим до многочлена степени (n-1) с n коэффициентами, который проходит через все заданные точки. Но его прогностические возможности, скорее всего, существенно меньше, чем у линейной функции. Излишнее усложнение эконометрических моделей вредно.

Типовое поведение скорректированной оценки остаточной дисперсии

\nu(m)= \hat{\sigma}^2(m)

в зависимости от параметра m в случае расширяющейся системы эконометрических моделей выглядит так. Сначала наблюдаем заметное убывание. Затем оценка остаточной дисперсии колеблется около некоторой константы (теоретического значения дисперсии погрешности).

Поясним ситуацию на примере эконометрической модели в виде многочлена

x(t)=a_0+a_1t+a_2t^2+a_3t^3+\dots+a_mt^m

Пусть эта модель справедлива при m=m_0 При m<m_0 в скорректированной оценке остаточной дисперсии учитываются не только погрешности измерений, но и соответствующие (старшие) члены многочлена (предполагаем, что коэффициенты при них отличны от 0). При m \ge m_0 имеем

\lim_{n \to \infty} \nu(m)=\sigma^2

Следовательно, скорректированная оценка остаточной дисперсии будет колебаться около указанного предела. Поэтому в качестве оценки неизвестной эконометрику степени многочлена (полинома) можно использовать первый локальный минимум скорректированной оценки остаточной дисперсии, т.е.

m*=\min\{m: \nu(m-1)>\nu(m), \nu(m) \le \nu(m+1)\}

В работе [3] найдено предельное распределение этой оценки степени многочлена.

Теорема. При справедливости некоторых условий регулярности

\lim_{n \to \infty}P(m*<m_0)=0,\\
\lim_{n \to \infty}P(m*=m_0+u)= \lambda (1-\lambda)^u, u=1,2, \dots,

где

\lambda=Ф(1)= Ф(-1)= \frac{1}{\sqrt{2 \pi}} \int_{-1}^1 \exp \left{-\frac{x^2}{2} \right} dx \approx 0.68268

Таким образом, предельное распределение оценки m* степени многочлена (полинома) является геометрическим. Это означает, в частности, что оценка не является состоятельной. При этом вероятность получить меньшее значение, чем истинное, исчезающе мала. Далее имеем:

P(m*=m_0) \to 0.68268, P(m*=m_0+1 \to 0.68268(1-0.68268)=0.21663\\
P(m*=m_0+2) \to 0.68268(1-0.68268)^2=0.068744,\\
P(m*=m_0+3) \to 0.68268(1-0.68268)^3=0.21814

Разработаны и иные методы оценивания неизвестной степени многочлена, например, с помощью многократного применения процедуры проверки адекватности регрессионной зависимости с помощью статистики Фишера (см. работу [3]). Предельное поведение оценок - таково же, как в приведенной выше теореме, только значение параметра иное.

Линейный и непараметрические парные коэффициенты корреляции. Термин "корреляция" означает "связь". В эконометрике этот термин обычно используется в сочетании "коэффициенты корреляции".

Рассмотрим способы измерения связи между двумя случайными переменными. Пусть исходными данными является набор случайных векторов (x_i, y_i)=(x_i(\omega), y_i(\omega)), i=1,2,\dots, n. Коэффициентом корреляции, более подробно, линейным парным коэффициентом корреляции К. Пирсона называется (см. приложение 1)

r_n= \frac{ \sum_{i=1}^n (x_i- \bar x)(y_i- \bar y)}{\sqrt{ \sum_{i=1}^n (x_i- \bar x)^2} \sqrt{ \sum_{i=1}^n (y_i- \bar y)^2}}

Если r_n = 1 , то y_i=ax_i+b причем a>0. Если же r_n = -1 , то y_i=ax_i+b причем a<0 . Таким образом, близость коэффициента корреляции к 1 (по абсолютной величине) говорит о достаточно тесной линейной связи.

Коэффициенты корреляции типа r_n используются во многих алгоритмах многомерного статистического анализа эконометрических данных. В теоретических рассмотрениях часто считают, что случайный вектор имеет многомерное нормальное распределение. Распределения реальных данных, как правило, отличны от нормальных (см. "Статистический анализ числовых величин (непараметрическая статистика)" ). Почему же распространено представление о многомерном нормальном распределении? Дело в том, что теория в этом случае проще. В частности, равенство 0 теоретического коэффициента корреляции (см. приложение 1) эквивалентно независимости случайных величин. Поэтому проверка независимости сводится к проверке статистической гипотезы о равенстве 0 теоретического коэффициента корреляции. Эта гипотеза принимается, если |r_n|<C(n, \alpha), где C(n, \alpha) - некоторое граничное значение, зависящее от объема выборки n и уровня значимости \alpha.

Если случайные вектора (x_i, y_i)=(x_i(\omega), y_i(\omega)), i=1,2,\dots, n независимы и одинаково распределены, то выборочный коэффициент корреляции сходится к теоретическому при безграничном возрастании объема выборки:

r_n \to \rho= \frac{M(x_1-M(x_1))(y_1-M(y_1))}{\sqrt{D(x_1)} \sqrt{D(y_1)}}

(сходимость по вероятности).

Более того, выборочный коэффициент корреляции является асимптотически нормальным. Это означает, что

\lim_{n \to \infty} P \left(\frac{r_n- \rho}{\sqrt{D_0(r_n)}}<x \right)= Ф(x)

где Ф(x) - функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1, а D_0(r_n) - асимптотическая дисперсия выборочного коэффициента корреляции. Она имеет довольно сложное выражение, приведенное в монографии [4, с.393]:

D_0(r_n)= \frac{\rho^2}{4n} \left(\frac{\mu_{40}}{\mu_{20}^2}+\frac{\mu_{04}}{\mu_{02}^2} +\frac{2 \mu_{22}}{\mu_{20} \mu_{02}}+\frac{4 \mu_{22}}{\mu_{11}^2}+\frac{4 \mu_{31}}{\mu_{11} \mu_{20}}-\frac{4 \mu_{13}}{\mu_{11} \mu_{02}} \right)

Здесь под \mu_{km} понимаются теоретические центральные моменты порядка k и m, а именно,

\mu_{km}=M(x_1-M(x_1))^k(y_1-M(y_1))^m

Для расчета непараметрического коэффициента ранговой корреляции Спирмена необходимо сделать следующее. Для каждого x_i рассчитать его ранг r_i в вариационном ряду, построенном по выборке x_1, x_2, \dots, x_n Для каждого y_i рассчитать его ранг q_i в вариационном ряду, построенном по выборке y_1, y_2, \dots, y_n. Для набора из n пар (r_i, q_i), i=1,2,\dots, n вычислить (линейный) коэффициент корреляции. Он называется коэффициентом ранговой корреляции, поскольку определяется через ранги. В качестве примера рассмотрим данные из табл.5.2(см. монографию [5]).

Таблица 5.2. Данные для расчета коэффициентов корреляции
i 1 2 3 4 5
x_i 5 10 15 20 25
y_i 6 7 30 81 300
r_i 1 2 3 4 5
q_i 1 2 3 4 5

Для данных табл.5.2 коэффициент линейной корреляции равен 0,83, непосредственной линейной связи нет. А вот коэффициент ранговой корреляции равен 1, поскольку увеличение одной переменной однозначно соответствует увеличению другой переменной. Во многих экономических задачах, например, при выборе инвестиционных проектов для осуществления, достаточно именно монотонной зависимости одной переменной от другой.

Поскольку суммы рангов и их квадратов нетрудно подсчитать, то коэффициент ранговой корреляции Спирмена равен

\rho_n=1-\frac{6 \sum_{k=1}^n(r_i-q_i)^2)}{n^3-n}

Отметим, что коэффициент ранговой корреляции Спирмена остается постоянным при любом строго возрастающем преобразовании шкалы измерения результатов наблюдений. Другими словами, он является адекватным в порядковой шкале (см. "Основы теории измерений" ), как и другие ранговые статистики (см. статистики Вилкоксона, Смирнова, типа омега-квадрат для проверки однородности независимых выборок в "Статистический анализ числовых величин (непараметрическая статистика)" и общее обсуждение в "Статистика нечисловых данных" ).

Широко используется также коэффициент ранговой корреляции Кендалла, коэффициент ранговой конкордации Кендалла и Б. Смита и др. Наиболее подробное обсуждение этой тематики содержится в монографии [6], необходимые для практических расчетов таблицы имеются в справочнике [1]. Дискуссия о выборе вида коэффициентов корреляции продолжается до настоящего времени [5].

Непараметрическая регрессия. Рассмотрим общее понятие регрессии как условного математического ожидания. Пусть случайный вектор (x(\omega), y(\omega)) имеет плотность p(x,y) . Как известно из любого курса теории вероятностей, плотность условного распределения y(\omega) при условии x(\omega)=x_0 имеет вид

p(y|x)=p(y|x(\omega)=x_0)= \frac{p(x,y)}{\int_{- \infty}^{+ \infty}p(x,y)dy}

Условное математическое ожидание, т.е. регрессионная зависимость, имеет вид

f(x)=\int_{-\infty}^{+\infty}yp(y|x)dy=\frac{\int_{-\infty}^{+\infty}yp(x,y)dy}{\int_{-\infty}^{+\infty}p(x,y)dy}

Таким образом, для нахождения оценок регрессионной зависимости достаточно найти оценки совместной плотности распределения вероятности p_n(x,y) такие, что

p_n(x,y) \to p(x,y)

при n \to \infty Тогда непараметрическая оценка регрессионной зависимости

f_n(x)= \frac{\int_{-\infty}^{+\infty}yp_n(x,y)dy}{\int_{-\infty}^{_\infty}p_n(x,y)dy}

при n \to \infty будет состоятельной оценкой регрессии как условного математического ожидания

f_n(x) \to f(x)

Общий подход к построению непараметрических оценок плотности распределения вероятностей развит в "Статистика нечисловых данных" ниже.

Дмитрий Лямин
Дмитрий Лямин
Анна Корнева
Анна Корнева

Подскажите, пожалуйста, помимо самого обучения 1 руб. и отправки диплома по почте (за пересылку), ещё нужно платить за оформление самого диплома или удостоверения?

Ирина Симонян
Ирина Симонян
Армения, Ереван, ЕГУ, 1998
Дмитрий Степаненко
Дмитрий Степаненко
Россия