Опубликован: 10.09.2016 | Уровень: для всех | Доступ: платный
Лекция 4:

Гетероскедастичность моделей, ее обнаружение и методы устранения

4.3. Последствия гетероскедастичности

При использовании метода наименьших квадратов параметры модели находят по формуле (3.8)

b = (X^{T}X)^{-1}X^{T}y = (X^{T}X)^{-1}X^{T} (Xb + \varepsilon ) = b + (X^{T}X)^{-1}X^{T}\varepsilon .

Ранее было доказано, что оценка (3.8) несмещенная. Этот факт основывался на равенстве нулю M(\varepsilon ). Можно также доказать состоятельность МНК-оценки b. Это позволяет использовать в ряде случаев, например для прогнозирования, МНК-модели и в случае гетероскедастичности. Однако МНК-оценки не являются эффективными в этом случае, а следовательно, результаты, основанные на анализе дисперсии коэффициентов - точность модели, значимость и доверительные интервалы для коэффициентов и прогнозных значений, - в случае гетероскедастичности неприменимы.

4.4. Подходы к решению проблемы гетероскедастичности

Существует два подхода к решению проблемы гетероскедастичности:

  1. преобразование данных;
  2. применение взвешенного и обобщенного метода наименьших квадратов (ОМНК).

Первый подход предполагает такое преобразование исходных данных, чтобы для них модель уже обладала свойством гомоскедастичности. Чаще всего для этого используют два вида преобразований: логарифмирование данных и переход к безразмерным величинам путем деления на некоторые известные величины той же размерности, что и исходные данные. Возможна также стандартизация исходных данных.

Для примера прологарифмируем ряд данных об урожайности пшеницы в США (рис. 4.2).


Рис. 4.2.

Как видно, преобразованный ряд (см. рис. 4.2) не имеет растущих отклонений от линейного тренда (тенденции роста) и ошибки модели, вероятно, будут гомоскедастическими. Проверим этот факт с помощью критерия Спирмена (табл. 4.2).

Таблица 4.2


Незначимость коэффициента корреляции Спирмена в данном случае очевидна. Факт гомоскедастичности остатков модели вида \ln{Y} = 1,877 + 0,009t можно считать доказанным.

Теперь используем прием уменьшения колеблемости ряда за счет перехода к безразмерным переменным. Перейдем от данных урожайности пшеницы в США за 1866-1998 гг. к цепным индексам (рис. 4.3) по формуле .

Цепные индексы США пшеница

Рис. 4.3. Цепные индексы США пшеница

Как видно из рис. 4.3, преобразованный ряд уже не показывает экспоненциальную тенденцию технического прогресса и его отклонения от среднего значения, вероятно, будут гомоскедастическими. Проверим этот факт с помощью критерия Спирмена (табл. 4.3).

Таблица 4.3


Коэффициент ранговой корреляции Спирмена оказался незначимым с высокой надежностью.

Второй метод устранения гетероскедастичности состоит, как было сказано, в построении моделей, учитывающих гетероскедастичность ошибок наблюдений. Перейдем к его изучению.

Обобщенная линейная модель множественной регрессии, теорема Айткена и обобщенный метод наименьших квадратов. В теореме Гаусса - Маркова предполагалось, что случайные возмущения имеют постоянную дисперсию и не коррелированы друг с другом. Это означает, что ковариационная матрица имеет вид cov(\varepsilon _{i}\varepsilon _{j}) = \sigma ^{2}I_{n}, где I_{n} - единичная матрица размерности n. Если существует корреляция между ошибками наблюдений или дисперсия ошибок наблюдений не предполагается постоянной, то мы оказываемся в условиях обобщенной линейной модели множественной регрессии.

Обобщенная линейная модель множественной регрессии предполагает следующую систему соотношений и условий:


Ранг неслучайной (детерминированной) матрицы X предполагается равным p + 1 < n, где p - число предикторов, \varepsilon - случайный вектор, n - число наблюдений;

2) M(\varepsilon ) = 0n, где 0n - матрица размера n \times n, состоящая из нулей;

3) cov(\varepsilon _{i}\varepsilon _{j}) = \Omega, где \Omega - положительно определенная матрица. Это означает, что определители всех главных миноров матрицы \Omega положительны. Напомним, что главными минорами матрицы \Omega являются миноры вида


Итак, в обобщенной линейной регрессионной модели дисперсии и ковариации ошибок наблюдений могут быть произвольными.

Доказано, что при применении обычного МНК для построения оценок коэффициентов в условиях обобщенной модели получается смещенная оценка ковариационной матрицы cov(\varepsilon _{i}\varepsilon _{j}) = \Omega. Поэтому оценки коэффициентов модели, полученные по МНК, будут несмещенными, состоятельными, но не эффективными. Для получения эффективных оценок следует использовать оценки коэффициентов, полученные другими методами, например при помощи обобщенного метода наименьших квадратов.

Теорема Айткена. В классе линейных несмещенных оценок вектора коэффициентов модели b оценка

b = (X'\Omega ^{-1}X)^{-1}X'\Omega ^{-1}Y (4.1)

является эффективной (X' - транспонированная матрица X).

Доказательство состоит в сведении условий теоремы Айткена к условиям теоремы Гаусса - Маркова путем соответствующих преобразований и введения вспомогательных переменных-векторов. Представим (4.1) в виде

b = (X'\Omega ^{-1}X)^{-1}X'\Omega ^{-1}(Xb + \varepsilon ) \\
			(X'\Omega ^{-1}X)^{-1}(X'\Omega ^{-1}X)b + (X'\Omega ^{-1}X)^{-1}X'\Omega ^{-1}\varepsilon =\\
		= b + (X'\Omega ^{-1}X)^{-1}X'\Omega ^{-1}\varepsilon . (4.2)

Из (4.2) и условия M(\varepsilon ) = 0n вытекает несмещенность оценки b. Далее, матрица \Omega является симметричной, т.е. \Omega ' = \Omega, и невырожденной, т.е. ее определитель не равен нулю. Из теории матриц вытекает, что существует по крайней мере одна такая невырожденная матрица Q, что \Omega = QQ'. Тогда по свойству обратных матриц справедливо равенство \Omega ^{-1 }= (Q^{-1})'Q^{-1}.

Умножим обе части обобщенной регрессионной модели Y = X\beta + \varepsilon слева на матрицу Q^{-1}. Получаем Q^{-1}Y = Q^{-1}X\beta + Q^{-1}\varepsilon. Введем новые вспомогательные переменные

Y* = x^*\beta + \varepsilon *; Y* = Q^{-1}Y; x^* = Q^{-1}X; \varepsilon * = Q^{-1}\varepsilon . (4.3)

Проверим, что уравнение (4.3) удовлетворяет условиям Гаусса - Маркова и, следовательно, МНК-оценки для коэффициентов уравнения (4.3) эффективные. Легко проверить, что МНК-оценки для коэффициентов уравнения (4.3) являются оценками (4.1) обобщенного МНК для уравнения Y = X\beta + \varepsilon. То есть теорема Айткена будет нами доказана. Проверим, что M\varepsilon ^* = 0. Имеем M\varepsilon ^* = M(Q^{-1}\varepsilon ) = Q^{-1}M(\varepsilon ) = 0, что и требовалось. Далее

cov(\varepsilon ^*,\varepsilon ^*') = M[(Q^{-1}\varepsilon )(Q^{-1}\varepsilon ')] = M[(Q^{-1}\varepsilon \varepsilon ' (Q^{-1}) '] =\\
			= Q^{-1}M(\varepsilon \varepsilon ')(Q^{-1}) ' = Q^{-1}\Omega (Q^{-1})' =\\ 
		= Q^{-1}QQ' (Q^{-1}) ' = In. (4.4)

Теперь проверим, что МНК-оценка b^* = (x^*'x^*)-1x^*'Y^* является ОМНК-оценкой для исходных переменных. Имеем

b* = (x^*'x^*)-1x^*'Y* = [(Q^{-1}X)' (Q^{-1}X)]-1X' (Q^{-1})'Q^{-1}Y =\\
		= (X'\Omega ^{-1}X)-1X'\Omega ^{-1}Y,

т.е. оценку (4.1). Доказательство теоремы завершено.

Поскольку оценка (4.1) согласно МНК минимизирует остаточную сумму квадратов

S_{ост} =(ei*)2 = (Y* - x^*b)'(Y* - x^*b) =\\
					=[Q^{-1 }(Y - Xb)]'[Q^{-1 }(Y - Xb)] =\\
					= (Y - Xb)'(Q^{-1})'Q^{-1}(Y - Xb) =\\
				= (Y - Xb)' \Omega ^{-1}(Y - Xb) = e' \Omega ^{-1} e, (4.5)

оценка ОМНК является точкой минимума обобщенного критерия (4.5).

Устранение гетероскедастичности путем применения обобщенного метода наименьших квадратов (ОМНК) требует знания матрицы ковариаций ошибок наблюдений, что бывает на практике в исключительных случаях. Если же считать все элементы матрицы \Omega неизвестными величинами, то число неизвестных вместе с параметрами модели будет равно n(n + 1)/2 + p + 1 > n, т.е. превысит число наблюдений. Поэтому в общем случае задача одновременного нахождения параметров модели и ковариационной матрицы ошибок наблюдений неразрешима. Приходится накладывать дополнительные ограничения на структуру ковариационной матрицы \Omega. Чаще всего предполагается, что ковариационная матрица вектора случайных ошибок диагональная, т.е.


(4.6)

Если дисперсии \sigma _{1}^{2}, \sigma _{2}^{2},\dots \sigma _{n^{2} } известны, то применение обратной матрицы Q^{-1} к уравнению регрессии МНК сводится к делению переменных модели в i-ом наблюдении на \sigma _{i}. Такой метод расчета коэффициентов модели называется взвешенным МНК. В этом случае минимизируется сумма


(4.7)

В реальных экономических задачах значения \sigma _{i} неизвестны. Поэтому точные значения \sigma _{i} заменяют их оценками . Сначала получают уравнение регрессии с помощью обычного МНК. Затем строят уравнение регрессии квадратов остатков e_{1}^{2} на квадраты объясняющих переменных и их попарные произведения. Получают расчетные (прогнозные) значения e_{i}^{2}. Наконец, веса \sigma _{i} находят по формуле \sigma _{i} = \sqrt{e_{i^{2}}}. Возможно также использование подхода Глейзера. В этом случае строятся регрессии модулей остатков обычной МНК-модели на объясняющие переменные в различных степенях. Выбирается наиболее значимая регрессия и ее прогнозные значения берут за веса в ОМНК-модели.

Контрольные вопросы

  1. Дайте определение гетероскедастичности наблюдений.
  2. Расскажите о тестировании гетероскедастичности на основе теста Голдфелда - Кванта.
  3. Опишите, как применяется для обнаружения гетероскедастичности тест ранговой корреляции Спирмена.
  4. Каковы последствия гетероскедастичности в случае использования МНК для построения модели?
  5. Опишите подходы к устранению гетероскедастичности, основанные на преобразовании исходных данных.
  6. Сформулируйте теорему Айткена о коэффициентах обобщенного МНК.
  7. Опишите алгоритм обобщенного метода наименьших квадратов (ОМНК) для построения уравнения регрессии в случае гетероскедастических наблюдений.
Инесса Воробьева
Инесса Воробьева

В дисциплине "Основы эконометрики" тест 6 дается по теме 7.

Вера Борисова
Вера Борисова
Россия
Студентик Студент
Студентик Студент
Россия