Опубликован: 10.09.2016 | Доступ: свободный | Студентов: 947 / 166 | Длительность: 15:27:00
Тема: Экономика
Лекция 2:

Парный регрессионный анализ

2.3. Предположения и проверка адекватности уравнения регрессии

Метод наименьших квадратов предполагает ряд ограничений на поведение случайного слагаемого \varepsilon - условия Гаусса - Маркова:

  1. нулевое математическое ожидание, М(\varepsilon _{i}) = 0, i = 1, 2, \dots , n;
  2. равные дисперсии ошибок для всех наблюдений, D(\varepsilon _{i}) = \sigma ^{2}, i = 1, 2, \dots , n;
  3. ошибки модели \varepsilon _{i} при разных наблюдениях независимы. В частности, корреляционный момент, или ковариация, между \varepsilon _{i} и \varepsilon _{j} при i \ne j равен 0: cov(\varepsilon _{i}, \varepsilon _{j}) = 0 для i \ne j, i, j = 1, 2, \dots , n;
  4. для всех i = 1, 2, 3, \dots , n случайные ошибки \varepsilon _{i} распределены по нормальному закону, а x = (x_{1} , x_{2}, \dots x_{n}) - фиксированный вектор.

Одним из показателей качества построенного уравнения регрессии является коэффициент детерминации R^{2}. По определению


(2.6)

В свою очередь,

D(Y) = D(Y1) + D(\varepsilon ). Действительно, DY = D(Y1 + \varepsilon ) = D(Y1) + D(\varepsilon ) + 2cov(Y1, \varepsilon )

Однако cov(Y1, \varepsilon ) = \beta cov(x, \varepsilon ) = 0. Что и требовалось. Отсюда


(2.7)

Таким образом, коэффициент детерминации можно интерпретировать как часть общей дисперсии Y, которая объяснена с помощью уравнения регрессии, точнее, с помощью расчетной переменной Y1 уравнения регрессии. Максимальное значение коэффициента детерминации R^{2} равно 1. Это произойдет тогда, когда все остатки \varepsilon _{i} = 0, а уравнение прямой регрессии ляжет точно на экспериментальные точки Y_{i}. Таким образом, при построении регрессии коэффициент детерминации R^{2} желательно максимизировать. Именно это и делается при применении МНК, так как из формулы (2.7) вытекает, что максимум R^{2} достигается при минимуме D(\varepsilon ).

Проведем дисперсионный анализ уравнения регрессии, построенного выше:. По данным табл. 2.3, используя возможности пакета STATISTICA, получаем следующее (табл. 2.4).

Таблица 2.4


Итак, .

Отсюда

Значение \tilde{R}^{2} близко к единице. Это указывает на хорошее (адекватное) описание объясняемой переменной Y полученным уравнением регрессии.

Следует признать, что определить истинные значения коэффициентов \alpha и \beta модели никогда не удастся. Найденные по МНК коэффициенты являются лишь выборочными оценками истинных коэффициентов. Исходя из этого, в отличие от параметров \alpha и \beta, мы их обозначили \alpha и \beta. Выборочные оценки \alpha и \beta являются случайными величинами, так как зависят от выборки x_{i} и Y_{i}, а также от метода расчета. Поэтому, как это принято в математической статистике, необходимо решить вопрос о несмещенности, эффективности и состоятельности оценок \alpha и \beta, полученных по МНК. Следует также рассмотреть вопрос о построении доверительных интервалов для \alpha и \beta.

Из формул системы уравнений (2.5) теперь следует, что


(2.8)

Поскольку Y = \alpha + \beta x + \varepsilon,

cov(x, Y) = cov(x, \alpha + \beta x + \varepsilon ) = cov(x, \beta x) + cov(x, \varepsilon ) =

= bcov(x, x) + cov(x, \varepsilon ) = \beta D(x) + cov(x, \varepsilon ).

Следовательно,


(2.9)

Итак, выборочный коэффициент регрессии представлен в виде суммы истинного значения \beta и случайной составляющей, зависящей от cov(x, \varepsilon ). Аналогично коэффициент a можно разложить на сумму истинного коэффициента a и случайной составляющей


(2.10)

где

Из формул (2.9) и (2.10) следует: если случайную ошибку \varepsilon увеличить в k раз, т.е. заменить ошибкой k\varepsilon, то при определении параметров \alpha и \beta она тоже увеличится в k раз. Это вытекает из соотношения cov(x, k\varepsilon ) = k cov(x, \varepsilon ).

Если нет возможности проверить качество полученного уравнения регрессии на независимой выборке, то проводят оценку значимости уравнения регрессии по F-критерию Фишера. Выдвигается нулевая гипотеза, что коэффициент регрессии \beta = 0, т.е. Y и x независимы. Конкурирующая гипотеза: \beta \ne 0. Обратимся к равенству

D(Y) = D(\alpha + \beta x) + D(\varepsilon ). (2.11)

В условиях нулевой гипотезы D(Y) = D(\alpha ) + \beta ^{2}D(\varepsilon ) + D(\varepsilon ) = D(\varepsilon ). Следовательно, нулевая гипотеза эквивалентна гипотезе R^{2} = 0.

Рассмотрим линейное уравнение регрессии МНК \tilde{Y} = a+bx_{i}, используя формулы (2.8),

\tilde{Y} 1_{i} = a + bx_{i}, или \tilde{Y1}_i - Y = b(x_{i} - x)

Последнее равенство возведем в квадрат и просуммируем по всем наблюдениям i = 1, 2, \dots , n. Получаем


(2.12)

Из формулы (2.12) вытекает, что расчетное значение \tilde{Y1}_i является функцией единственного параметра b - коэффициента регрессии. Это означает, что сумма квадратов \sum (\tilde{Y} 1_{i} - Y)^{2} стоящая в числителе D(\tilde{Y} 1) имеет одну степень свободы.

Известно, что число степеней свободы для суммы квадратов, стоящей в числителе дисперсии n независимых наблюдений, равно n - 1. Согласно теории дисперсионного анализа разложение суммы квадратов на слагаемые влечет соответствующее разложение для степеней свободы слагаемых. Поэтому число степеней свободы суммы квадратов, стоящей в числителе D(\hat{\varepsilon}), равно n - 1 - 1 = n - 2. Далее используем обычную процедуру сравнения дисперсий с различными степенями свободы по F-критерию Фишера, строим исправленные суммы квадратов:


(2.13)

(2.14)

По таблице критических значений Фишера (Приложение 5) находим критическое значение критерия F_{крит} = F(\gamma , 1, n - 2), где \gamma - выбранный заранее уровень значимости критерия (т.е. вероятность признания регрессии значимой, в то время как она незначима). Если регрессия значима, то F_{набл} > F_{крит}; в противном случае F_{набл} < F_{крит}. Уровень значимости \gamma обычно выбирают равным 0,1; 0,05; 0,01; 0,001. При использовании компьютерных расчетов удобнее не выбирать фиксированное значение \gamma, а произвести расчет вероятности ошибочного признания регрессии значимой при данном значении F_{набл}. Так, в табл. 2.4 посчитаны значения S^{2}_{фактор}= 35,7; S^{2}_{ост} = 0,316; F_{набл} = 113, 097 и вероятность того, что регрессия незначима P = 0,000005. Поэтому вывод о значимости уравнения регрессии можно считать вполне обоснованным.

Как известно из курса математической статистики, несмещенность выборочной оценки \theta _{выб} параметра генеральной совокупности \theta _{ген} означает, что математическое ожидание \theta _{выб} равно \theta _{ген}. Докажем несмещенность МНК-оценок коэффициентов a и b. Необходимо показать, что М(a) = \alpha и М(b) = \beta. Исходя из формул (2.9), (2.10), свойств математического ожидания и первого условия Гаусса - Маркова, получаем


Что, собственно, и требовалось.

В курсе математической статистики определяется теоретический коэффициент корреляции, являющийся мерой линейной связи между случайными величинами x и y,


(2.15)

Аналогично определяется выборочный коэффициент корреляции:


(2.16)

Из формул (2.8) следует, что


(2.17)

а уравнение линейной регрессии можно записать в таком виде:


(2.18)

Покажем, что теоретический коэффициент детерминации равен квадрату теоретического коэффициента корреляции между фактическими Y и теоретическими прогнозными значениями Y1 = \alpha + \beta x = M(\tilde{Y} 1) :


В целях построения доверительных интервалов для коэффициентов \alpha и \beta воспользуемся формулами расчета дисперсий коэффициентов модели a и b. Имеем


Но Следовательно,


Окончательно,


(2.19)

Аналогично получаем, что


Но


Наконец, ранее было доказано, что поэтому

Окончательно получаем


(2.20)

Из формул (2.19) и (2.20) можно заключить, что теоретическая дисперсия коэффициентов регрессии зависит от отношения дисперсий случайных ошибок и фактора x. С ростом числа наблюдений n бесконечности дисперсии коэффициентов стремятся к нулю, что вместе с доказанной выше несмещенностью оценок a и b свидетельствует о состоятельности МНК-коэффициентов регрессии.

В теории регрессионного анализа также доказывается, что a и b в условиях Гаусса - Маркова являются эффективными оценками, т.е. имеют минимальную дисперсию.

На практике теоретическую оценку дисперсии коэффициентов a и b получить невозможно, так как неизвестно точное значение дисперсии случайной ошибки \sigma ^{2}(\varepsilon ). Однако, оценив дисперсию остатков, можно получить выборочную дисперсию случайных ошибок.

Как было отмечено, число степеней свободы суммы квадратов, стоящей в числителе D(\varepsilon ), равно n - 2. Следовательно, исправленная выборочная дисперсия случайных ошибок равна


Из формул (2.19), (2.20) получаем исправленные выборочные оценки стандартных отклонений (ошибок) МНК-коэффициентов регрессии:


(2.21)

Если бы были известны стандартные отклонения \sigma (a) и \sigma (b), то величины Z_{a} = (a - \alpha )/\sigma (a) и Zb = (b - \beta )/\sigma (b) были бы распределены по нормальному закону с нулевым математическим ожиданием и единичной дисперсией: Z_{a} ~ N(0, 1); Z_{b} ~ N(0, 1). Но поскольку нам известны только выборочные значения стандартных отклонений (стандартные ошибки) S(b) и S(a), соответствующие соотношения t_{a} = (a - \alpha )/S(a) и t_{b} = (b - \beta )/S(b) распределены по закону Стьюдента с числом степеней свободы \nu = n - 2.

Заметим, что при \nu > 30 распределение Стьюдента практически не отличается от нормального распределения (Приложение 4). С учетом сказанного можно построить доверительные интервалы для коэффициентов \alpha и \beta, и если окажется, что в доверительный интервал попадает 0, то соответствующий коэффициент регрессии объявляется незначимым.

Незначимые коэффициенты обычно исключают из уравнения регрессии. При расчете уравнения регрессии на компьютере для проверки значимости коэффициентов регрессии вычисляют наблюдаемые значения критерия Стьюдента t_{a} и t_{b} при \alpha = 0; \beta = 0 и вероятности p_{a}, p_{b} того, что случайная величина, распределенная по критерию Стьюдента, превысит наблюдаемые значения t_{a} и t_{b} по абсолютной величине. Если эти вероятности малы (меньше выбранного уровня значимости, например 0,05), то коэффициенты считаются значимыми. В противном случае - незначимыми. Так, построив регрессию \tilde{Y} 1 = 0,924 + 0,658x_{i} по данным табл. 2.1, получаем табл. 2.5.

Таблица 2.5


Итак, S(b) = 0,061856; t_{b} = 10,63472, p_{b} = 0,000005; S(a) = 0,383809; t_{a} = 2,40696; p_{a} = 0,04271.

Из полученных результатов следует значимость коэффициентов a и b при уровне значимости 0,05. Как правило, в уравнении регрессии значения стандартных ошибок S(a) и S(b) записывают в скобках под соответствующими коэффициентами, иногда под ними указывают значения t-критерия. В результате уравнение принимает следующий вид:

\tilde{Y} 1 = 0,924 + 0,658xS (0,383809) (0,061856)t (2,40696) (10,63472)
Инесса Воробьева
Инесса Воробьева

В дисциплине "Основы эконометрики" тест 6 дается по теме 7.