Опубликован: 10.09.2016 | Уровень: для всех | Доступ: платный
Лекция 3:

Множественная регрессия

3.4. Оценка качества модели

Отклонения называют абсолютной ошибкой аппроксимации в i-м наблюдении, а величину - относительной ошибкой аппроксимации. О качестве модели судят по средней относительной ошибке аппроксимации

Считается, что ошибка в 4-9% на контрольной выборке свидетельствует о хорошем качестве построенной модели. О качестве модели судят также и по результатам дисперсионного анализа модели.

Рассмотрим, как и для случая парной регрессии


(3.16)

(3.17)

(3.18)

Можно показать, что

Q_{общ} = Q_{ост} + Q_{регр} (3.19)

Докажем это равенство:

Q_{общ} = (Y - Y)^{T}(Y - Y) =\\
			= (Y - Y1 + Y1 - Y)^{T}(Y - Y1 + Y1 - Y) =\\
		=Q_{регл} + Q_{ост} + (Y - Y1)^{T}(Y1 - Y) + (Y1 - Y)^{T}(Y - Y1).

Докажем, что две последние суммы равны нулю:

(Y - Y1)^{T}(Y1 - Y) = (Y^{T}Y1 - Y1^{T}Y1) + (Y1^{T }Y - Y^{T}Y);\\
			Y^{T}Y1 = Y^{T}Xb = Y^{T}X(X^{T}X)^{-1}X^{T}Y;\\
			Y1^{T}Y1 = b^{T}X^{T}Xb = Y^{T}X(X^{T}X)^{-1}X^{T}X(X^{T}X)^{-1}X^{T}Y =\\
		= Y^{T}X(X^{T}X)^{-1}X^{T}Y = Y^{T}Y^{1}

Равенство Y1^{T }Y - Y^{T }Y = 0 эквивалентно равенству \sum Y_{i}Y - \sum Y1_{i}Y, или \sum Y1_{i} - \sum Y_{i}. Последнее равенство является первым равенством нормальной системы уравнений МНК (с учетом того, что x_{0j} = 1, j = 1, 2, \dots , N). Таким образом, равенство (3.19) доказано.

С вопросом об оценке качества модели тесно связано понятие коэффициента множественной корреляции. В главе 2 рассматривался коэффициент детерминации


Он показывает, насколько предсказания по уравнению регрессии лучше, чем по среднему значению отклика Y. Число R=\sqrt{R^{2}} называют коэффициентом множественной корреляции. Оказывается, это число совпадает с коэффициентом корреляции между Y1 и Y, который отражает тесноту линейной связи между значениями выхода Y и их расчетными значениями Y1. Докажем этот факт. Необходимо установить равенство


(3.20)

Для этого достаточно показать, что числитель равен Q_{регр}, а знаменатель равен \sqrt{Q_{общ}Q_{регл}}. Прежде всего заметим, что в силу ранее доказанного равенства \sum Y1_{i} - \sum Y_{i} получаем Y - Y1. Отсюда вытекает требуемое соотношение для знаменателя. Далее


Итак, из (3.6) последнее слагаемое равно нулю, что и требовалось.

Дисперсионный анализ для случая многих факторов проводится так же, как и для парной регрессии. Сделаем только замечания по поводу подсчета степеней свободы для Q_{ост} и Q_{регр}.

Обозначим \nu _{ост} = N - k - 1. Это число степеней свободы остаточной суммы квадратов Q_{ост}. Оно равно разности между числом наблюдений и числом линейных связей между ними, участвующими в определении Q_{ост} (в сумме участвуют значения Y1_{i}, которые, в свою очередь, зависят от вектора коэффициентов b = b_{0}, b_{1}, \dots , b_{k}).

Несмещенная оценка дисперсии \sigma ^{2 } ошибок наблюдений задается в этом случае формулой


(3.21)

Аналогично сумма Q_{общ} имеет число степеней свободы \nu _{общ}, равное N - 1, так как в этой сумме все наблюдения связаны одной связью (участвует одно значение Y). Наконец, для суммы Q_{регр } число степеней свободы \nu _{регр} = (k + 1) - 1 = k, так как в выражение Q_{регр} входят k + 1 оценок b_{0}, b_{1}, \dots, b_{k} и одна линейная связь, определяемая Y. Очевидно, что \nu _{общ},= \nu _{ост}+\nu _{регр}.

Проверку значимости уравнения регрессии проводим по уже знакомой нам схеме. Находим и наблюдаемое значение критерия Фишера . Если уравнение регрессии незначимо, то в условиях Гаусса - Маркова числитель и знаменатель дроби являются несмещенными оценками для \sigma^{2} и дробь подчиняется распределению Фишера - Снедекора. Затем по заданной надежности g = 1 - \alpha, где \alpha - уровень значимости, по таблицам данного распределения находим критическое значение F_{krit}(\alpha ,\nu _{регр}., \nu _{ост}). Если F_{набл} > F_{krit}(\alpha , \nu _{регр}., \nu _{ост})), то нулевая гипотеза о незначимости уравнения регрессии отвергается и принимается гипотеза о значимости уравнения регрессии.

Формула (3.20) дает выборочное значение коэффициента множественной корреляции, являющейся оценкой фактического его значения \rho. Иногда возникает необходимость проверить значимость этого коэффициента, т.е. проверить нулевую гипотезу: \rho = 0. Это равнозначно проверке значимости уравнения регрессии. Для этого составляют соотношение


Далее проверка значимости коэффициента полностью совпадает с проверкой значимости уравнения регрессии.

В случае когда наблюдения проводятся с повторениями, т.е. при некотором наборе x^{o}_{i} = (x^{0}_{il}, x^{0}_{i2},\dots ,x^{0}_{iN})^{T} проводится n дополнительных повторных опытов, появляется возможность проверить качество выбора модели, т.е. ее адекватность опытным данным. Пусть в дополнительной точке x^{o}_{i} = (x^{0}_{il}, x^{0}_{i2},\dots ,x^{0}_{iN})^{T} получены \tilde{Y} _{1}, \tilde{Y} _{2},\dots ,\tilde{Y}_{n } значения которые отражают лишь влияние случайных ошибок или в худшем случае влияние неучтенных факторов на результаты наблюдений. Оценим дисперсию ошибок по этим данным:


Если регрессия адекватна наблюдениям, то S^{2}_{ош} и S^{2}_{ост} являются несмещенными оценками одной и той же дисперсии случайных ошибок \sigma ^{2}.

Итак, нулевая гипотеза в этом случае имеет вид

M(S^{2}_{ост}) = M(S^{2}_{ош}) = \sigma ^{2}. (3.21)

Согласно конкурирующей гипотезе, равенство (3.21) не выполняется, т.е. остатки модели слишком велики по сравнению с ошибками наблюдений, а следовательно, модель (3.1) неадекватна. Это позволяет использовать критерий Фишера для проверки адекватности регрессионной модели. Сначала выберем уровень значимости a в пределах от 0,01 до 0,1. Из таблиц распределения Фишера необходимо найти величину F_{krit}(\alpha , \nu _{ост}, \nu _{ош}). Затем находят . Если F_{набл} < F_{krit}, оснований отвергнуть гипотезу об адекватности нет. Если F_{набл }> F_{krit}, гипотеза об адекватности модели отвергается.

Инесса Воробьева
Инесса Воробьева

В дисциплине "Основы эконометрики" тест 6 дается по теме 7.

Вера Борисова
Вера Борисова
Россия
Студентик Студент
Студентик Студент
Россия