В дисциплине "Основы эконометрики" тест 6 дается по теме 7. |
Множественная регрессия
3.4. Оценка качества модели
Отклонения называют абсолютной ошибкой аппроксимации в -м наблюдении, а величину - относительной ошибкой аппроксимации. О судят по средней относительной ошибке аппроксимации
Считается, что ошибка в 4-9% на контрольной выборке свидетельствует о хорошем качестве построенной модели. О качестве модели судят также и по результатам дисперсионного анализа модели.
Рассмотрим, как и для случая парной регрессии
Можно показать, что
Докажем это равенство:
Докажем, что две последние суммы равны нулю:
Равенство эквивалентно равенству , или . Последнее равенство является первым равенством нормальной системы уравнений МНК (с учетом того, что ). Таким образом, равенство (3.19) доказано.
С вопросом об оценке качества модели тесно связано понятие коэффициента множественной корреляции. В главе 2 рассматривался коэффициент детерминации
Он показывает, насколько предсказания по уравнению регрессии лучше, чем по среднему значению отклика . Число называют коэффициентом множественной корреляции. Оказывается, это число совпадает с коэффициентом корреляции между и , который отражает тесноту линейной связи между значениями выхода и их расчетными значениями . Докажем этот факт. Необходимо установить равенство
Для этого достаточно показать, что числитель равен , а знаменатель равен . Прежде всего заметим, что в силу ранее доказанного равенства получаем . Отсюда вытекает требуемое соотношение для знаменателя. Далее
Итак, из (3.6) последнее слагаемое равно нулю, что и требовалось.
Дисперсионный анализ для случая многих факторов проводится так же, как и для парной регрессии. Сделаем только замечания по поводу подсчета степеней свободы для и .
Обозначим . Это число степеней свободы остаточной суммы квадратов . Оно равно разности между числом наблюдений и числом линейных связей между ними, участвующими в определении (в сумме участвуют значения , которые, в свою очередь, зависят от вектора коэффициентов .
Несмещенная оценка дисперсии ошибок наблюдений задается в этом случае формулой
Аналогично сумма имеет число степеней свободы , равное так как в этой сумме все наблюдения связаны одной связью (участвует одно значение ). Наконец, для суммы число степеней свободы , так как в выражение входят оценок и одна линейная связь, определяемая . Очевидно, что .
Проверку значимости уравнения регрессии проводим по уже знакомой нам схеме. Находим и наблюдаемое значение критерия Фишера . Если уравнение регрессии незначимо, то в условиях Гаусса - Маркова числитель и знаменатель дроби являются несмещенными оценками для и дробь подчиняется распределению Фишера - Снедекора. Затем по заданной надежности , где - уровень значимости, по таблицам данного распределения находим критическое значение . Если , то нулевая гипотеза о незначимости уравнения регрессии отвергается и принимается гипотеза о значимости уравнения регрессии.
Формула (3.20) дает выборочное значение коэффициента множественной корреляции, являющейся оценкой фактического его значения . Иногда возникает необходимость проверить значимость этого коэффициента, т.е. проверить нулевую гипотезу: . Это равнозначно проверке значимости уравнения регрессии. Для этого составляют соотношение
Далее проверка значимости коэффициента полностью совпадает с проверкой значимости уравнения регрессии.
В случае когда наблюдения проводятся с повторениями, т.е. при некотором наборе проводится дополнительных повторных опытов, появляется возможность проверить качество выбора модели, т.е. ее адекватность опытным данным. Пусть в дополнительной точке получены значения которые отражают лишь влияние случайных ошибок или в худшем случае влияние неучтенных факторов на результаты наблюдений. Оценим дисперсию ошибок по этим данным:
Если регрессия адекватна наблюдениям, то и являются несмещенными оценками одной и той же дисперсии случайных ошибок .
Итак, нулевая гипотеза в этом случае имеет вид
Согласно конкурирующей гипотезе, равенство (3.21) не выполняется, т.е. остатки модели слишком велики по сравнению с ошибками наблюдений, а следовательно, модель (3.1) неадекватна. Это позволяет использовать критерий Фишера для проверки адекватности регрессионной модели. Сначала выберем уровень значимости a в пределах от 0,01 до 0,1. Из таблиц распределения Фишера необходимо найти величину . Затем находят . Если , оснований отвергнуть гипотезу об адекватности нет. Если , гипотеза об адекватности модели отвергается.