НОУ ИНТУИТ | Введение в эконометрику. Лекция 3: Множественная регрессия

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Опубликован: 10.09.2016 | Уровень: для всех | Доступ: платный

|

Вам нравится? Нравится 28 студентам

| Поделиться |

Поддержать программу

3.8. Процедура шаговой регрессии

Частный -критерий, предназначенный для включения фактора в модель, позволяет сравнить прирост факторной дисперсии за счет дополнительно включенного фактора с остаточной дисперсией, приходящейся на одну степень свободы по регрессионной модели в целом,

(3.34)

где - - доля вариации , объясненная регрессией за счет введения фактора $x_{i}$ ;

- доля остаточной вариации модели, включающей полный набор факторов.

Если числитель и знаменатель формулы (3.34) умножить на $\sum (y - y)^{2}$ , то получим отношение не долей, а отношение прироста факторной объясняющей суммы квадратов отклонений к остаточной сумме квадратов. Так как прирост факторной суммы квадратов обусловлен включением в модель одного фактора, число степеней свободы для него равно $\nu = (n - k - 1) - (n - k) = 1$ .

Для остаточной суммы квадратов $\nu _{ост} = n - k - 1$ . Фактическое значение частного -критерия сравнивается с табличным при некотором уровне значимости $\alpha$ . Если наблюдаемый -критерий превышает табличное значение, то фактор признают значимым и оставляют в модели, если наблюдаемый -критерий меньше табличного, то фактор признается незначимым и принимается гипотеза $H_{0}/\beta _{i} = 0$ .

Аналогичную процедуру можно применять и для усложнения модели путем решения вопроса о включении в нее нового фактора. В пакетах прикладных программ, например в пакете STATISTICA, реализованы как процедура включения, так и процедура исключения фактора из модели. Критические значения критериев для включения и исключения факторов $F_{вкл}$ и $F_{искл}$ пользователь определяет самостоятельно.

В методе исключения анализ начинается с включения в регрессионную модель всех переменных. Затем для каждой переменной вычисляют частную -статистику и ту переменную, для которой -статистика минимальна, исключают из рассмотрения. Затем строят новую модель по оставшимся переменным и после вычисления частных -статистик вновь удаляют одну из переменных. И так до тех пор, пока не будет достигнуто заранее заданное число переменных в модели или все -статистики не станут больше заданного порога.

В методе включения начинают с построения модели, включающей лишь одну переменную, имеющую наибольший по абсолютной величине парный коэффициент корреляции с переменной выхода. Затем вычисляют частные -статистики для всех оставшихся переменных и включают в модель переменную с наибольшей -статистикой. Это эквивалентно включению переменной, имеющей наибольший частный коэффициент корреляции с переменной выхода. Процесс продолжают до тех пор, пока в модели не наберется определенное число переменных или -статистики не станут меньше заданного порога.

Более сложной процедурой является комбинация методов включения и исключения. Выбирают фиксированные пороговые уровни $F_{вкл }$ и $F_{искл}$ и на каждом шаге рассматривают возможности добавить переменную, исключить переменную, заменить одну переменную другой, остановить процесс. На каждом шаге вычисляются -статистики переменных, величина $R^{2}$ и степень допустимой коррелированности переменных, вошедших в регрессионное уравнение. Последняя определяется по формуле T - 1 - . Обычно задают уровень допуска - $Т_{доп} = 0,01$ , а $F_{вкл}$ и $F_{искл}$ подбирают в ходе решения задачи. Переменную с максимальным значением включают в модель при условии, что значения не превышают $Т_{доп }$ (степень коррелированности системы не должна быть слишком большой), но при этом $F > F_{вкл}$ . Если оказывается, что $F < F_{искл}$ , то переменную исключают из модели.

Преимуществами шаговых методов являются простота алгоритмов, автоматизация выбора наилучшей модели, быстрота вычислений; недостатком - раздельный анализ переменных (по отдельности переменные могут не являться значимыми, но их совместное использование может улучшить показатели регрессионной модели).

Другой способ пошагового отбора факторов состоит в использовании скорректированного коэффициента детерминации, определяемого по формуле

(3.35)

В отличие от обычного коэффициента детерминации $R^{2}$ , который всегда увеличивается при добавлении новых факторов, скорректированный коэффициент детерминации может уменьшаться при добавлении новых переменных, не оказывающих существенного влияния на выходную переменную . Однако даже увеличение скорректированного коэффициента детерминации не всегда означает, что вводимый в модель фактор значим. Поэтому описанный выше метод шаговой регрессии, основанный на использовании $F_{вкл}$ и $F_{искл}$ , предпочтительнее.

Рассмотрим пример. В таблице 3.2 представлены данные для исследования зависимости урожайности семян люцерны от следующих факторов:

$x_{1}$ - количество осадков в период сентябрь - 20 апреля (мл);
$x_{2}$ - количество осадков в период 20 апреля - 20 мая (мл);
$x_{3}$ - температура воздуха в фазе цветения (°С);
$x_{4}$ - относительная влажность воздуха в фазе цветения (%);
$x_{5}$ - количество осадков в фазе цветения (мл);
$x_{6}$ - температура почвы на глубине 20 см 20 мая (°С);
$x_{7}$ - высота растения 20 мая (мм).

Представленные данные получены в результате 12 опытов, проведенных в 1986-1989 гг. в учебном хозяйстве "Березовский" Воронежского аграрного университета.

Таблица 3.2.
Номер опыта	$x_{1}$	$x_{2}$	$x_{3}$	$x_{4}$	$x_{5}$	$x_{6}$	$x_{7}$
1	282	30	17,3	65,3	65,4	20	50
2	326	80	20,2	61,0	43,0	17	80
3	374	76	18,9	73,0	131,6	17	46
4	374	109	18,8	66,0	55,1	17	40
5	424	104	18,1	72,0	171,9	11	84
6	522	99	22,0	62,1	46,6	14	61
7	212	30	19,0	73,2	95,7	20	50
8	411	50	17,3	66,3	119,7	14	52
9	164	30	17,3	65,3	65,4	20	50
10	411	50	17,3	66,3	149,1	14	52
11	438	102	18,0	69,3	63,0	21	65
12	364	69	22,0	76,0	219,0	12	70

С целью выбора наилучшего варианта набора переменных применим комбинированный вариант включения и исключения неизвестных в процедуре шаговой регрессии, реализованный в модуле "Множественная регрессия" пакета STATISTICA.

Дополним наше множество следующими переменными:

$x_{9 }= x_{1} \cdot x_{2}, x_{10} = x_{2} \cdot x_{3}, x_{11} = x_{3} \cdot x_{4}, x_{12} = x_{4} \cdot x_{5}, x_{13} = x_{5} \cdot x_{6}, x_{14} = x_{6} \cdot x_{7}.$

Матрицу данных зададим в табл. 3.3.

Таблица 3.3

Рассчитаем частные коэффициенты корреляции (Partial Correlations) и значения частной -статистики ( $F-to\ enter/to\ remove$ ) на каждом шаге регрессии. Всего было задано пять шагов регрессии при $F_{вкл} = 1,15$ и $F_{искл} = 1$ . Результаты расчетов представлены в табл. 3.4-3.6.

Таблица 3.4

Таблица 3.5

Таблица 3.6

Результаты расчетов показывают, что хотя некоторые переменные $x_{5}, x_{5}x_{6}$ имеют незначимые уровни значимости ( p-level > 0,05 ), их желательно оставить в уравнении регрессии, так как при их включении прирост коэффициента детерминации $R^{2 }$ составил 0,193364, т.е. 20% всего возможного диапазона изменения $R^{2}$ .

Выпишем полученное уравнение, сначала используя исходные переменные:

$y = 41,58457 - 0,06971x_{7} + 0,07299x_{2} - 0,68161x_{4} + 0,00919x_{5}x_{6} - 0,0603_{4}x_{5}.$

(3.36)

Составим таблицу наблюдаемых, расчетных значений и остатков урожайности семян люцерны (табл. 3.7).

Качество предсказания получилось посредственное: средняя абсолютная ошибка предсказания равна 1,0; средняя относительная ошибка равна почти 30%.

Рассмотрим вопрос о ранжировании факторов по силе их влияния на формирование урожая. Для этого необходимо переписать уравнение (3.36) через стандартизированные факторы вида .

Таблица 3.7

Кроме того, следует отметить, что в пакете STATISTICA коэффициенты модели со стандартизированными факторами приводятся в графе BETA таблицы REGRESSION SUMMARY (см. табл. 3.6). Стандартизированный коэффициент регрессии $\beta _{i}$ показывает, на сколько величин $S_{y}$ изменится в среднем зависимая переменная y при увеличении переменной $x_{i}$ на $S_{xi}$ . Имеем

$Y_{станд }= -0,39681x_{7} + 0,92041x_{2 }- 1,31915x_{4} + 2,34582x_{5}x_{6} - 1,40422x_{5}.$

(3.37)

Из свойств уравнения в стандартизированных переменных заключаем, что наибольшее влияние на выходную переменную при изменении каждого фактора на величину $S_{xi}$ окажет фактор $x_{5}$ в отдельности и в сочетании факторов $x_{5}x_{6}$ . Следующий по силе влияния - фактор $x_{4}$ , затем фактор $x_{2 }$ и, наконец, фактор $x_{7}$ .

По уравнению (3.37) можно ранжировать факторы по силе влияния на . Количественно сравнить силу этого влияния можно, используя коэффициенты эластичности модели . Коэффициенты эластичности показывают, на сколько процентов от среднего значения изменится зависимая переменная при увеличении переменной $x_{i}$ на 1%. Вычислим коэффициенты эластичности каждого фактора. Для этого вычислим в модуле Basic Statistic пакета STATISTICA средние факторов и зависимой переменной y (табл. 3.8).

Таблица 3.8.
Факторы	Средние	Факторы	Средние
$x_{1}$	358,50	$x_{1}x_{2}$	26 806,33
$x_{2}$	69,08	$x_{2}x_{3}$	1 321,17
$x_{3i}$	18,85	$x_{3}x_{4}$	1 282,14
$x_{4}$	67,98	$x_{4}x_{5}$	7 126,24
$x_{5}$	102,13	$x_{5}x_{6}$	1 557,70
$x_{6}$	16,42	$x_{6}x_{7}$	938,42
$x_{7}$	58,33		4,37