Опубликован: 10.09.2016 | Уровень: для всех | Доступ: платный
Лабораторная работа № 3 1:

Лабораторная работа № 3: Мультиколлинеарность

Отбор наиболее существенных объясняющих переменных

регрессионной модели

Исследуется зависимость урожайности зерновых культур УРОЖ (ц/га) от ряда переменных, характеризующих различные факторы сельскохозяйственного производства. Рассмотрены следующие факторы:

  1. ЧИС_ТРАК - число тракторов (приведенной мощности) на 100 га;
  2. ЧИС_КОМ - число зерноуборочных комбайнов на 100 га;
  3. ЧИС_ОР_П - число орудий поверхностной обработки почвы на 100 га;
  4. КОЛ_УДОБ - количество удобрений, вносимых на гектар (т/га);
  5. КОЛ_ХИМ - количество химических средств защиты растений, расходуемых на гектар (ц/га).

Исходные данные по 20 сельскохозяйственным районам приведены в табл. 1.

Таблица 1


Требуется исследовать зависимость урожайности от перечисленных факторов.

Для этого следует рассмотреть влияние на зависимую переменную всех переменных и, отобрав наиболее значимые, построить уравнение регрессии. В случае обнаружения мультиколлинеарности использовать методы, позволяющие уменьшить ее влияние.

Отчет по лабораторной работе № 3

Представлены исходные данные (табл. 2), дескриптивные статистики (табл. 3) и матрица коэффициентов корреляции признаков (табл. 4).

Таблица 2


Таблица 3


Таблица 4


Уравнение множественной регрессии имеет вид

УРОЖ = 3,515 - 0,006 ЧИС_ТРАК +15,542 ЧИС_КОМ +
(с. о) (5,42) (0,93) (21,5)
+ 0,110 ЧИС_ОР_П + 4,475 КОЛ_УДОБ - 2,933 КОЛ_ХИМ,
(0,83) (1,54) (3,09)

R^{2} = 0,517.

Полученное уравнение регрессии (табл. 5) значимо на стандартном 5%-ном уровне (p = 0,047) и объясняет примерно 52% вариации зависимой переменной при пяти объясняющих переменных, включенных в модель. Однако это уравнение не позволяет оценить вклад каждой входящей в него переменной, поскольку все они, кроме переменной КОЛ_УДОБ, не значимы. Такое положение является следствием мультиколлинеарности, вызванной тесной корреляционной связью между переменными регрессионного уравнения. В этом можно убедиться, анализируя матрицу парных коэффициентов корреляции (см. табл. 4).

Для устранения мультиколлинеарности можно применить процедуру пошагового отбора переменных. Рассмотрим два подхода, реализованных в пакете STATISTICA:

  1. последовательного присоединения переменных (Forward stepwise);
  2. последовательного удаления (исключения) переменных (Baskward stepwise).

Таблица 5


На первом шаге процедуры Forward stepwise (табл. 6) в модель была включена переменная КОЛ_УДОБ, имеющая с результирующей переменной УРОЖ наибольший квадрат коэффициента корреляции - R^{2} = 0,333 (rYX = 0,577).

Таблица 6


На втором шаге (табл. 7) добавлена переменная ЧИС_ОР_П. Полученное уравнение, также как и первое, значимо на стандартном 5%-ном уровне. Все коэффициенты входящих в уравнение переменных значимо отличны от нуля.

Таблица 7


Сравнивая полученное уравнение с предыдущим, отметим, что возросло не только значение коэффициента детерминации (R^{2} = 0,482), но и значение скорректированного коэффициента (R^{2}_{adj} = 0,421), что весьма существенно. При этом стандартные ошибки уравнений регрессии различаются мало - 1,6573 и 1,5027. Общий ход выполнения пошаговой процедуры включения отражен в табл. 8.

Таблица 8


На шаге 0 пошаговой процедуры последовательного удаления (исключения) переменных (Backward stepwise) рассматривается уравнение регрессии, включающее весь набор исходных переменных (табл. 9).

Таблица 9


Все последующие шаги этой процедуры приведены в соответствующих таблицах:

шаг 1 - в табл. 10;

шаг 2 - в табл. 11;

шаг 3 - в табл. 12;

шаг 4 - в табл. 13.

Таблица 10


Таблица 11


Таблица 12


Таблица 13


Общий ход выполнения пошаговой процедуры исключения отражен в табл. 14 и на рис. 1.

Таблица 14



Рис. 1.

На графике (см. рис. 1) представлены значения скорректированного коэффициента детерминации , полученные в ходе выполнения процедуры пошагового удаления переменных. Наилучшим вариантом следует признать тот, при котором достигается наибольшее значение скорректированного коэффициента детерминации, т.е. вариант, полученный на шаге 2. Это уравнение имеет вид:

УРОЖ = 1,980 + 21,801 ЧИС_КОМ + 4,614 КОЛ_УДОБ - 3,380 КОЛ_ХИМ, R^{2} = 0,513.
(с. о) (2,50) (8,96) (1,38) (2,57)

Стандартизированное уравнение регрессии для этого набора переменных выглядит следующим образом:

УРОЖ = 0,505 ЧИС_КОМ + 0,751 КОЛ_УДОБ - 0,329 КОЛ_ХИМ.

Анализ коэффициентов этого уравнения позволяет сравнить степени влияния на результирующий показатель объясняющих переменных. Так, влияние переменной КОЛ_УДОБ (количество удобрений, вносимых на гектар) на величину урожая при постоянных средних значениях других показателей примерно в 1,5 раза выше, чем переменной ЧИС_КОМ (число комбайнов). Влияние переменной КОЛ_ХИМ (количество химических средств защиты растений, расходуемых на гектар) интерпретировать не следует ввиду незначимости этого показателя в уравнении регрессии. Отметим, что при проведении пошаговой процедуры включения эта объясняющая переменная не была включена в регрессионную модель.

Результаты расчета коэффициентов толерантности и детерминации, полученные в ходе пошаговых процедур, представлены в табл. 15.

Таблица 15


Анализ табл. 15 позволяет судить об избыточности входящих в уравнение переменных. Так, две первые переменные довольно слабо связаны со всеми остальными. Об этом свидетельствует коэффициент множественной детерминации связи этих переменных со всем набором остальных переменных. И наоборот, последние три переменные имеют довольно тесную связь со всеми другими переменными, что и обусловливает наличие мультиколлинеарности (Toleran = 1 - R-square).

Аналогичный вывод позволяет сделать анализ частных коэффициентов корреляции (Partial Cor.). Первые две переменные имеют более тесную связь с зависимой переменной, чем остальные три переменные.

Инесса Воробьева
Инесса Воробьева

В дисциплине "Основы эконометрики" тест 6 дается по теме 7.

Вера Борисова
Вера Борисова
Россия
Студентик Студент
Студентик Студент
Россия