Опубликован: 10.09.2016 | Уровень: для всех | Доступ: платный
Лекция 3:

Множественная регрессия

3.6. Доверительный интервал для функции регрессии и для индивидуальных значений зависимой переменной

В предыдущей главе нами был получен доверительный интервал для уравнения парной регрессии. К сожалению, полученная нами формула (2.25) допускает тривиальное обобщение на случай многих переменных только для ортогональных факторов Х_{0}, Х_{1}, \dots , Х_{k}. Дело в том, что информационную матрицу Х в случае парного регрессионного анализа всегда можно ортогонализовать, перейдя от вектора Х_{1} к вектору \tilde{X} _{1} = X_{1} - X. Тем не менее оценка расчетного значения зависимой переменной при некотором фиксированном наборе исходных данных Х_{0} приводит к следующей расчетной формуле:

[Y1_{x^*} - t \gamma (n - k - 1)S(Y1_{x^*}); Y1_{x^*} + t \gamma (n - k - 1)S(Y1_{x^*})], (3.25)

где


(3.26)
- среднее квадратическое отклонение Y1_{x^*}.

Из равенства Y_{x^* }= Y1_{x^*} + \varepsilon _{x^*} и независимости случайных величин Y1_{x^*}, \varepsilon _{x^*} получаем аналогичный доверительный интервал для индивидуальных (исходных) значений зависимой переменной Y_{x^*}:

[Y_{x^*} - t \gamma (n - k - 1)S(Y_{x^*}); Y_{x^*} + t \gamma (n - k - 1)S(Y_{x^*})], (3.27)

где


(3.28)

3.7. Выбор наилучшего набора переменных. Частный коэффициент корреляции

Опыт использования методов регрессионного анализа показывает, что адекватность описания объекта исследования зависит от выбора предсказывающих переменных. Например, для успешного прогнозирования урожайности нужно выбрать наиболее информативные агрометеорологические, почвенные и социально-технологические факторы. Обычно у исследователя имеется в распоряжении несколько десятков факторов, реально влияющих на сельскохозяйственные культуры. Но модель, построенная по всем факторам, как правило, имеет плохие прогнозирующие свойства.

Ранее отмечалось, что для оценки качества модели можно использовать коэффициент детерминации R^{2}, который численно выражает долю дисперсии переменной выхода, объясненную с помощью регрессионного уравнения. Однако для получения наилучшего набора переменных этот коэффициент мало пригоден.

Во-первых, при включении новой переменной в модель коэффициент детерминации R^{2} либо остается практически неизменным, либо увеличивается. Во-вторых, R^{2} зависит от крутизны поверхности регрессии. В одномерном случае при увеличении угла наклона прямой регрессии к оси абсцисс величина R^{2} может быть близка к единице при плохом качестве прогноза по уравнению регрессии. Наконец, R^{2}_{выб} является смещенной оценкой для R^{2}_{ист}. При R^{2}_{ист} математическое ожидание R^{2}_{выб} равно


где

k - число переменных в регрессионной модели,
N - число наблюдений.

Поэтому при значениях k, близких к объему выборки N, можно получить значение R^{2}_{выб}, близкое к единице, хотя R^{2}_{ист} = 0. Все это заставляет искать другие критерии для поиска наилучшего набора переменных регрессионной модели.

Рассмотрим показатель статистической связи между двумя переменными, называемый частным коэффициентом корреляции. Во многих задачах, в том числе экономических, агрометеорологических факторы, как правило, сильно коррелируют, и выделить "чистое" влияние на переменную выхода каждой независимой переменной трудно. С целью выделения этого влияния и вычисляют частный коэффициент корреляции как меру линейной связи между зависимой переменной Y и какой-либо одной из переменных x_{0}, x_{1}, \dots, x_{k} после удаления влияния на эту связь всех остальных переменных.

Рассмотрим один из способов построения частного коэффициента корреляции. Допустим, изучается линейная связь между переменными x_{1}, x_{2}, y и требуется найти коэффициент корреляции между зависимой переменной y и независимой переменной x_{1}, "очищенный" от влияния переменной x_{2}.

Вычислим парные коэффициенты корреляции r_{yx1}, r_{yx2}, r_{x1x2} и рассмотрим разность

\eta = r _{yx1} - r _{yx2}r_{x1x2}. (3.29)

Если переменные y и x_{1} не коррелируют с x_{2}, то \eta = r_{yx1}. Оценивать зависимость с помощью разности (3.29) неудобно. Поэтому ее нормируют так, чтобы получившийся коэффициент был в пределах от -1 до +1. В этом случае получаем выражение


(3.30)

Величина R_{yx_{1} \cdot x_{2}} - частный коэффициент корреляции величин y и x_{1} без учета влияния x_{2}. Если требуется устранить влияние на y двух переменных x_{2} и x_{3}, то по формуле (3.30) вычисляем предварительно коэффициенты r_{yx_{1}\cdotx_{2}}, r_{yx_{3}\cdotx_{2}}, r_{yx_{1}x_{3}\cdotx_{2}}, а затем коэффициент


(3.31)

который отражает зависимость между y и x_{1} без учета влияния x_{2 } и x_{3}. Аналогично поступают в случае любого числа переменных. Можно показать, что коэффициент частной корреляции показывает тесноту связи результирующего признака с одним из факторов при неизменном уровне других факторов. Если оценивается теснота связи между y и xi без учета влияния x_{1}, x_{2}, \dots , x_{i} - 1, x_{i} + 1, \dots x_{k}, то коэффициент частной корреляции может быть рассчитан по формуле


(3.32)

где


- множественный коэффициент детерминации всех факторов с результатом;

- множественный коэффициент детерминации модели без i-го фактора.

Рассмотрим еще один способ расчета частных коэффициентов корреляции, основанный на вычислении корреляционной матрицы выборочных коэффициентов корреляции


(3.33)

Выборочным частным коэффициентом корреляции между y и x_{i} без учета влияния x_{1}, x_{2}, \dots , x_{i} - 1, x_{i} + 1, \dots , x_{k}, является выражение


где Q_{yxi}, Q_{yy}, Q_{ii} - алгебраические дополнения элементов r_{yxi}, r_{yy} = 1, r_{ii} = 1 матрицы Q_{k}.

Частные коэффициенты корреляции имеют те же свойства, что и обычные. При выборе наилучшей модели с их помощью определяют, какая переменная оказывает на переменную выхода наибольшее влияние. Для того чтобы выяснить, существенно ли это влияние, используют различные критерии проверки гипотезы о равенстве нулю некоторых коэффициентов регрессии. Можно, например, воспользоваться F-критерием, который в данном случае называют частным F-критерием. Если изучается влияние переменной x_{i}, входящей в модель с коэффициентом b_{i}, то основная гипотеза имеет следующий вид: H_{0}/\beta _{i} = 0.

Инесса Воробьева
Инесса Воробьева

В дисциплине "Основы эконометрики" тест 6 дается по теме 7.

Вера Борисова
Вера Борисова
Россия
Студентик Студент
Студентик Студент
Россия