Опубликован: 16.12.2009 | Уровень: для всех | Доступ: платный
Лекция 5:

Многомерный статистический анализ

Основы линейного регрессионного анализа

В предыдущем пункте метод наименьших квадратов описан в простейшем случае. Он допускает различные обобщения. Например, метод наименьших квадратов дает алгоритм расчетов в случае, если исходные данные - по-прежнему набор n пар чисел (t_k , x_k), k = 1,2,\dots,n, где t_k - независимая переменная (например, время), а x_k - зависимая (например, индекс инфляции - см. "Эконометрический анализ инфляции" ), а восстанавливать надо не линейную зависимость, а квадратическую:

x(t)=at^2+bt+c

Следует рассмотреть функцию трех переменных

f(a,b,c)= \sum_{k=1}^n(x_k-at_k^2-bt_k-c)^2

Оценки метода наименьших квадратов - это такие значения параметров a*, b* и с*, при которых функция f(a,b,с) достигает минимума по всем значениям аргументов. Чтобы найти эти оценки, надо вычислить частные производные от функции f(a,b,с) по аргументам a, b и с, приравнять их 0, затем из полученных уравнений найти оценки: Имеем:

\frac{df(z,b,c)}{da}= \sum_{k=1}^n \frac{d}{da}(x_k-at_k^2-bt_k-c)^2=\sum_{k=1}^n 2(-t_k^2)(x_k-at_k^2-bt_k-c)^2

Приравнивая частную производную к 0, получаем линейное уравнение относительно трех неизвестных параметров a,b,c:

a\sum_{k=1}^nt_k^4+b\sum_{k=1}^nt_k^3+c\sum_{k=1}^nt_k^2=\sum_{k=1}^nt_k^2x_k

Приравнивая частную производную по параметру b к 0, аналогичным образом получаем уравнение

a\sum_{k=1}^nt_k^3+b\sum_{k=1}^nt_k^2+c\sum_{k=1}^nt_k=\sum_{k=1}^nt_kx_k

Наконец, приравнивая частную производную по параметру с к 0, получаем уравнение

a\sum_{k=1}^nt_k^2+b\sum_{k=1}^nt_k+cn=\sum_{k=1}^nx_k

Решая систему трех уравнений с тремя неизвестными, находим оценки метода наименьших квадратов.

Другие задачи, рассмотренные в предыдущем пункте (доверительные границы для параметров и прогностической функции и др.), также могут быть решены. Соответствующие алгоритмы более громоздки. Для их записи полезен аппарат матричной алгебры (см., например, одну из лучших в этой области монографий [2]). Для реальных расчетов используют соответствующие компьютерные программы.

Раздел многомерного статистического анализа, посвященный восстановлению зависимостей, называется регрессионным анализом. Термин "линейный регрессионный анализ" используют, когда рассматриваемая функция линейно зависит от оцениваемых параметров (от независимых переменных зависимость может быть произвольной). Теория оценивания неизвестных параметров хорошо развита именно в случае линейного регрессионного анализа. Если же линейности нет и нельзя перейти к линейной задаче, то, как правило, хороших свойств от оценок ожидать не приходится.

Продемонстрируем подходы в случае зависимостей различного вида. Если зависимость имеет вид многочлена (полинома)

x(t)=a_0+a_1t+a_2t^2+a_3t^3+\dots+a_mt^m

то коэффициенты многочлена могут быть найдены путем минимизации функции

f(a_0, a_1, a_2, a_3, \dots, a_m)= \sum_{k=1}^n(x_k-a_0-a_1t_k-a_2t_k^2-a_3t_k^3- \dots - a_mt_k^m)^2)

Функция от t не обязательно должна быть многочленом. Можно, например, добавить периодическую составляющую, соответствующую сезонным колебаниям. Хорошо известно, например, что инфляция (рост потребительских цен) имеет четко выраженный годовой цикл - в среднем цены быстрее всего растут зимой, в декабре - январе, а медленнее всего (иногда в среднем даже падают) летом, в июле - августе. Пусть для определенности

x(t)=a_0+a_1t+a_2t^2+a_3t^3+ \dots +a_mt^m+A \sin Bt

тогда неизвестные параметры могут быть найдены путем минимизации функции

f(a_0, a_1, a_2, a_3, \dots, a_m, A, B)= \sum_{k=1}^n(x_k-a_0-a_1t_k-a_2t_k^2-a_3t_k^3- \dots -a_mt_k^m-A \sin Bt_k)^2

Пусть I(t) -индекс инфляции в момент t. Принцип стабильности условий приводит к гипотезе о постоянстве темпов роста средних цен, т.е. индекса инфляции. Таким образом, естественная модель для индекса инфляции - это

I(t)=Ae^{Bt}

Эта модель не является линейной, метод наименьших квадратов непосредственно применять нельзя. Однако если прологарифмировать обе части предыдущего равенства:

\ln I(t)= \ln A+Bt

то получим линейную зависимость, рассмотренную в первом пункте настоящей лекции.

Независимых переменных может быть не одна, а несколько. Пусть, например, по исходным данным (x_k, y_k, z_k), k=1,2,\dots, n требуется оценить неизвестные параметры a и b в зависимости

z=ax+by+ \epsilon

где \epsilon - погрешность. Это можно сделать, минимизировав функцию

f(a,b)= \sum_{k=1}^n (z_k-ax_k-by_k)^2

Зависимость от х и у не обязательно должна быть линейной. Предположим, что из каких-то соображений известно, что зависимость должна иметь вид

z=ax+by+cx^2y+dxy+ey^3+ \epsilon

тогда для оценки пяти параметров необходимо минимизировать функцию

f(a,b,c,d,e)= \sum_{k=1}^n (z_k-ax_k-by_k-cx_k^2y_k-dx_ky_k-ey_k^3)^2

Более подробно рассмотрим пример из микроэкономики. В одной из оптимизационных моделей поведения фирмы используется т.н. производственная функция f(K,L) , задающая объем выпуска в зависимости от затрат капитала K и труда L . В качестве конкретного вида производственной функции часто используется так называемая функция Кобба-Дугласа

f(K,L)=K_{\alpha}L_{\beta}

Однако откуда взять значения параметров \alpha и \beta? Естественно предположить, что они - одни и те же для предприятий отрасли. Поэтому целесообразно собрать информацию (f_k, K_k, L_k) k=1,2, \dots, n где f_k - объем выпуска на k -ом предприятии, K_k - объем затрат капитала на k -ом предприятии, L_k - объем затрат труда на k -ом предприятии (в кратком изложении здесь не пытаемся дать точных определений используемым понятиям из экономики предприятия). По собранной информации естественно попытаться оценить параметры \alpha и \beta. Но они входят в зависимость нелинейно, поэтому сразу применить метод наименьших квадратов нельзя. Помогает логарифмирование:

\ln f(K, L)-\alpha \ln K+ \beta \ln L

Следовательно, целесообразно сделать замену переменных

x_k=\ln K_k, y_k= \ln L_k, x_k= \ln f_k, k=1,2,\dots, n

а затем находить оценки параметров \alpha и \beta, минимизируя функцию

g(\alpha, \beta)\ \sum_{k=1}^n (x_k-\alpha x_k - \beta y_k)^2

Найдем частные производные:

\frac{dg(\alpha, \beta)}{d \alpha}= \sum_{k=1}^n 2(x_k-\alpha x_k - \beta y+k)(-y_k)\frac{dg(\alpha, \beta)}{d \beta}= \sum_{k=1}^n 2(z_k-\alpha x_k- \beta y_k)(-y_k)

Приравняем частные производные к 0, сократим на 2, раскроем скобки, перенесем свободные члены вправо. Получим систему двух линейных уравнений с двумя неизвестными:

\alpha \sum_{k=1}^n x_ky_k+ \beta \sum_{k=1}^n y_{\pi}^2= \sum_{k=1}^n y_kz_k,\\
\alpha \sum_{k=1}^n x_k^2 + \beta \sum_{k=1}^n x_ky_k= \sum_{k=1}^n x_kz_k

Таким образом, для вычисления оценок метода наименьших квадратов необходимо найти пять сумм

\sum_{k=1}^n x_k^2, \sum_{k=1}^n x_ky_k, \sum_{k=1}^n y_k^2, \sum_{k=1}^n x_kz_k, \sum_{k=1}^n y_kz_k

Для упорядочения расчета этих сумм может быть использована таблица типа той, что применялась в первом пункте настоящей лекции. Отметим, что рассмотренная там постановка переходит в разбираемую сейчас при y_k=1, k=1,2,\dots, n

Дмитрий Лямин
Дмитрий Лямин
Анна Корнева
Анна Корнева

Подскажите, пожалуйста, помимо самого обучения 1 руб. и отправки диплома по почте (за пересылку), ещё нужно платить за оформление самого диплома или удостоверения?

Ирина Симонян
Ирина Симонян
Армения, Ереван, ЕГУ, 1998
Дмитрий Степаненко
Дмитрий Степаненко
Россия