Опубликован: 11.08.2009 | Уровень: для всех | Доступ: платный
Лекция 10:

Вероятностно-статистические методы принятия решений

Классификация эконометрических инструментов может быть проведена по различным основаниям: по методам, по виду данных, по решаемым задачам и т.п. В частности, при классификации по методам целесообразно выделять следующие блоки:

1.1. Описание данных и их графическое представление.

1.2. Углубленный вероятностно-статистический анализ.

1.3. Поддержка экспертных исследований.

1.4. Методы сценариев и анализа рисков.

При классификации на основе вида данных эконометрические алгоритмы естественно делить по тому, каков вид данных "на входе":

2.1. Числа.

2.2. Конечномерные вектора.

2.3. Функции (временные ряды).

2.4. Объекты нечисловой природы.

Наиболее интересна классификация по тем задачам контроллинга, для решения которых используются эконометрические методы. При таком подходе могут быть выделены блоки:

3.1. Поддержка прогнозирования и планирования.

3.2. Слежение за контролируемыми параметрами и обнаружение отклонений.

3.3. Поддержка принятия решений, и др.

От каких факторов зависит частота использования тех или иных эконометрических инструментов контроллинга? Как и при иных применениях эконометрики, основных групп факторов два - это решаемые задачи и квалификация специалистов.

При практическом применении эконометрических методов в работе контроллера необходимо применять соответствующие программные системы. Могут быть полезны и общие статистические системы типа SPSS, Statgraphics, Statistica, ADDA, и более специализированные Statcon, SPC, NADIS, REST (по статистике интервальных данных), Matrixer и многие другие. Массовое внедрение удобных в работе программных продуктов, включающих современные эконометрические инструменты анализа конкретных экономических данных, можно рассматривать как один из эффективных способов ускорения научно-технического прогресса, распространение современных эконометрических знаний.

Эконометрика постоянно развивается. Прикладные исследования приводят к необходимости более глубокого анализа классических методов.

Хорошим примером для обсуждения являются методы проверки однородности двух выборок. Есть две совокупности, и надо решить, различаются они или совпадают. Для этого из каждой из них берут по выборке и применяют тот или иной статистический метод проверки однородности. Около 100 лет назад был предложен метод Стьюдента, широко применяемый и сейчас. Однако он имеет целый букет недостатков. Во-первых, согласно Стьюденту распределения элементов выборок должны быть нормальными (гауссовыми). Как правило, это не так. Во вторых, он нацелен на проверку не однородности в целом (т.н. абсолютной однородности, т.е. совпадения функций распределения, соответствующих двум совокупностям), а только на проверку равенства математических ожиданий. Но, в-третьих, при этом обязательно предполагается, что дисперсии для элементов двух выборок совпадают. Однако проверять равенство дисперсий, а тем более нормальность, гораздо труднее, чем равенство математических ожиданий. Поэтому критерий Стьюдента обычно применяют, не делая таких проверок. А тогда и выводы по критерию Стьюдента повисают в воздухе.

Более продвинутые в теории специалисты обращаются к другим критериям, например, к критерию Вилкоксона. Он является непараметрическим, т.е. не опирается на предположение нормальности. Но и он не лишен недостатков. С его помощью нельзя проверить абсолютную однородность (совпадение функций распределения, соответствующих двум совокупностям). Это можно сделать только с помощью т.н. состоятельных критериев, в частности, критериев Смирнова и типа омега-квадрат.

С практической точки зрения критерий Смирнова обладает недостатком - его статистика принимает лишь небольшое число значений, ее распределение сосредоточено в небольшом числе точек, и не удается пользоваться традиционными уровнями значимости 0,05 и 0,01.

Термин "высокие статистические технологии" . В термине "высокие статистические технологии" каждое из трех слов несет свою смысловую нагрузку.

"Высокие", как и в других областях, означает, что технология опирается на современные достижения теории и практики, в частности, теории вероятностей и прикладной математической статистики. При этом "опирается на современные научные достижения" означает, во-первых, что математическая основа технологии в рамках соответствующей научной дисциплины получена сравнительно недавно, во-вторых, что алгоритмы расчетов разработаны и обоснованы в соответствии с нею (а не являются т.н. "эвристическими"). Со временем, если новые подходы и результаты не заставляют пересмотреть оценку применимости и возможностей технологии, заменить ее на более современную, "высокая эконометрическая технология" переходят в "классическую статистическую технологию". Такую, как метод наименьших квадратов. Итак, высокие статистические технологии - плоды недавних серьезных научных исследований. Здесь два ключевых понятия - "молодость" технологии (во всяком случае, не старше 50 лет, а лучше - не старше 10 или 30 лет) и опора на "высокую науку".

Термин "статистические" привычен, но имеет много оттенков. Известно более 200 определений термина "статистика".

Наконец, сравнительно редко используемый применительно к статистике термин "технологии". Анализ данных, как правило, включает в себя целый ряд процедур и алгоритмов, выполняемых последовательно, параллельно или по более сложной схеме. В частности, можно выделить следующие типовые этапы:

  • планирование статистического исследования;
  • организация сбора данных по оптимальной или хотя бы рациональной программе (планирование выборки, создание организационной структуры и подбор команды специалистов, подготовка кадров, которые будут заниматься сбором данных, а также контролеров данных и т.п.);
  • непосредственный сбор данных и их фиксация на тех или иных носителях (с контролем качества сбора и отбраковкой ошибочных данных по соображениям предметной области);
  • первичное описание данных (расчет различных выборочных характеристик, функций распределения, непараметрических оценок плотности, построение гистограмм, корреляционных полей, различных таблиц и диаграмм и т.д.),
  • оценивание тех или иных числовых или нечисловых характеристик и параметров распределений (например, непараметрическое интервальное оценивание коэффициента вариации или восстановление зависимости между откликом и факторами, т.е. оценивание функции),
  • проверка статистических гипотез (иногда их цепочек - после проверки предыдущей гипотезы принимается решение о проверке той или иной последующей гипотезы),
  • более углубленное изучение, т.е. применение различных алгоритмов многомерного статистического анализа, алгоритмов диагностики и построения классификации, статистики нечисловых и интервальных данных, анализа временных рядов и др.;
  • проверка устойчивости полученных оценок и выводов относительно допустимых отклонений исходных данных и предпосылок используемых вероятностно-статистических моделей, допустимых преобразований шкал измерения, в частности, изучение свойств оценок методом размножения выборок;
  • применение полученных статистических результатов в прикладных целях (например, для диагностики конкретных материалов, построения прогнозов, выбора инвестиционного проекта из предложенных вариантов, нахождения оптимального режима осуществления технологического процесса, подведения итогов испытаний образцов технических устройств и др.),
  • составление итоговых отчетов, в частности, предназначенных для тех, кто не является специалистами в эконометрических и статистических методах анализа данных, в том числе для руководства - "лиц, принимающих решения".

Возможны иные структуризации статистических технологий. Важно подчеркнуть, что квалифицированное и результативное применение статистических методов - это отнюдь не проверка одной отдельно взятой статистической гипотезы или оценка параметров одного заданного распределения из фиксированного семейства. Подобного рода операции - только кирпичики, из которых складывается здание статистической технологии. Между тем учебники и монографии по статистике и эконометрике обычно рассказывают об отдельных кирпичиках, но не обсуждают проблемы их организации в технологию, предназначенную для прикладного использования. Переход от одной статистической процедуры к другой остается в тени.

Проблема "стыковки" статистических алгоритмов требует специального рассмотрения, поскольку в результате использования предыдущего алгоритма зачастую нарушаются условия применимости последующего. В частности, результаты наблюдений могут перестать быть независимыми, может измениться их распределение и т.п.

Например, при проверке статистических гипотез большое значение имеют уровень значимости и мощность. Методы их расчета и использования при проверке одной гипотезы обычно хорошо известны. Если же сначала проверяется одна гипотеза, а потом с учетом результатов ее проверки - вторая, то итоговая процедура, которую также можно рассматривать как проверку некоторой (более сложной) статистической гипотезы, имеет характеристики (уровень значимости и мощность), которые, как правило, нельзя просто выразить через характеристики двух составляющих гипотез, а потому они обычно неизвестны. В результате итоговую процедуру нельзя рассматривать как научно обоснованную, она относится к эвристическим алгоритмам. Конечно, после соответствующего изучения, например, методом Монте-Карло, она может войти в число научно обоснованных процедур прикладной статистики.

Итак, процедура эконометрического или статистического анализа данных - это информационный технологический процесс, другими словами, та или иная информационная технология. В настоящее время об автоматизации всего процесса эконометрического (статистического) анализа данных говорить было бы несерьезно, поскольку имеется слишком много нерешенных проблем, вызывающих дискуссии среди специалистов.

Весь арсенал используемых в настоящее время статистических методов можно распределить по трем потокам:

  • высокие статистические технологии;
  • классические статистические технологии,
  • низкие статистические технологии.

Необходимо обеспечить, чтобы в конкретных исследованиях использовались только технологии первых двух типов. При этом под классическими статистическими технологиями понимаем технологии почтенного возраста, сохранившие научную ценность и значение для современной статистической практики. Таковы метод наименьших квадратов, статистики Колмогорова, Смирнова, омега-квадрат, непараметрические коэффициенты корреляции Спирмена и Кендалла и многие другие.

Специалистов-эконометриков у нас на порядок меньше, чем в США и Великобритании (Американская статистическая ассоциация включает более 20000 членов). России необходимо обучение новых специалистов - эконометриков.

Какие бы новые научные результаты ни были получены, если они остаются неизвестными студентам, то новое поколение исследователей и инженеров вынуждено осваивать их, действуя по одиночке, а то и переоткрывать. Несколько огрубляя, можно сказать так: те подходы, идеи, результаты, факты, алгоритмы, которые попали в учебные курсы и соответствующие учебные пособия - сохраняются и используются потомками, те, которые не попали - пропадают в пыли библиотек.

Точки роста. Выделяют пять актуальных направлений, в которых развивается современная прикладная статистика, т.е. пять "точек роста": непараметрика, робастность, бутстреп, интервальная статистика, статистика объектов нечисловой природы. Кратко обсудим эти актуальные направления.

Непараметрика, или непараметрическая статистика, позволяет делать статистические выводы, оценивать характеристики распределения, проверять статистические гипотезы без слабо обоснованных предположений о том, что функция распределения элементов выборки входит в то или иное параметрическое семейство. Например, широко распространена вера в то, что статистические данные часто подчиняются нормальному распределению. Однако анализ конкретных результатов наблюдений, в частности, погрешностей измерений, показывает, что в подавляющем большинстве случаев реальные распределения существенно отличаются от нормальных. Некритическое использование гипотезы нормальности часто приводит к значительным ошибкам, например, при отбраковке резко выделяющихся результатов наблюдений (выбросов), при статистическом контроле качества и в других случаях. Поэтому целесообразно использовать непараметрические методы, в которых на функции распределения результатов наблюдений наложены лишь весьма слабые требования. Обычно предполагается лиш ь их непрерывность. К настоящему времени с помощью непараметрических методов можно решать практически тот же круг задач, что ранее решался параметрическими методами.

Основная идея работ по робастности (устойчивости): выводы должны мало меняться при небольших изменениях исходных данных и отклонениях от предпосылок модели. Здесь есть два круга задач. Один - это изучение устойчивости распространенных алгоритмов анализа данных. Второй - поиск робастных алгоритмов для решения тех или иных задач.

Сам по себе термин "робастность" не имеет однозначного смысла. Всегда необходимо указывать конкретную вероятностно-статистическую модель. При этом модель "засорения" Тьюки-Хубера-Хампеля обычно не является практически полезной. Она ориентирована на "утяжеление хвостов", а в реальных ситуациях "хвосты обрезаются" априорными ограничениями на результаты наблюдений, связанными, например, с используемыми средствами измерения.

Бутстреп - направление непараметрической статистики, опирающееся на интенсивное использование информационных технологий. Основная идея состоит в "размножении выборок", т.е. в получении набора из многих выборок, напоминающих полученную в эксперименте. По такому набору можно оценить свойства различных статистических процедур. Простейший способ "размножения выборки" состоит в исключении из нее одного результата наблюдения. Исключаем первое наблюдение, получаем выборку, похожую на исходную, но с объемом, уменьшенным на 1. Затем возвращаем исключенный результат первого наблюдения, но исключаем второе наблюдение. Получаем вторую выборку, похожую на исходную. Затем возвращаем результат второго наблюдения, и т.д. Есть и иные способы "размножения выборок". Например, можно по исходной выборке построить ту или иную оценку функции распределения, а затем методом статистических испытаний смоделировать ряд выборок из элементов, функция распределения которых совпадает с этой оценкой.

Интервальная статистика - это анализ интервальных статистических данных. Вполне очевидно, что все средства измерения имеют погрешности. Однако до недавнего времени это очевидное обстоятельство никак не учитывалось в статистических процедурах. Только недавно начала развиваться теория интервальной статистики (см. предыдущую главу). В ней предполагается, что исходные данные - это не числа, а интервалы.

Статистика объектов нечисловой природы. Перейдем к статистике объектов нечисловой природы (она же - статистика нечисловых данных, или нечисловая статистика).

Исходный объект в прикладной статистике - это выборка, т.е. совокупность независимых одинаково распределенных случайных элементов. Какова природа этих элементов? В классической математической статистике элементы выборки - это числа или вектора. А в нечисловой статистике элементы выборки - это объекты нечисловой природы, которые нельзя складывать и умножать на числа. Другими словами, объекты нечисловой природы лежат в пространствах, не имеющих векторной структуры.

Михаил Агапитов
Михаил Агапитов

Не могу найти  требования по оформлению выпускной контрольной работы по курсу профессиональной переподготовки "Менеджмент предприятия"

Подобед Александр
Подобед Александр

Я нажал кнопку "начать курс" и почти его уже закончил, но для получения диплома на бумаге, нужно его же оплатить? Как оплатить? 

Вячеслав Гримальский
Вячеслав Гримальский
Россия
Михаил Байков
Михаил Байков
Россия, Москва, Московский Авиационный Институт, 2009