Опубликован: 11.08.2009 | Уровень: для всех | Доступ: платный
Лекция 10:

Вероятностно-статистические методы принятия решений

Классификация эконометрических инструментов может быть проведена по различным основаниям: по методам, по виду данных, по решаемым задачам и т.п. В частности, при классификации по методам целесообразно выделять следующие блоки:

1.1. Описание данных и их графическое представление.

1.2. Углубленный вероятностно-статистический анализ.

1.3. Поддержка экспертных исследований.

1.4. Методы сценариев и анализа рисков.

При классификации на основе вида данных эконометрические алгоритмы естественно делить по тому, каков вид данных "на входе":

2.1. Числа.

2.2. Конечномерные вектора.

2.3. Функции (временные ряды).

2.4. Объекты нечисловой природы.

Наиболее интересна классификация по тем задачам контроллинга, для решения которых используются эконометрические методы. При таком подходе могут быть выделены блоки:

3.1. Поддержка прогнозирования и планирования.

3.2. Слежение за контролируемыми параметрами и обнаружение отклонений.

3.3. Поддержка принятия решений, и др.

От каких факторов зависит частота использования тех или иных эконометрических инструментов контроллинга? Как и при иных применениях эконометрики, основных групп факторов два - это решаемые задачи и квалификация специалистов.

При практическом применении эконометрических методов в работе контроллера необходимо применять соответствующие программные системы. Могут быть полезны и общие статистические системы типа SPSS, Statgraphics, Statistica, ADDA, и более специализированные Statcon, SPC, NADIS, REST (по статистике интервальных данных), Matrixer и многие другие. Массовое внедрение удобных в работе программных продуктов, включающих современные эконометрические инструменты анализа конкретных экономических данных, можно рассматривать как один из эффективных способов ускорения научно-технического прогресса, распространение современных эконометрических знаний.

Эконометрика постоянно развивается. Прикладные исследования приводят к необходимости более глубокого анализа классических методов.

Хорошим примером для обсуждения являются методы проверки однородности двух выборок. Есть две совокупности, и надо решить, различаются они или совпадают. Для этого из каждой из них берут по выборке и применяют тот или иной статистический метод проверки однородности. Около 100 лет назад был предложен метод Стьюдента, широко применяемый и сейчас. Однако он имеет целый букет недостатков. Во-первых, согласно Стьюденту распределения элементов выборок должны быть нормальными (гауссовыми). Как правило, это не так. Во вторых, он нацелен на проверку не однородности в целом (т.н. абсолютной однородности, т.е. совпадения функций распределения, соответствующих двум совокупностям), а только на проверку равенства математических ожиданий. Но, в-третьих, при этом обязательно предполагается, что дисперсии для элементов двух выборок совпадают. Однако проверять равенство дисперсий, а тем более нормальность, гораздо труднее, чем равенство математических ожиданий. Поэтому критерий Стьюдента обычно применяют, не делая таких проверок. А тогда и выводы по критерию Стьюдента повисают в воздухе.

Более продвинутые в теории специалисты обращаются к другим критериям, например, к критерию Вилкоксона. Он является непараметрическим, т.е. не опирается на предположение нормальности. Но и он не лишен недостатков. С его помощью нельзя проверить абсолютную однородность (совпадение функций распределения, соответствующих двум совокупностям). Это можно сделать только с помощью т.н. состоятельных критериев, в частности, критериев Смирнова и типа омега-квадрат.

С практической точки зрения критерий Смирнова обладает недостатком - его статистика принимает лишь небольшое число значений, ее распределение сосредоточено в небольшом числе точек, и не удается пользоваться традиционными уровнями значимости 0,05 и 0,01.

Термин "высокие статистические технологии" . В термине "высокие статистические технологии" каждое из трех слов несет свою смысловую нагрузку.

"Высокие", как и в других областях, означает, что технология опирается на современные достижения теории и практики, в частности, теории вероятностей и прикладной математической статистики. При этом "опирается на современные научные достижения" означает, во-первых, что математическая основа технологии в рамках соответствующей научной дисциплины получена сравнительно недавно, во-вторых, что алгоритмы расчетов разработаны и обоснованы в соответствии с нею (а не являются т.н. "эвристическими"). Со временем, если новые подходы и результаты не заставляют пересмотреть оценку применимости и возможностей технологии, заменить ее на более современную, "высокая эконометрическая технология" переходят в "классическую статистическую технологию". Такую, как метод наименьших квадратов. Итак, высокие статистические технологии - плоды недавних серьезных научных исследований. Здесь два ключевых понятия - "молодость" технологии (во всяком случае, не старше 50 лет, а лучше - не старше 10 или 30 лет) и опора на "высокую науку".

Термин "статистические" привычен, но имеет много оттенков. Известно более 200 определений термина "статистика".

Наконец, сравнительно редко используемый применительно к статистике термин "технологии". Анализ данных, как правило, включает в себя целый ряд процедур и алгоритмов, выполняемых последовательно, параллельно или по более сложной схеме. В частности, можно выделить следующие типовые этапы:

  • планирование статистического исследования;
  • организация сбора данных по оптимальной или хотя бы рациональной программе (планирование выборки, создание организационной структуры и подбор команды специалистов, подготовка кадров, которые будут заниматься сбором данных, а также контролеров данных и т.п.);
  • непосредственный сбор данных и их фиксация на тех или иных носителях (с контролем качества сбора и отбраковкой ошибочных данных по соображениям предметной области);
  • первичное описание данных (расчет различных выборочных характеристик, функций распределения, непараметрических оценок плотности, построение гистограмм, корреляционных полей, различных таблиц и диаграмм и т.д.),
  • оценивание тех или иных числовых или нечисловых характеристик и параметров распределений (например, непараметрическое интервальное оценивание коэффициента вариации или восстановление зависимости между откликом и факторами, т.е. оценивание функции),
  • проверка статистических гипотез (иногда их цепочек - после проверки предыдущей гипотезы принимается решение о проверке той или иной последующей гипотезы),
  • более углубленное изучение, т.е. применение различных алгоритмов многомерного статистического анализа, алгоритмов диагностики и построения классификации, статистики нечисловых и интервальных данных, анализа временных рядов и др.;
  • проверка устойчивости полученных оценок и выводов относительно допустимых отклонений исходных данных и предпосылок используемых вероятностно-статистических моделей, допустимых преобразований шкал измерения, в частности, изучение свойств оценок методом размножения выборок;
  • применение полученных статистических результатов в прикладных целях (например, для диагностики конкретных материалов, построения прогнозов, выбора инвестиционного проекта из предложенных вариантов, нахождения оптимального режима осуществления технологического процесса, подведения итогов испытаний образцов технических устройств и др.),
  • составление итоговых отчетов, в частности, предназначенных для тех, кто не является специалистами в эконометрических и статистических методах анализа данных, в том числе для руководства - "лиц, принимающих решения".

Возможны иные структуризации статистических технологий. Важно подчеркнуть, что квалифицированное и результативное применение статистических методов - это отнюдь не проверка одной отдельно взятой статистической гипотезы или оценка параметров одного заданного распределения из фиксированного семейства. Подобного рода операции - только кирпичики, из которых складывается здание статистической технологии. Между тем учебники и монографии по статистике и эконометрике обычно рассказывают об отдельных кирпичиках, но не обсуждают проблемы их организации в технологию, предназначенную для прикладного использования. Переход от одной статистической процедуры к другой остается в тени.

Проблема "стыковки" статистических алгоритмов требует специального рассмотрения, поскольку в результате использования предыдущего алгоритма зачастую нарушаются условия применимости последующего. В частности, результаты наблюдений могут перестать быть независимыми, может измениться их распределение и т.п.

Например, при проверке статистических гипотез большое значение имеют уровень значимости и мощность. Методы их расчета и использования при проверке одной гипотезы обычно хорошо известны. Если же сначала проверяется одна гипотеза, а потом с учетом результатов ее проверки - вторая, то итоговая процедура, которую также можно рассматривать как проверку некоторой (более сложной) статистической гипотезы, имеет характеристики (уровень значимости и мощность), которые, как правило, нельзя просто выразить через характеристики двух составляющих гипотез, а потому они обычно неизвестны. В результате итоговую процедуру нельзя рассматривать как научно обоснованную, она относится к эвристическим алгоритмам. Конечно, после соответствующего изучения, например, методом Монте-Карло, она может войти в число научно обоснованных процедур прикладной статистики.

Итак, процедура эконометрического или статистического анализа данных - это информационный технологический процесс, другими словами, та или иная информационная технология. В настоящее время об автоматизации всего процесса эконометрического (статистического) анализа данных говорить было бы несерьезно, поскольку имеется слишком много нерешенных проблем, вызывающих дискуссии среди специалистов.

Весь арсенал используемых в настоящее время статистических методов можно распределить по трем потокам:

  • высокие статистические технологии;
  • классические статистические технологии,
  • низкие статистические технологии.

Необходимо обеспечить, чтобы в конкретных исследованиях использовались только технологии первых двух типов. При этом под классическими статистическими технологиями понимаем технологии почтенного возраста, сохранившие научную ценность и значение для современной статистической практики. Таковы метод наименьших квадратов, статистики Колмогорова, Смирнова, омега-квадрат, непараметрические коэффициенты корреляции Спирмена и Кендалла и многие другие.

Специалистов-эконометриков у нас на порядок меньше, чем в США и Великобритании (Американская статистическая ассоциация включает более 20000 членов). России необходимо обучение новых специалистов - эконометриков.

Какие бы новые научные результаты ни были получены, если они остаются неизвестными студентам, то новое поколение исследователей и инженеров вынуждено осваивать их, действуя по одиночке, а то и переоткрывать. Несколько огрубляя, можно сказать так: те подходы, идеи, результаты, факты, алгоритмы, которые попали в учебные курсы и соответствующие учебные пособия - сохраняются и используются потомками, те, которые не попали - пропадают в пыли библиотек.

Точки роста. Выделяют пять актуальных направлений, в которых развивается современная прикладная статистика, т.е. пять "точек роста": непараметрика, робастность, бутстреп, интервальная статистика, статистика объектов нечисловой природы. Кратко обсудим эти актуальные направления.

Непараметрика, или непараметрическая статистика, позволяет делать статистические выводы, оценивать характеристики распределения, проверять статистические гипотезы без слабо обоснованных предположений о том, что функция распределения элементов выборки входит в то или иное параметрическое семейство. Например, широко распространена вера в то, что статистические данные часто подчиняются нормальному распределению. Однако анализ конкретных результатов наблюдений, в частности, погрешностей измерений, показывает, что в подавляющем большинстве случаев реальные распределения существенно отличаются от нормальных. Некритическое использование гипотезы нормальности часто приводит к значительным ошибкам, например, при отбраковке резко выделяющихся результатов наблюдений (выбросов), при статистическом контроле качества и в других случаях. Поэтому целесообразно использовать непараметрические методы, в которых на функции распределения результатов наблюдений наложены лишь весьма слабые требования. Обычно предполагается лиш ь их непрерывность. К настоящему времени с помощью непараметрических методов можно решать практически тот же круг задач, что ранее решался параметрическими методами.

Основная идея работ по робастности (устойчивости): выводы должны мало меняться при небольших изменениях исходных данных и отклонениях от предпосылок модели. Здесь есть два круга задач. Один - это изучение устойчивости распространенных алгоритмов анализа данных. Второй - поиск робастных алгоритмов для решения тех или иных задач.

Сам по себе термин "робастность" не имеет однозначного смысла. Всегда необходимо указывать конкретную вероятностно-статистическую модель. При этом модель "засорения" Тьюки-Хубера-Хампеля обычно не является практически полезной. Она ориентирована на "утяжеление хвостов", а в реальных ситуациях "хвосты обрезаются" априорными ограничениями на результаты наблюдений, связанными, например, с используемыми средствами измерения.

Бутстреп - направление непараметрической статистики, опирающееся на интенсивное использование информационных технологий. Основная идея состоит в "размножении выборок", т.е. в получении набора из многих выборок, напоминающих полученную в эксперименте. По такому набору можно оценить свойства различных статистических процедур. Простейший способ "размножения выборки" состоит в исключении из нее одного результата наблюдения. Исключаем первое наблюдение, получаем выборку, похожую на исходную, но с объемом, уменьшенным на 1. Затем возвращаем исключенный результат первого наблюдения, но исключаем второе наблюдение. Получаем вторую выборку, похожую на исходную. Затем возвращаем результат второго наблюдения, и т.д. Есть и иные способы "размножения выборок". Например, можно по исходной выборке построить ту или иную оценку функции распределения, а затем методом статистических испытаний смоделировать ряд выборок из элементов, функция распределения которых совпадает с этой оценкой.

Интервальная статистика - это анализ интервальных статистических данных. Вполне очевидно, что все средства измерения имеют погрешности. Однако до недавнего времени это очевидное обстоятельство никак не учитывалось в статистических процедурах. Только недавно начала развиваться теория интервальной статистики (см. предыдущую главу). В ней предполагается, что исходные данные - это не числа, а интервалы.

Статистика объектов нечисловой природы. Перейдем к статистике объектов нечисловой природы (она же - статистика нечисловых данных, или нечисловая статистика).

Исходный объект в прикладной статистике - это выборка, т.е. совокупность независимых одинаково распределенных случайных элементов. Какова природа этих элементов? В классической математической статистике элементы выборки - это числа или вектора. А в нечисловой статистике элементы выборки - это объекты нечисловой природы, которые нельзя складывать и умножать на числа. Другими словами, объекты нечисловой природы лежат в пространствах, не имеющих векторной структуры.

Михаил Агапитов
Михаил Агапитов

Не могу найти  требования по оформлению выпускной контрольной работы по курсу профессиональной переподготовки "Менеджмент предприятия"

Подобед Александр
Подобед Александр

Я нажал кнопку "начать курс" и почти его уже закончил, но для получения диплома на бумаге, нужно его же оплатить? Как оплатить? 

Александр Кулаков
Александр Кулаков
Россия, Челябинск
Максим Овцин
Максим Овцин
Россия, Санкт-Петербург, НИУ ИТМО