Опубликован: 16.12.2009 | Уровень: для всех | Доступ: платный
Лекция 8:

Статистика нечисловых данных

Аннотация: Много внимания уделяется различным объектам нечисловой природы, в том числе бинарным отношениям, нечетким и случайным множествам. Рассматриваются вероятностные модели различных видов объектов нечисловой природы, в том числе модели парных сравнений. Описываются непараметрические оценки плотности, законы больших чисел и состоятельность статистических оценок в пространствах произвольной природы.
Ключевые слова: бинарным отношением, нечеткое множество, шкала измерений, отношение эквивалентности, класс эквивалентности, регрессионными зависимостями, строгие порядки, функция принадлежности, Построение математической модели, fuzzy set, теоретико-множественные операции, оценка максимального правдоподобия, репрезентативность, шкала отношений, дискретное распределение, контролируемые параметры, процесс обработки данных, линейная функция, адекватность модели, метода наименьших квадратов, частичный порядок, разность множеств, факторный анализ, лингвистическая переменная, вероятностная модель, испытание Бернулли, евклидово пространство, евклидово расстояние, линейное пространство, отношение правдоподобия, линейная модель, монотонно возрастающей, монотонно убывающей, технико-экономические показатели, элементарное события, мышца, условная вероятность, кластерный анализ, робастность, регрессионный анализ, тождественное преобразование, АСУ, прикладная математика, выборочной средней, декартово произведение множества, объем выборки, задачу аппроксимации, математическое обеспечение, метод статистических испытаний, пересечение множеств, метод Монте-Карло, вычислительный эксперимент, дискретная случайная величина, центр кластера, показатель размытости, обратная функция

Статистика нечисловых данных - это направление в эконометрике, в котором в качестве исходных статистических данных (результатов наблюдений) рассматриваются объекты нечисловой природы. Так принято называть объекты, которые нецелесообразно описывать числами, в частности элементы нелинейных пространств. Примерами являются бинарные отношения (ранжировки, разбиения, толерантности и др.), результаты парных и множественных сравнений, множества, нечеткие множества, измерение в шкалах, отличных от абсолютных. Этот перечень примеров не претендует на законченность. Он складывался постепенно в соответствии с развитием теоретических исследований в области статистики нечисловых данных и расширением опыта применений этого направления эконометрики.

Объекты нечисловой природы широко используются в теоретических и прикладных исследованиях по экономике, менеджменту и другим проблемам управления, в частности управления качеством продукции, в технических науках, социологии, психологии, медицине и т.д., а также практически во всех отраслях народного хозяйства.

Объекты нечисловой природы

Начнем с первоначального знакомства с основными видами объектов нечисловой природы.

Результаты измерений в шкалах, отличных от абсолютной. Рассмотрим конкретное исследование в области маркетинга образовательных услуг, послужившее поводом к развитию отечественных исследований по теории измерений (см. "Основы теории измерений" ). При изучении привлекательности различных профессий для выпускников новосибирских школ был составлен список из 30 профессий. Опрашиваемых просили оценить каждую из этих профессий одним из баллов 1,2,...,10 по правилу: чем больше нравится, тем выше балл. Для получения социологических выводов необходимо было дать единую оценку привлекательности определенной профессии для совокупности выпускников школ. В качестве такой оценки в работе [1] использовалось среднее арифметическое баллов, выставленных профессии опрошенными школьниками. В частности, физика получила средний балл 7,69, а математика - 7,50. Поскольку 7,69 больше, чем 7,50, был сделан вывод, что физика более предпочтительна для школьников, чем математика.

Однако этот вывод противоречит данным работы [2], согласно которым ленинградские школьники средних классов больше любят математику, чем физику. Обсудим одно из возможных объяснений этого противоречия, которое сводится к указанию на неадекватность (с точки зрения теории измерений) методики обработки эконометрических данных, примененной в работе [1].

Дело в том, что баллы 1,2,...,10 введены конкретными исследователями, т.е. субъективно. Если одна профессия оценена в 10 баллов, а вторая - в 2, то из этого нельзя заключить, что первая ровно в 5 раз привлекательней второй. Другой коллектив социологов мог бы принять иную систему баллов, например 1,4,9,16,...,100. Естественно предположить , что упорядочивание профессий по привлекательности, присущее школьникам, не зависит от того, какой системой баллов им предложит пользоваться маркетолог. Раз так, то распределение профессий по градациям десятибалльной системы не изменится, если перейти к другой системе баллов с помощью любого допустимого преобразования в порядковой шкале (см. "Основы теории измерений" ), т.е. с помощью строго возрастающей функции g;R^I \to R^I Если , Y_1, Y_2, \dots,Y_n -ответы n выпускников школ, касающихся математики, а Z_1, Z_2, \dots, Z_n -физики, то после перехода к новой системе баллов ответы относител ьно математики будут иметь вид g(Y_1), g(Y_2), \dots, g(Y_n) , а относительно физики - g(Z_1), g(Z_2), \dots, g(Z_n) .

Пусть единая оценка привлекательности профессии вычисляется с помощью функции f(X_1, X_2, \dots, X_n) . Какие требования естественно наложить на функцию э f;R^n \to R^I чтобы полученные с ее помощью выводы не зависели от того, какой именно системой баллов пользовался специалист по маркетингу образовательных услуг?

Замечание. Обсуждение можно вести в терминах экспертных оценок. Тогда вместо сравнения математики и физики n экспертов (а не выпускников школ) оценивают по конкурентоспособности на мировом рынке, например, две марки стали. Однако в настоящее время маркетинговые и социологические исследования более привычны, чем экспертные.

Единая оценка вычислялась для того, чтобы сравнивать профессии по привлекательности. Пусть f(X_1, X_2, \dots, X_n) - среднее по Коши. Пусть среднее по первой совокупности меньше среднего по второй совокупности:

f(Y_1, Y_2, \dots, Y_n) <  f(Z_1, Z_2, \dots, Z_n ).

Тогда согласно теории измерений необходимо потребовать, чтобы для любого допустимого преобразования g из группы допустимых преобразований в порядковой шкале было справедливо также неравенство

f(g(Y_1), g(Y_2), \dots, g(Y_n)) <  f(g(Z_1), g(Z_2), \dots, g(Z_n)).

т.е. среднее преобразованных значений из первой совокупности также было меньше среднего преобразованных значений для второй совокупности. Причем сформулированное условие должно быть верно для любых двух совокупностей Y_1, Y_2, \dots,Y_n и Z_1, Z_2, \dots, Z_n и, напомним, любого допустимого преобразования. Средние величины, удовлетворяющие сформулированному условию, называют допустимыми (в порядковой шкале). Согласно теории измерений только такими средними можно пользоваться при анализе мнений выпускников школ, экспертов и иных данных, измеренных в порядковой шкале.

Какие единые оценки привлекательности профессий f(X_1, X_2, \dots, X_n) устойчивы относительно сравнения? Ответ на этот вопрос дан в "Основы теории измерений" . В частности, оказалось, что средним арифметическим, как в работе [1] новосибирских специалистов по маркетингу образовательных услуг, пользоваться нельзя, а порядковыми статистиками, т.е. членами вариационного ряда (и только ими) - можно.

Методы анализа конкретных экономических данных, измеренных в шкалах, отличных от абсолютной, являются предметом изучения в статистике нечисловых данных как части эконометрики. Как известно, основные шкалы измерения делятся на качественные (шкалы наименований и порядка) и количественные (шкалы интервалов, отношений, разностей, абсолютная). Методы анализа статистических данных в количественных шкалах сравнительно мало отличаются от таковых в абсолютной шкале. Добавляется только требование инвариантности относительно преобразований сдвига и/или масштаба. Методы анализа качественных данных - принципиально иные. О них пойдет речь в настоящей лекции.

Напомним, что исходным понятием теории измерений является совокупность Ф=\{\varphi \} допустимых преобразований шкалы (обычно Ф - группа), \varphi:R^1 \to R^1. Алгоритм обработки данных W, т.е. функция W:R^n \to A (здесь A -множество возможных результатов работы алгоритма) называется адекватным в шкале с совокупностью допустимых преобразований Ф, если

W(x_1, x_2, \dots, x_n)=W(\varphi(x_1), \varphi(x_2), \dots, \varphi(x_n))

для всех x_i \in R^1, i= 1, 2, \dots, n и всех \varphi \in Ф Таким образом, теорию измерений рассматриваем как теорию инвариантов относительно различных совокупностей допустимых преобразований Ф. Интерес вызывают две задачи:

  • дана группа допустимых преобразований Ф (т.е. задана шкала); какие алгоритмы анализа данных W из определенного класса являются адекватными?
  • дан алгоритм анализа данных W ; для каких шкал (т.е. групп допустимых преобразований Ф ) он является адекватным?

В "Основы теории измерений" первая задача рассматривалась для алгоритмов расчета средних величин. Информацию о других результатах решения задач указанных типов можно найти в работах [3], [4], [5].

Михаил Агапитов
Михаил Агапитов

Не могу найти  требования по оформлению выпускной контрольной работы по курсу профессиональной переподготовки "Менеджмент предприятия"

Подобед Александр
Подобед Александр

Я нажал кнопку "начать курс" и почти его уже закончил, но для получения диплома на бумаге, нужно его же оплатить? Как оплатить? 

Ирина Симонян
Ирина Симонян
Армения, Ереван, ЕГУ, 1998
Дмитрий Степаненко
Дмитрий Степаненко
Россия