Опубликован: 16.11.2010 | Уровень: специалист | Доступ: платный
Лекция 6:

Обработка результатов имитационного эксперимента

Аннотация: В настоящей лекции рассматриваются наиболее актуальные для инженерной практики понятия и математические методы обработки данных, полученных в соответствии с целью исследования с помощью имитационной модели.
Ключевые слова: ПО, степень связи, связь, статистика, дисперсия, интервал, значение, индекс, функция, определение, Гистограмма, диапазон, прямоугольник, площадь, гипотеза, сравнительные оценки, точность, дисперсионный анализ, Числа Эйлера, график, случайная величина, вероятность, критическая точка, числитель, место, инверсия, время задержки, анализ, контролируемые параметры, автомат, ошибка второго рода, вывод, множества, исключение, аргумент, LIFO, FIFO, однофакторный анализ, парная корреляция, координаты, переменная, качественное исследование, коэффициент корреляции, равенство, нормальное распределение, выражение, регрессионными зависимостями, объект, черный ящик, полином, коэффициенты, коэффициент регрессии, аппроксимация, производные, математическим ожиданием, оценка адекватности, среднее абсолютное отклонение, разность, линейная модель, нелинейная модель, excel, алгоритм

Современные системы имитационного моделирования предоставляют возможность выполнять автоматически стандартную обработку результатов моделирования:

  • определение характеристик случайных параметров, главным образом, их матожиданий и дисперсий;
  • фиксация минимальных и максимальных значений исследуемых величин;
  • частотное распределение результатов измерений (построение гистограмм);
  • расчет коэффициентов использования объектов модели и др.

Часто инженеру приходится выполнять более сложную обработку:

  • определение функциональных или статистических зависимостей между исследуемыми величинами;
  • выявление существенных или несущественных факторов, участвующих в эксперименте;
  • сравнение случайных параметров процесса с целью определения значимости расхождения или совпадения их характеристик и др.

В наиболее развитых системах моделирования предусмотрены средства, обеспечивающие выполнение этих обработок. Но в любом случае инженер должен понимать сущность обработки, уметь правильно готовить исходные данные, грамотно интерпретировать результаты обработки. При наличии альтернатив обоснованно выбирать метод обработки и, при необходимости, разрабатывать соответствующие процедуры.

5.1. Характеристики случайных величин и процессов

В результате эксперимента с имитационной статистической моделью, состоящего из N наблюдений, мы получаем N значений исследуемой случайной величины a :

a_{1}, a_{2} , \ldots , a_{i} , \ldots , a_{N} .

По этим данным нужно дать всестороннее описание величины a.

Определить случайную величину - это значит определить ее характеристики. В общем случае:

\overline{\Theta} =\overline{\Theta} (a_1, a_{2},\ldots , a_{i},\ldots , a_{N}) ,

где \overline{\Theta} - оценка характеристики случайной величины. Под характеристикой понимают следующее.

Во-первых, это характеристика величины:

  • матожидание (среднее арифметическое);
  • медиана (срединное значение);
  • мода (наиболее вероятное значение);
  • среднее геометрическое и др.

В рамках задач, характерных для нашей профессии, наиболее актуальным является матожидание. Как известно, матожидание определяет центр рассеивания случайной величины, наиболее полно отмечающее ее положение на числовой оси. Будем обозначать матожидание случайной величины a так: M[a].

Во-вторых, это характеристики рассеивания:

  • дисперсия (матожидание квадрата отклонения случайной величины a );
  • среднее квадратическое отклонение (квадратный корень из дисперсии); иногда целесообразно пользоваться этой характеристикой, так как она имеет размерность самой случайной величины;
  • размах ( \max a_{i} - \min a_{i} ).

В-третьих, это характеристика связи между случайными величинами (корреляция); степень связи определяется величиной коэффициента корреляции r. В случайном процессе связь между значениями случайной функции в моменты времени t_{k}, t_{S} определяет коэффициент автокорреляции k (t_{k}, t_{S}).

В-четвертых, это характеристика закона распределения вероятностей случайной величины в виде плотности или функции распределения: f(a) или F(a) = \int\limits_{-\infty}^{a}{f(a) da}.

5.2. Требования к оценкам характеристик

Ограниченное число реализаций модели не позволяет точно определить значения этих характеристик, а только приближенно,

то есть так называемые оценки характеристик \Theta . Степень приближения оценок \overline{\Theta} зависит от методов их вычислений (формул). Поскольку \overline{\Theta} = \overline{\Theta}( a _{1}, a_{2},\ldots , a_{i},\ldots , a_{N} ) , где f_{i} - случайные значения искомого параметра, то величина \overline{\Theta} - случайная со своими значениями матожидания, дисперсии и т. п.

Как правило, математическая статистика может предложить разные формулы для вычисления оценки одной и той же характеристики. Следовательно, оценки могут быть более или менее точными или даже вовсе непригодными при имитационном моделировании.

Чтобы оценка наилучшим образом представляла искомую характеристику, нужно, чтобы она обладала следующими свойствами:

  • несмещенностью;
  • состоятельностью;
  • эффективностью.

Несмещенность. Это свойство означает, что оценка не содержит систематической ошибки. Т. е., математическое ожидание оценки совпадает с действительным значением характеристики \overline{\Theta}:

M[\overline{\Theta}] = M[\Theta].

Состоятельность. Это свойство означает, что оценка \overline{\Theta} приближается сколь угодно близко к истинному значению характеристики \Theta(M[\Theta]) по мере увеличения объема выборки, т. е. увеличения числа реализаций модели. Формально это свойство записывают так:

P( |\overline{\Theta}-M[\Theta]| < \varepsilon)\to 1

при N \to\infty и любом \varepsilon > 0.

Именно это свойство являлось определяющим при нахождении количественной связи между точностью, достоверностью оценок и числом реализаций модели.

Эффективность. Это свойство означает, что из всех несмещенных и состоятельных оценок следует предпочесть ту, у которой разброс значений меньше. Иначе: эффективной оценкой характеристики случайной величины называют ту, которая имеет наименьшую дисперсию:

D[\overline{\Theta}]= \min{\overline{\Theta}_k},

k - число возможных оценок.

В исследовании свойств оценок большая заслуга принадлежит англичанину Рональду А. Фишеру. Основные результаты он получил в 1912 г., когда ему было 22 года.

5.3. Оценка характеристик случайных величин и процессов

Наиболее используемые оценки характеристик приведены в табл. 5.1.

Таблица 5.1. Характеристики случайных величин и их оценки
Характеристика Оценка Среднее квадратическое отклонение оценки
Матожидание M[x]=\int\limits_{-\infty}^{-\infty}{xf(x)dx} \overline{x}=\cfrac{\sum\limits_{i=1}^N{x_i}}{N} \sigma_{\overline{x}} =\cfrac{S}{\sqrt{N}}
Дисперсия D[x]=M[x^{2}]-(M[x])^{2} S^2=\cfrac{1}{N-1}\sum\limits_{i=1}^N{(x_i-overline{x})^2} \sigma_{S^2} =\sqrt{\cfrac{2} {N}}S^2
Среднее квадратическое отклонение \sigma_{x} = \sqrt{D[x]} S=\sqrt{\cfrac{1}{N-1}\sum\limits_{i=1}^N{(x_i-\overline{x})^2}} \sigma_{S} =\cfrac{S} {\sqrt{2N}}
Вероятность события P \overline{P} =\cfrac{m}{N} \sigma_{\overline{P}}=\sqrt{\cfrac{P(1-P)}{N}}
Коэффициент корреляции Q_{x,y}=\cfrac{Cov(x,y)}{\sigma_{x}\sigma_{y}} \overline{r}_{xy}=\cfrac{\cfrac{1}{N}\sum\limits_{i=1}^{N}{(x_i-\overline{x})(y_i-\overline{y})}}{S_x S_y} \sigma_{\overline{r}}=\cfrac{1-\overline{r}^2_{xy}}{\sqrt{N}}

Все оценки несмещенные, состоятельные, эффективные.

Проблемами оценок занимался и Абрагам Вайльд, американский математик австрийского происхождения.

Приведем для иллюстрации два примера.

Пример 5.1. Оценка матожидания случайной величины a - среднее арифметическое

\overline{a}=\cfrac{\sum\limits_{i=1}^N{a_i}}{N}

является несмещенной, состоятельной и эффективной.

Оценка в виде медианы не является эффективной, так как дисперсия в этом случае

D[\overline{a}_m]=\cfrac{\pi\sigma_a^2}{2N}

в \cfrac{\pi}{2} раз больше дисперсии D[\overline{a}], равной, как известно, D[\overline{a}]=\cfrac{\sigma_a^2}{N}

Пример 5.2. Выборочная дисперсия случайной величины a

S^2=\cfrac{1}{N}\sum\limits_{i=1}^N{(a_i-\overline{a})^2}

состоятельна, эффективна, но смещена. Смещение образовалось из-за того, что вместо неизвестного M[a] в формуле стоит оценка \overline{a}.

Несмещенная оценка имеет вид:

S^2=\cfrac{1}{N-1}\sum\limits_{i=1}^N{(a_i-\overline{a})^2}

Иногда формулы для вычисления оценок матожидания и дисперсии используют в рекуррентной форме:

M[\overline{a}]_i= M[\overline{a}]_{i-1}\cfrac{i-1}{i}+\cfrac{a_i}{i},\\
S_i^2 = S_{i-1}^2\cfrac{i-1}{i}+\cfrac{\left ( a_i - M[\overline{a}]_i \right )^2}{i},

где M [\overline{a}]_i, M[\overline{a}]_{i-1},S^{2}_i, S^{2}_{i-1} - оценки матожидания и дисперсии, вычисленные по данным i и ( i -1 ) реализаций имитационной модели.

Приведенные в табл. 5.1 ,формулы соответствуют нормальному закону распределения вероятностей исследуемой величины.

При исследовании случайного процесса X(t) весь временной интервал (0,T) представляется последовательностью из M временных точек t_j, j = \overline{1, M}, в каждой из которых измеряется значение сечения x_i(t_{j} ). Индекс i - номер реализации случайного процесса, i = \overline{1, N}.

Полученные данные образуют матрицу сечений размером (M \times N), что и является моделью исследуемого процесса (табл. 5.2).

Таблица 5.2. Результаты исследования случайного процесса
Реализации Временные точки
t_1 t_2 \ldots t_j \ldots t_M
1 x_1(t_1) x_1(t_2) \ldots x_1(t_j) \ldots x_1(t_M)
2 x_2(t_1) x_2(t_2) \ldots x_2(t_j) \ldots x_2(t_M)
\ldots \ldots \ldots \ldots \ldots \ldots \ldots
i x_i(t_1) x_i(t_2) \ldots x_i(t_j) \ldots x_i(t_M)
\ldots \ldots \ldots \ldots \ldots \ldots \ldots
N x_N(t_1) x_N(t_2) \ldots x_N(t_j) \ldots x_N(t_M)

Совокупность сечений в каждой временной точке t_{j} (столбец матрицы), представляет собой случайные числа некоторой случайной величины в общем случае со своими законами распределения, матожиданиями, дисперсиями:

\overline{x}(t_j)=\cfrac{1}{N}\sum\limits_{i=1}^{N}{x_i(t_j)},\,\,
S^2_{x(t_j)}= \cfrac{1}{N}\sum\limits_{i=1}^{N}{[x_i(t_j) - \overline{x}(t_j)]^2}

При решении практических задач последовательности этих оценок матожиданий и дисперсий, определенных в точках t_{1}\ldots t_{M}, достаточно полно представляют моделируемый случайный процесс. Оценки матожиданий \overline{x}(t_j) и дисперсий S^{2}_{x(t_j)} можно аппроксимировать подходящими кривыми в предположении непрерывности процесса.

Иногда исследователя интересует связь сечений случайного процесса между собой. Степень зависимости между сечениями определяет автокорреляционная функция. Оценка ее имеет вид:

\overline{K}x(t_k,t_s) = \cfrac{1}{N}\sum\limits_{i=1}^{N}{[x_i(t_k) - \overline{x}(t_k)]\cdot [x_i(t_s) - \overline{x}(t_s)]} ( t_s)])

где x_{i} (t_{k}) и x_{i} (t_{s}) - значения сечений в точках t_{k} и t_{s} соответственно i -й реализации;

\overline{x}(t_{k}) и \overline{x}(t_{s}) - оценки матожиданий совокупности сечений в точках t_{k} и t_{s} соответственно.

Данные расчета значений автокорреляционной функции \overline{K}x (t_{k}, t_{s}), k = \overline{1, M}, s = \overline{1,M} помещают в таблицу, которая и является табличным определением ее. В случае необходимости данные таблицы могут быть представлены подходящей аппроксимирующей кривой.

Пример таблицы значений \overline{K}x (t_{k}, t_{s}) для случайного процесса,

определенного пятью сечениями (M = 5 ), показан в табл. 5.3.

Таблица 5.3. Значения автокорреляционной функции
Временные точки
t_1 t_2 t_3 t_4 t_5
t_1 \overline{K}x(t_1,t_1) \overline{K}x(t_1,t_2) \overline{K}x(t_1,t_3) \overline{K}x(t_1,t_4) \overline{K}x(t_1,t_5)
t_2 \overline{K}x(t_2,t_1) \overline{K}x(t_2,t_2) \overline{K}x(t_2,t_3) \overline{K}x(t_2,t_4) \overline{K}x(t_2,t_5)
t_3 \overline{K}x(t_3,t_1) \overline{K}x(t_3,t_2) \overline{K}x(t_3,t_3) \overline{K}x(t_3,t_4) \overline{K}x(t_3,t_5)
t_4 \overline{K}x(t_4,t_1) \overline{K}x(t_4,t_2) \overline{K}x(t_4,t_3) \overline{K}x(t_4,t_4) \overline{K}x(t_4,t_5)
t_5 \overline{K}x(t_5,t_1) \overline{K}x(t_5,t_2) \overline{K}x(t_5,t_3) \overline{K}x(t_5,t_4) \overline{K}x(t_5,t_5)

Очевидно, что рассчитывать все значения \overline{K}x (t_{k}, t_{s}) для заполнения таблицы (в данном примере их 25) не надо, так как значения K_{X} при t_{k} = t_{s} ("северо-западная диагональ") представляют собой значения соответствующих дисперсий. И \overline{K}x (t_{k}, t_{s})=\overline{K}x (t_{s}, t_{k}), что исключает необходимость расчета половины оставшихся значений коэффициентов автокорреляционной функции, расположенных выше или ниже упомянутой диагонали.

Владислав Нагорный
Владислав Нагорный

Подскажите, пожалуйста, планируете ли вы возобновление программ высшего образования? Если да, есть ли какие-то примерные сроки?

Спасибо!

Лариса Парфенова
Лариса Парфенова

1) Можно ли экстерном получить второе высшее образование "Программная инженерия" ?

2) Трудоустраиваете ли Вы выпускников?

3) Можно ли с Вашим дипломом поступить в аспирантуру?

 

Виктор Погула
Виктор Погула
Россия, Новокузнецк, СибГИУ, 2002
Анастасия Кузнецова
Анастасия Кузнецова
Россия