Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Химмельблау Д. Анализ процессов статистическими методами

.pdf
Скачиваний:
27
Добавлен:
27.10.2023
Размер:
31.74 Mб
Скачать

162

Глава

3

 

А

 

в

 

Прирост, %

Ранг

Прирост, %

Ранг

- 1 , 4

1

- 0 , 3

5

- 1 , 2

2,5

0,5

8

- 1 , 2

2,5

0,7

9

- 1 , 0

4

0,8

10

- 0 , 2

6

0,9

11

0,2

7

1,5

12

 

 

2,4

13

Сумма рангов

23

Сумма рангов

68

В этой таблице ранг каждого прироста, определенный по второй таблице, записан во втором столбце и пробегает значения от 1 до 13.

Один

из способов расчета

U*

состоит

в замене

наблюдений

во второй таблице символами

А

или В в

зависимости

от того,

из какой выборки взято данное наблюдение:

 

 

 

ААААВААВВВВВВ.

 

 

 

 

(а)

Число случаев, когда В предшествует

А, равно 2. Значение U*,

которое

меньше или равно 2,

можно

получить из

следующих

структур:

 

 

 

 

 

 

 

 

ААААААВВВВВВВ

 

 

U* = 0,

 

 

 

АААААВАВВВВВВ

 

 

U* =

1,

 

(б)

 

АААААВВАВВВВВ

 

 

U* = 2,

 

 

 

ААААВААВВВВВВ

 

 

U* =

2.

 

 

 

 

 

 

 

 

/6 +

7\

 

Полное число возможных структур равно

I g

I = 1716.

Следовательно, уровень значимости для одностороннего

критерия

гипотезы, утверждающей, что А равно или превышает В,

следует

выбрать порядка 4 / 1 7 і 6 . Иначе говоря,

вероятность того, что вели­

чина U* будет равна или меньше 2, равняется 0,0023.

Следова­

тельно, если в качестве приемлемого уровня значимости взять 0,05, то гипотезу об одинаковом влиянии двух катализаторов следует отвергнуть. Для двустороннего критерия нужно учесть четыре зеркально симметричные структуры со значениями U*, равными соответственно 40, 40, 41 и 42. Следовательно, уровень значимости для двустороннего критерия приблизительно равен 8/1716.

Вместо того чтобы подсчитывать структуры, как это делалось выше, значение U* проще можно установить по формулам (3.7.2) или (3.7.3). Затем по табл. В.6 приложения В можно получить

Статистический

анализ и его

применения

163

соответствующий уровень значимости; для этой цели можно также использовать формулу (3.7.4).

Из формулы (3.7.2)

Тх = 23, U* = 23 — 6 ' ( 6 + 1 ) = 2 .

Из формулы (3.7.3)

Ту = 68, U*= 7 ' ( 7 2 + 1 ) ' + 7 - 6 — 6 8 = 2.

Из табл. В.6 при m = 7, п = 6 и £/* = 2 получаем уровень значимости а, равный 0,002. Заметим, что при п = 8, m = 8 аппроксимация нормального распределения весьма точна.

3.7.3. Критерий Сиджела — Тъюки для

дисперсии

Этот непараметрический критерий [15] можно

использовать

вместо критерия F для проверки нулевой гипотезы,

утверждаю­

щей, что дисперсии двух исходных совокупностей,

представлен­

ных двумя независимыми выборками, одинаковы

(альтернативная

гипотеза утверждает, что они различны). Чтобы осуществить такую проверку, запишем результаты измерения в порядке возрастания, располагая наибольшее отрицательное значение сверху, а наи­ большее положительное — внизу таблицы. Отметим принадлеж­ ность каждого значения к выборке А или В. Припишем ранг 1 наименьшему значению, ранг 2 — наибольшему, ранг 3 — преды­ дущему наибольшему значению, ранг 4 — второму после наи­ меньшего значению, ранг 5 — третьему после наименьшего зна­ чению, ранг 6 — третьему перед наибольшим значению и т. д . г переворачивая таблицу каждый раз после приписывания рангов последовательной паре значений. Совпадения обрабатываются так,, как объяснялось в разд. 3.7.2.

После этого

ранги для выборок А и В суммируются и вычис­

ляется приближенная нормированная переменная Z с нормальным

законом распределения

(для большей точности Z

вычисляется

по таблицам):

 

 

 

 

\ R

w i ( r c i + r e 2 + l ) I

1

 

Z = * 1 г—-- 2

, J 2

« Л 2 > 10. * , > « ) ,

(3.7.5)

У12

где

щ ж пг — объемы

выборок,

ni < п2, a і?і — сумма

рангов

для

выборки объема

щ. Для

технических расчетов

выраже­

ние (3.7.5) обеспечивает необходимую точность даже в случае небольших выборок объемом меньше десяти.

164

Глава 3

Пример 3.7.3. Непараметричеекий критерий для дисперсии Вычислим ранги для данных из примера 3.7.2:

Значение

Выборка

Ранг

Значение

Выборка

Ранг

- 1 , 4

А

1

0,5

В

11

—1,2

А

4,5

0,7

В

10

—1,2

А

4,5

0,8

В

7

- 1 , 0

А

8

0,9

В

6

—0,3

В

9

1,5

в

3

- 0 , 2

А

12

2,4

в

2

0,2

А

13

 

 

 

Сумма

рангов для А равна 33; сумма

рангов для В равна 47.

Выборка

А меньше,

чем В,

так

что

 

 

 

 

 

 

і?! = 33,

tii — Q, п2

— 7,

 

 

 

 

/ 3 3 , 6 . ( 6 + 7 + l )

 

 

 

 

 

 

Z =

6-(6 + 7 +

1)-7

=

0,496.

 

 

 

 

 

 

 

 

 

 

 

 

 

12

 

 

 

 

Из

табл.

В.1

для нормированной

нормальной величины при

а =

0,05

имеем Z =

1,96;

следовательно,

нулевая

гипотеза,

утверждающая, что дисперсии АжВ

равны, принимается

(согласно

двустороннему

критерию).

 

 

 

 

 

 

 

 

3.7.4.

Критерии

стационарности

 

В этом подразделе описываются два непараметрических крите­ рия, которые можно использовать для того, чтобы убедиться, являются ли стационарными данные из одной временной диаграм­ мы. Если можно продемонстрировать стационарность для одной временной диаграммы, то для практических целей можно считать стационарным весь ансамбль. К тому же в действительности будет проверяться слабая стационарность, определенная в разд. 2.2.3. Возможность распространения понятия стационарности на другие параметры помимо среднего по ансамблю и автокорреляционных функций строго обоснована для случайной переменной, распре­ деленной по нормальному закону; это оказалось справедливым и для большинства других распределений, с которыми приходится сталкиваться на практике. Протяженность временной диаграммы, подвергающейся испытанию, конечно, должна быть достаточно велика, чтобы в ней отразился некий тренд (нестационарность), если он имеет место. На слишком короткой диаграмме нельзя обнаружить продолжительный тренд. Дл я проверки стационарно­ сти можно использовать как сериальные критерии, так и порядко­ вые критерии тренда.

Статистический

анализ и его

применения

165

Серией называется последовательность наблюдений, предше­ ствующая или следующая за другим наблюдением, чем-то отли­ чающимся от входящих в серию (либо следующая за перерывом в наблюдениях). Так, если знаками «+» и «—» обозначить соот­ ветственно значения переменных выше и ниже выборочной медиа­ ны, то в следующей последовательности

5

1

6

4

2

7

5

9

8

7

2

 

+

-

 

+

-

+

+

 

+

 

1

2

 

1

1

 

3

 

 

можно заметить

шесть

серий.

Однотипные

события могут

проявляться в необычно малом числе серий, структуре серий,

неожиданно

длинных сериях и других сериальных статисти­

ках, которые

можно использовать для

проверки случайности

расположения

структур по сравнению с

альтернативной гипо­

тезой последовательной зависимости. Разумным образом раз­

деляя события на

два типа (обозначенных выше знаками

+

и — ) , сериальный

критерий можно использовать не только

для

проверки последовательно выбранных значений случайной пере­ менной на некоторый тренд, но и для испытания многих других характеристик, которые нет необходимости рассматривать здесь. Недостатками сериальных критериев является то, что большинство из них являются слабыми (обладают малой мощностью) и неэффек­ тивными.

К р и т е р и й

В а л ь д а — В о л ь ф о в и т ц а

д л я

о б щ е г о ч и с л а

с е р и й . Этот критерий не обладает ни

большой мощностью, ни высокой эффективностью, но может

быть

использован для определения того, являются ли наблюдения

слу­

чайной переменной независимыми (если они независимы, то никакого тренда нет). Проводится ряд наблюдений и находится их выборочная медиана. Каждому наблюдению приписывается знак + или — в соответствии с тем, выше или ниже медианы его значение. Если картина расположения знаков + и — такова, что они распределяются случайным и независимым друг от друга способом (нулевая гипотеза), то не наблюдается никакого скопле­ ния. Краткая таблица для лежащей в основе этого критерия ста­ тистики U+ (числа серий) дана в приложении В (табл. В.7). Сред­ нее значение и дисперсия случайной величины £/+ равны

(3.7.6)

(3.7.7)

( и і + і г ) 2 (Иі + і г —1)

где щ — число плюсов, п2 — число минусов, а щ + п2 равно полному числу наблюдений. Следовательно, для выборок большого объема можно использовать приближенную нормированную пере-

166

 

Глава

3

 

менную с нормальным

законом

распределения

 

 

 

1С/+ — ^ (—-1'

 

 

Z =

-

±.

(3.7.8)

Обычно используется двусторонний критерий для данного зна­

чения а.

 

К р и т е р и й д л я с у м м ы к в а д р а т о в

д л и н .

Поскольку критерий Вальда — Вольфовитца непосредственно не учитывает длину серий, теряется существенная информация. Рамачандран и Ранганатан [16] предложили более мощный кри­ терий. Серия состоит из последовательности одинаковых знаков; например, в приводимой выше таблице было три серии длины 1, две серии длины 2 и одна серия длины 3. Статистикой N, исполь­

зуемой в данном критерии, является сумма

квадратов длин

серий, т. е.

 

 

 

 

 

 

W = 2 / 4 .

 

 

(3.7.9)

где / — длина серии,

are; — число серий длины /. Д л я приведен­

ной выше структуры

N = 3 - I 2 + 2 -22 +

1 -З2

=

20.

 

В табл. В.8 приведены значения Р {N

>• Na}

= а для

п,

равных половине числа значений во временной диаграмме, п ^

15.

Например, при п = 5 и а — 0,05 имеем Na

= 38; следовательно,

гипотеза, утверждающая, что в выборке отсутствует тренд, при­ нимается.

И н в е р с и я к а к к р и т е р и й л и н е й н о г о т р е н д а . Если в каком-либо ряду из п измерений, записанных в порядке их получения, за некоторым выбранным числом следует меньшее по величине, то говорят, что имеет место инверсия. Так, в после­ довательности

3 5 1 4 2 6

имеется шесть инверсий: за числом 3 следуют два меньших числа 1 и 2; за числом 5 следуют три меньших числа 1, 4 и 2; за числом 4 следует одно меньшее число 2. Если порядок чисел в последова­ тельности случаен, то каждая из п\ перестановок п чисел равно­ вероятна; априорная вероятность получения случайной последо­ вательности точно с / * инверсиями просто равна числу переста­ новок, содержащих I * инверсий, деленному на полное число возможных перестановок п\. Число случаев, когда за некоторым

числом в последовательности следуют большие числа,

является

дополнительным к / * и обозначается

Т*. В качестве третьей

меры

можно использовать S* = Т* — / * . Манн [17] составил

таблицы

для вероятностей получения точного значения Т* при 3 ^

п ^

10,

а Кендалл [18] — для вероятностей

S*.

 

 

Статистический анализ и его применения 167

Статистика

/ имеет

среднее значение и

дисперсию

 

 

 

 

(3.7.10)

 

 

 

2пЗ + Зп2-5п .

(3.7.11)

 

 

 

 

для больших

значений

п

можно использовать приближенную

нормированную

нормально

распределенную

переменную

 

 

 

VW*

(3.7.12)

 

 

 

 

(Для обеспечения непрерывности положительные числители сле­ дует уменьшить на Ѵг, а отрицательные — увеличить на 1 / 2 . ) Если имеют место совпадения и им приписан средний ранг, то

вместо таблиц

Т* и

/ * используют таблицы S*.

Критерии S*

и / *

основаны на предположениях, что наблю­

дения непрерывно распределенной переменной осуществляются независимо и произвольным образом. Критерий / * , используемый как критерий случайности, имеет асимптотическую эффективность (3/я)4 /з « 0,98 относительно критериев для коэффициента регрес­ сии (гл. 4 и 5); следовательно, по эффективности он равен или

превосходит

большинство других непараметрических

критериев

для тренда.

Нулевая гипотеза состоит в том, что

наблюдения

представляют

собой независимые наблюдения переменной X ,

если отсутствует какой-либо тренд; используется

двусторонний

критерий.

 

 

 

Д л я того

чтобы удостовериться, представлены

ли

на един­

ственной временной диаграмме стационарные данные, эту диа­ грамму разбивают на п интервалов равной длительности. Высоко­ частотные данные могут занимать смежные интервалы, однако низкочастотные данные требуют, чтобы между выбранными отрез­ ками диаграммы оставались некоторые промежутки. Простейший метод состоит в том, чтобы подсчитать среднее значение и средний квадрат для каждого из п интервалов и расположить полученные

значения во временной

последовательности:

ex)t

< 2 x > , . . . ,

cx),

m,

< 2 z 2 > , . . . ,

то,

где верхний индекс слева обозначает временной интервал, а сим­ вол ( ) означает усреднение по времени. Каждый из этих двух рядов значений можно испытать на тренд, как описано выше.

Предполагается, что если средний квадрат (или дисперсия) случайной переменной X стационарен, то автокорреляционная функция величины X также стационарна. (Среднее значение квадрата X (t) просто равно значению автокорреляционной Фѵнк-

168

Глава 3

ции при т = 0, г х х

(0).) Основанием для такого предположения

служит то, что было бы весьма удивительно, если бы автокорре­ ляционная функция некоторой нестационарной переменной изме­ нялась во времени для т > 0 и вместе с тем значение г х х (0) оставалось бы постоянным. Использование среднего квадрата резко сокращает объем вычислений. Однако для случая, когда это предположение несправедливо, Бендат и Пирсол [19] предло­

жили следующий метод, который позволяет

обнаружить тренд

в спектральной плотности и, следовательно, в

автокорреляционной

функции:

 

1. В выборочной диаграмме выделяются с смежных частотных интервалов с узкой полосой пропускания.

2.Каждый интервал разбивается на п интервалов равной длительности.

3.Вычисляется среднее значение квадрата для каждого вре­ менного интервала внутри каждого интервала частот, что дает всего сп средних по времени:

(пХ2),

(12Х2),

( 1 п Х 2 )

<2 1 Х2 ), (2 2 Х2 >, . . .,

(ШХ2)

(с1Х2),

(С2Х2), . . .,

(спХ2).

4. Проверяется на тренд временная последовательность в каж­ дом интервале частот; при этом требуется провести с проверок (плюс еще одна для среднего значения). Если хотя бы одна про­ верка дает отрицательный результат, это означает непринятие в целом нулевой гипотезы о стационарности на уровне значимости (ошибка первого рода) а ' = 1 — (1 — а ) 1 I е . Здесь а — уровень значимости, принятый для одного непараметрического критерия.

Пример 3.7.4.

Критерии стационарности

 

Временная

диаграмма

выхода

некоторого продукта разбита

на десять отрезков;

средний по

времени

выход (в процентах)

на каждом отрезке имеет

следующие значения:

 

Период

Среднее

Период

Среднее

 

по времени

по времени

 

 

 

 

1

36,5

6

32,6

 

2

43,0

7

38,7

 

3

44,5

 

41,7

 

4

38,9

 

41,1

 

5

38,1

10

36,8

Требуется проверить эти данные на стационарность при уровне значимости а == 0,05, используя критерий Вальда — Вольфовитца и критерий инверсии.

Статистический

анализ и его

применения

Решение

К р и т е р и й В а л ь д а — В о л ь ф о в и т ц а . Рассмот­ рев эту последовательность, находим, что медиана для десяти значений равна Ѵ2 (38,7 + 38,9) = 38,8. Значениям, превышаю­ щим 38,8, приписываем знак + , а значениям ниже 38,8 знак —, что дает следующую структуру:

- I + + + !

 

I + + I -

 

Всего здесь пять

серий

и

=

пг = 5. Д л я а =

0,05 из

табл. В.7 имеем £/і+ _а /2

= 2 и

Ua/2 =

9; следовательно,

гипотеза,

утверждающая, что в этих данных отсутствует тренд, прини­ мается.

К р и т е р и й

и н в е р с и й .

Вычислим

статистику / * ,

т. е, число случаев,

когда

за некоторым

числом

следует меньшее

число.

 

 

 

 

 

Значение

и

й

Значение

п

й

36,5

1

 

32,6

0

 

43.0

7

 

38,7

1

 

44,5

7

 

41,7

2

 

38,9

4

 

41,1

1

 

38.1

2

 

36,8

0

 

 

Всего 25

 

Из табл. В.9 для а

= 0,05 и п = 10 имеем

=

И и і"£/2 =

= 33; следовательно,

нулевая гипотеза снова принимается.

Д л я обнаружения

стационарности можно

также

образовать

и исследовать последовательность средних значений квадратов. Для данной временной диаграммы нулевая гипотеза принимается

согласно обоим критериям; по этой

причине значения средних

квадратов не табулируются.

 

3.7.5. Критерии

случайности

Непараметрические критерии, описанные выше как критерии стационарности, в действительности служат также и критериями случайности; исключения составляют лишь возможные периоди­ ческие компоненты. Если отрезки временных диаграмм прошли проверку на стационарность, то периодические компоненты, не замеченные при визуальном осмотре временной диаграммы или с помощью критерия стационарности, проще всего обнаружить, рассматривая среднюю по времени спектральную плотность или автокорреляционную функцию (определенную в разд. 12.3.3). Так как синусоидальная волна имеет автокорреляционную функ­ цию, не равную нулю при всех значениях т в отличие от случай­ ных данных, для которых г х х (т) ->- 0 при т - > оо (для цх = 0), то можно построить и исследовать график усредненной по времени

170

Глава 3

автокорреляционной функции. В этой связи стоит вспомнить автокорреляционную диаграмму на фиг. 2.2.1. Периодическая компонента в этих данных будет проявляться в виде максимума функции спектральной плотности, особенно если амплитуда перио­ дической компоненты больше, чем соответствующий шум.

3.7.6. Критерии согласия и независимости

Весьма важны критерии, позволяющие проверить, описывают­ ся ли экспериментальные данные нормальным (или любым другим) распределением. Наиболее известным критерием такого рода является критерий у?. Этот критерий приближенный и иногда приводит к ошибочному заключению из-за несоответствия между многочисленными теоретическими требованиями и условиями прак­

тической работы.

Он применяется к пронумерованным

данным,

т. е. к счетному

количеству исходов; таким образом,

прежде

чем применять этот критерий, непрерывные диаграммы необходимо перевести в цифровую форму. Здесь критерий %3 будет рассмотрен применительно к двум важнейшим задачам: 1) проверке согласия и 2) проверке независимости случайных величин.

П р о в е р к а с о г л а с и я . Чтобы описать какую-либо слу­ чайную величину с помощью некоторого выбранного распределе­ ния вероятности, исследователь должен задать вопрос: согла­ суется ли постулированная плотность распределения вероятности с наблюдаемым распределением относительной частоты?

В табл. 2.3.1 приведены среднее значение и дисперсия для мультиномиального распределения взаимно исключающих событий*

% {Xt} = пѲі

(0 < і < к)

Ѵаг {Xi} = ПѲІ (1 -

Ѳ,)

где Ѳг — параметр многочлена, соответствующий мультиномиаль­ ной переменной Xt; Ѳг — вероятность того, что событие і произойдет

Xi раз при п испытаниях, где 2 Х І ~ П- Д л я каждой из случайных переменных можно образовать приближенную нормированную нормально распределенную переменную

Zt= , / г ~ г а Ѳ ^

,

(3.7.13)

 

Ѵ»ѲІ(І-ѲІ)

 

Ѵ

;

которая при больших значениях nQ (1 — Ѳ) распределена при­ близительно по нормальному закону с нулевым средним значением и дисперсией, равной 1. Кроме того, можно составить величину

V

7

2 — "V

\Аі—п\)іУ

ZhI

 

-

h

Zj'nQiii-Qi

 

 

 

 

( Х , - п Ѳ | ) а

Статистический анализ и его применения 171

которая будет

распределена приблизительно

по

закону

%2 с к

степенями свободы,

если

величины

Xt

независимы

друг

от

друга.

По некоторым

причинам,

которые

не

стоит

детально

обсуждать

здесь, оказывается,

что

случайная

переменная

 

 

 

 

 

h

 

 

 

 

 

 

 

 

£ 2 = Ц

( У і ~ ѳ - Ѳ і ) 2 '

ѵ = к - ^

 

 

( 3 - 7 Л 4 >

 

 

і=1

'

 

 

 

 

 

 

более удобна для использования и лучше описывается ^ - распре ­ делением с v степенями свободы.

Если параметры Ѳг плотности распределения вероятности слу­ чайной переменной неизвестны, так что необходимо использовать их оценки Ѳг, то

h

~ а = у

( * * - " в « ) а ,

v = : k _ i _ g i

( з . 7 Л 5 )

І=І

n Q t

 

 

где число степеней свободы уменьшилось на число связей g, на одну

для каждой оценки. Для выражения (3.7.15) должно

выполняться

одно

ограничение

величина пѲ должна

быть

больше

5; если

оно нарушено, нужно образовывать группы.

 

 

 

Выражение (3.7.15)

можно

переписать

в слегка

измененных

обозначениях

 

 

 

 

 

 

 

 

 

 

? _ 2 * H ^ Î .

 

 

 

(3.7.16)

 

 

 

і = 1

1

 

 

 

 

где nt

— наблюдаемое

число появлений Xt,

а п* — число

появле­

ний Xt, рассчитанное

теоретически на основе

постулированной

плотности распределения вероятности.

 

 

 

 

Согласие можно

определить, вычисляя

%2 по формуле

(3.7.16)

и сравнивая полученное значение с табличным значением %2 для некоторого выбранного уровня значимости а, например а = 0,05. Можно использовать односторонний критерий. Если вычисленное

значение %2 превышает заранее выбранное значение %і-а > т о нулевая гипотеза о том, что два распределения одинаковы, т. е. что экспериментальное распределение относительных частот описы­ вается постулированной плотностью распределения вероятности, отвергается. (Точно так же, если значение %2 оказывается меньше, чем %а> эмпирическое распределение относительной частоты не согласуется с предполагаемой плотностью распределения вероят­ ности.) Критерий согласия %2 следует использовать с осторожно­ стью и дополнять другими критериями, так как он по существу является приближенным критерием. Однако этот критерий, безу­ словно, весьма удобен. Если это необходимо, более строгий анализ

Соседние файлы в папке книги из ГПНТБ