Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Статистические методы анализа и обработки наблюдений

..pdf
Скачиваний:
11
Добавлен:
15.11.2022
Размер:
10.29 Mб
Скачать

6.4. ПЛАНИРОВАНИЕ ЭКСПЕРИМЕНТА

2 П

можно добиться, повторяя при эксперименте

какие-либо

из уровней недостающее число раз.

 

К исследуемым трем факторам Л, В и С, не меняя общего числа испытаний /г2, можно попытаться добавить еще и четвертый фактор D. Это нетрудно сделать, если удастся найти такое расположение уровней факторов С и D, при котором в каждой строке и каждом столбце имеются все k уровней фактора С и все k уровней фактора D и в то же время никакие два уровня факторов С и D не встречаются

Таблица 8.8

с.

02

Сз

 

С,

С2

 

С3

04

01

02

 

D !

 

 

0

04

02

Сз

С.

 

с 2

С,

D4

С4

0з

01

02

 

D3

01

02

Сз

Cl

02

 

С3

С4

D3

Cl

с 2

02

01

 

D4

02

0 !

 

 

 

 

 

С3

01

02

Cl

 

 

 

 

0 2

04

0 з

 

 

 

 

 

 

k = 4

 

 

 

 

Cl

02

Сз

с,

Сь

 

 

 

 

01

02

04

06

 

 

 

 

02

Сз

с 4

Сь

Cl

 

 

 

 

04

05

01

02

 

 

 

 

03

с 4

Сь

Cl

02

 

 

 

 

05

0 .

02

04

 

 

 

 

04

с Б

С.

с 2

Сз

 

 

 

 

02

03

04

06

01

 

 

 

 

с 5

Cl

с 2

Сз

с 4

 

 

 

 

04

05

01

02

03

 

 

k = 5

по всей таблице вместе больше одного раза. Расположение такого типа называется квадратом второго порядка.

212 § 8. Д И С П Е РС И О Н Н Ы Й АНАЛИЗ

Строить квадраты второго порядка довольно трудно; при­ ведем примеры (таблица 8.8) для случаев £=3,4,5 (обозна­ чения уровней факторов Л и в для краткости опущены).

Анализ для квадрата второго порядка ведется так же, как и при обычном латинском квадрате, только нужно еще

ввести

в рассмотрение

суммы

наблюдений при

фикси­

рованных

уровнях D|А. К

перечисленным выше

суммам

Qlt

Q5 добавится

 

 

 

 

 

 

 

 

Ц = 1

 

 

Дисперсия

воспроизводимости оценится равенством

 

 

„ 2 _ Q 1 4 ~3 Q4 Q2 Q3 Q5 Qo

 

 

 

0

(/г — 1) (Ar —3)

 

дисперсии s^, SB и 5C — так же,

как и раньше. Добавится

новая

дисперсия:

„2 _ Qo

Qi

 

 

 

 

 

 

 

 

о

k — \

 

по которой, в случае ее значимого отличия от SQ, м о ж н о оценить действие фактора D:

Фишер и Иэйтс показали, что при k уровнях и число изучаемых факторов может быть доведено до k. Исклю­ чение составляет лишь £ = 6, для которого, кроме обычного латинского квадрата, нельзя построить никакого квадрата более высокого порядка.

Существует много других способов планирования дроб­ ного факторного эксперимента: неполные сбалансированные блоки, смешивание и т. д. О них можно прочесть в спе­ циальной литературе по дисперсионному анализу.

§ 9. ЗАВИСИМОСТЬ МЕЖДУ СЛУЧАЙ ВЕЛИЧИНАМИ

9.1. Корреляция. В предыдущем изложении изучались наблюдения над одной случайной величиной. Между тем для выяснения тех или иных причинно-следственных связей в окружающей природе необходимо вести одновре-

-менные наблюдения над целым рядом случайных величин, чтобы по полученным данным изучать взаимоотношения этих величин.* При каждом испытании основные факторы

одинаковы для всех наблюдаемых величин, однако случай­ ные факторы для каждой величины могут быть свои. В силу этого, зависимости между случайными величинами оказываются сильно «завуалированными» влиянием «своих» случайных факторов, и их выяснение возможно лишь мето­ дами математической статистики.

Внастоящей книге мы ограничимся случаем, когда одновременно наблюдаются две случайные величины. За­ висимости между большим числом величин можно изучать, объединяя их попарно. Изучение «совокупных» зависи­ мостей представляет значительные технические трудности;

вто же время принципиально новые методы (по сравнению

стеорией двух величин) здесь почти не появляются.

Вматематическом анализе зависимость между двумя величинами выражается понятием функции y=f(x), где каждому допустимому значению одной переменной соот­ ветствует одно и только одно значение другой переменной. Такая зависимость носит название функциональной; она обнаруживается с помощью строгих логических доказа­ тельств и не нуждается в опытной проверке. Если i/=const при изменении х, то говорят, что у не зависит от х\ всякое изменение у есть проявление зависимости от х. Так, напри­ мер, угол правильного многоугольника зависит от числа

сторон, но не зависит от их длины.

214 §9 ЗАВИСИМОСТЬ МЕЖДУ СЛУЧАЙНЫМИ ВЕЛИЧИНАМИ

Гораздо сложнее обстоит дело с понятием зависимости случайных величин: если при изменении х изменилось у , мы не можем сразу сказать, является ли это изменение результатом зависимости от х или оно обязано лишь влия­ нию случайных факторов. Правда, и между случайными величинами может существовать строгая функциональная зависимость, устанавливаемая логическим путем. Напри­ мер, число мужчин | и число женщин г\ на 1000 человек населения являются случайными величинами, однако всегда |4-т]=1000. Подобного рода зависимость между слу­ чайными величинами обычно известна из теоретических соображений заранее, до всяких наблюдений. На практике она проявляется в том случае, когда для вычисления двух случайных величин используются одни и те же наблюдения (случай косвенных измерений), например, при нахождении числа мужчин и женщин на 1000 человек населения или при вычислении площади квадрата по измеренной стороне. Если же для вычисления каждой из случайных величин используются свои наблюдения, то на эти случайные вели­ чины действуют разные случайные факторы, и функцио­ нальная зависимость между ними уже невозможна. Попро­ буйте, например, отдельно измерять сторону а и площадь 5 квадрата и вы сами убедитесь, что на практике не всегда

S= a2 *).

Как правило, между случайными величинами может существовать лишь связь особого рода, при которой с из­ менением одной величины меняется распределение другой — такая связь называется стохастической. Изменение слу­ чайной величины т|, соответствующее изменению величины £, разбивается при этом на две компоненты: стохастическую (связанную с зависимостью т| от £) и случайную (связанную

с

влиянием

«собственных» случайных факторов величин

|

и г]). Если

первая компонента отсутствует, то величины

г] и |

независимы. Если

же стохастическая компонента не

равна

нулю,

то между

т| и | есть стохастическая связь.

При этом соотношение между стохастической и случайной

*) От строгой функциональной следует отличать ложную функцио­ нальную зависимость, нередко возникающую на практике из-за того, что влияние случайных факторов оказывается слабее точности прово­ димых наблюдений.

9.1. КОРРЕЛЯЦИЯ

215

компонентами определяет силу связи (понятие, лишенное смысла для функциональной зависимости). Наконец, от­ сутствие второй компоненты дает функциональную зави­ симость.

Выявление стохастической связи и оценка ее силы пред­ ставляют важную и трудную задачу математической ста­ тистики. Достаточно сказать, что эта задача в общем виде не решена. Существуют показатели, оценивающие те или иные стороны стохастической связи. Из них важнейшим является коэффициент корреляции, рассматриваемый ниже.

В пункте 2.3. указывалось, что дисперсия суммы двух независимых величин равна сумме дисперсий этих величин. Поэтому если для двух случайных величин £ и ц окажет­ ся, что

D (H -il)^ D £ + Dri,

то это служит верным признаком наличия зависимости между | и г]. Таким образом, сравнивая дисперсию D(£+r|) с D£-fDr|, мы получаем первый критерий стохастической связи между £ и г\. Непосредственно из свойств дисперсии и математического ожидания (п. 2.3) вытекает, что

D (i + T)) = M li + ri-M (? , + i))P =

= М [(| - Mi)* + 2 (i - Mg) (П - Мч) + (г, - Mil)2] =

= М ( | — М|) 2 +':2М [(I— М|) (Г| —Мт))] + м(ц —Мп)2.

Но

M ( | - M |) 2 = D|, M (TI- M TI)2 = D4,

поэтому

D (5 + n ) - ( D | + Dri) = 2М [(S-M £) (л —/Аг|)].

Итак, зависимость между £ и ц немедленно

вытекает

из неравенства

 

М [(£ -М Ш т1 -М тО ]^0 .

(9.1)

К сожалению, обратное утверждение несправедливо и из равенства М[(£—М|)(г|—Мг|)]=0 независимость | и г) не вытекает. Это значит, что на дисперсии суммы сказывается не всякая стохастическая связь между слагаемыми. Может быть и так, что D(£+TI)=H=D£+DTI, но в этом неравенств? «повинна» лишь часть имеющейся связи между £ и rj.

9.1. КОРРЕЛЯЦИЯ

217

откуда

 

Если коэффициент корреляции отличен от нуля,

то он

своей величиной характеризует не только наличие, но и силу стохастической связи между | и т), точнее, той части этой связи, которую мы выше назвали корреляцией. Чем больше абсолютная величина р, тем сильней корреляция между £ и тр Максимальная корреляция соответствует зна­

чениям р= + 1 . Оказывается,

это возможно только

в слу­

чае, когда £0= ± т 1о.

т. е. когда между величинами

| 0

и г|0

(а значит, и между |

и г]) существует строгая функциональ­

ная связь. Действительно, при р= + 1 справедливо

одно

из равенств

 

 

 

 

О(1о + Ло) = °.

0 (Б0-Л о) = 0,

 

 

а это значит, что либо Н0 H-rjo, либо | 0—г|0 есть постоянный нуль.

Итак, мы получили первый (и важнейший в силу своей простоты) показатель зависимости между случайными ве­ личинами | и т]. Из коэффициента корреляции можно из­ влечь и еще одну информацию: если р > 0, то величины £ и г| с точностью до случайных погрешностей одновременно возрастают или убывают, если же р < 0, то с возрастанием одной величины другая убывает.

Тем не менее, коэффициент корреляции как показатель зависимости обладает серьезными недостатками. Мы уже упоминали, что из равенства р= 0 не следует независимость величин | и т]. Оказывается, и крайние значения р= + 1 не очень полезны, так как соответствуют не всякой функ­ циональной зависимости, а только строгой линейной связи

между £ и г|. Действительно, из равенства

£0= ± г |0 следу­

ет,

что

 

 

 

I —1*1_ + Л—мл

 

 

у щ

- УЩ

 

т.

е.

 

 

 

г] = al + b,

 

где

 

 

 

а = + J ^ L , Ь = Мц т Х ^ М * .

 

- у DI

' Уог

ъ

218 §9. ЗАВИСИМОСТЬ МЕЖДУ СЛУЧАЙНЫМИ ВЕЛИЧИНАМИ

Таким образом, зависимость между | и т] может быть строго функциональной (например, квадратичной), без следа случайности, а коэффициент корреляции все еще будет меньше 1 (по абсолютной величине), и корреляция будет неполной.

Исходя из сказанного, можно считать, что коэффициент корреляции есть показатель того, насколько связь между случайными величинами близка к строгой линейной зави­ симости. Он одинаково отмечает и слишком большую долю случайности, и слишком большую криволинейность этой связи.

Существуют, однако, такие случайные величины, для которых коэффициент корреляции является достаточно полным показателем зависимости. Сюда относятся в первую очередь величины, между которыми заранее, из общих соображений, можно предсказать линейную зависимость. Например, измеряя в электрической цепи одновременно напряжение и силу тока, мы должны, по закону Ома, ожи­ дать между ними линейной зависимости (пропорциональ­ ности). Поэтому сильное отличие коэффициента корреляции р от 1 будет свидетельствовать о недостатках измери­ тельных приборов или о наличии переменного сопротивле­ ния в цепи.

Сильно повышается ценность коэффициента корреляции и для величин, собственные случайные колебания которых подчиняются нормальному закону. Для таких величин, как это можно показать строго математически, отсутствие корреляции, т. е. равенство р= 0, означает одновременно и отсутствие всякой зависимости.

Последнее свойство для нас особенно важно, так как мы при обработке наблюдений преимущественно сталкива­ емся с нормальными распределениями. Возникает вопрос, как оценить коэффициент корреляции по данным наблю­ дений.

Допустим, что проведено т испытаний и при каждом отмечались значения двух случайных величин. В результа­ те получатся т пар выборочных значений (хъ уг), (х2, у2),...

..., (хт , ут). Для наглядности эти пары значений можно рассматривать как координаты точек на плоскости. Обра­ зовавшаяся совокупность точек сразу же даст нам пред­ ставление о силе корреляции. На рис. 26 приведены примеры

220 §9. ЗАВИСИМОСТЬ МЕЖДУ СЛУЧАЙНЫМИ ВЕЛИЧИНАМИ

При достаточно большом объеме выборки т выборочный коэффициент корреляции г приближенно равен генераль­ ному коэффициенту р. Однако оценить возникающую при этом погрешность очень трудно. Это и не обязательно, так как точное значение р в расчетах почти не используется и нужно нам лишь как показатель силы связи. На практике выборочный коэффициент корреляции используют в ос­ новном для проверки общей гипотезы о наличии корреляции между наблюдаемыми величинами, не вдаваясь в подробные оценки силы этой корреляции.

В связи со случайностью выборки выборочный коэф­ фициент корреляции г может быть отличен от нуля, даже если между наблюдаемыми величинами нет корреляции. Следовательно, для проверки гипотезы об отсутствии кор­ реляции необходимо проверять, значимо ли отличается г от нуля. А для этого нужно знать распределение г как слу­ чайной величины. Это распределение, как и следовало ожидать, зависит от генерального коэффициента корреля­ ции р, который нам неизвестен. Но если мы в качестве ну­ левой гипотезы возьмем равенство р= 0 (отсутствие корре­ ляции), то нам потребуется лишь г-распределение, соответ­ ствующее р=0. Такое распределение оказывается уже зависящим только от объема выборки т. Легко видеть, что оно симметрично относительно нуля и сосредоточено на отрезке [—1, 1]. В таблице XII Приложения приведены квантили гг_р/2 этого распределения для некоторых уров­ ней значимости р и объемов т.

Зная r-распределение, можно заранее предсказать до­ верительные границы для выборочного коэффициента кор­ реляции г в предположении, что генеральная корреляция отсутствует. А именно, с вероятностью 1—р должна быть справедлива оценка

' 1 - р/2 ^=5 ' ^ ' 1 - /7/2 •

Поэтому если окажется, что найденный по выборке коэф­ фициент корреляции удовлетворяет неравенству

М > Гг-р/2,

то его нужно признать значимым, т. е. нужно считать, что нулевая гипотеза неверна. А это значит, что р=^=0 и между наблюдаемыми величинами есть корреляция. Корреляция

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]