1139
.pdf6.4. ПЛАНИРОВАНИЕ ЭКСПЕРИМЕНТА |
2 П |
можно добиться, повторяя при эксперименте |
какие-либо |
из уровней недостающее число раз. |
|
К исследуемым трем факторам Л, В и С, не меняя общего числа испытаний /г2, можно попытаться добавить еще и четвертый фактор D. Это нетрудно сделать, если удастся найти такое расположение уровней факторов С и D, при котором в каждой строке и каждом столбце имеются все k уровней фактора С и все k уровней фактора D и в то же время никакие два уровня факторов С и D не встречаются
Таблица 8.8
с. |
02 |
Сз |
|
С, |
С2 |
|
С3 |
04 |
01 |
02 |
0з |
|
D ! |
|
|
0>з |
04 |
02 |
Сз |
С. |
|
с 2 |
С, |
D4 |
С4 |
0з |
0з |
01 |
02 |
|
D3 |
01 |
02 |
||
Сз |
Cl |
02 |
|
С3 |
С4 |
D3 |
Cl |
с 2 |
02 |
0з |
01 |
|
D4 |
02 |
0 ! |
||
|
|
|
|
|
С3 |
01 |
02 |
Cl |
|
|
|
|
0 2 |
04 |
0 з |
||
|
|
|
|
|
|
k = 4 |
|
|
|
|
Cl |
02 |
Сз |
с, |
Сь |
|
|
|
|
01 |
02 |
0з |
04 |
06 |
|
|
|
|
02 |
Сз |
с 4 |
Сь |
Cl |
|
|
|
|
0з |
04 |
05 |
01 |
02 |
|
|
|
|
03 |
с 4 |
Сь |
Cl |
02 |
|
|
|
|
05 |
0 . |
02 |
0з |
04 |
|
|
|
|
04 |
с Б |
С. |
с 2 |
Сз |
|
|
|
|
02 |
03 |
04 |
06 |
01 |
|
|
|
|
с 5 |
Cl |
с 2 |
Сз |
с 4 |
|
|
|
|
04 |
05 |
01 |
02 |
03 |
|
|
k = 5
по всей таблице вместе больше одного раза. Расположение такого типа называется квадратом второго порядка.
212 § 8. Д И С П Е РС И О Н Н Ы Й АНАЛИЗ
Строить квадраты второго порядка довольно трудно; при ведем примеры (таблица 8.8) для случаев £=3,4,5 (обозна чения уровней факторов Л и в для краткости опущены).
Анализ для квадрата второго порядка ведется так же, как и при обычном латинском квадрате, только нужно еще
ввести |
в рассмотрение |
суммы |
наблюдений при |
фикси |
||
рованных |
уровнях D|А. К |
перечисленным выше |
суммам |
|||
Qlt |
Q5 добавится |
|
|
|
|
|
|
|
|
|
Ц = 1 |
|
|
Дисперсия |
воспроизводимости оценится равенством |
|||||
|
|
„ 2 _ Q 1 4 ~3 Q4 Q2 Q3 Q5 — Qo |
|
|||
|
|
0 |
(/г — 1) (Ar —3) |
|
||
дисперсии s^, SB и 5C — так же, |
как и раньше. Добавится |
|||||
новая |
дисперсия: |
„2 _ Qo |
Qi |
|
||
|
|
|
|
|||
|
|
|
о |
k — \ ’ |
|
по которой, в случае ее значимого отличия от SQ, м о ж н о оценить действие фактора D:
Фишер и Иэйтс показали, что при k уровнях и число изучаемых факторов может быть доведено до k. Исклю чение составляет лишь £ = 6, для которого, кроме обычного латинского квадрата, нельзя построить никакого квадрата более высокого порядка.
Существует много других способов планирования дроб ного факторного эксперимента: неполные сбалансированные блоки, смешивание и т. д. О них можно прочесть в спе циальной литературе по дисперсионному анализу.
§ 9. ЗАВИСИМОСТЬ МЕЖДУ СЛУЧАЙ ВЕЛИЧИНАМИ
9.1. Корреляция. В предыдущем изложении изучались наблюдения над одной случайной величиной. Между тем для выяснения тех или иных причинно-следственных связей в окружающей природе необходимо вести одновре-
-менные наблюдения над целым рядом случайных величин, чтобы по полученным данным изучать взаимоотношения этих величин.* При каждом испытании основные факторы
одинаковы для всех наблюдаемых величин, однако случай ные факторы для каждой величины могут быть свои. В силу этого, зависимости между случайными величинами оказываются сильно «завуалированными» влиянием «своих» случайных факторов, и их выяснение возможно лишь мето дами математической статистики.
Внастоящей книге мы ограничимся случаем, когда одновременно наблюдаются две случайные величины. За висимости между большим числом величин можно изучать, объединяя их попарно. Изучение «совокупных» зависи мостей представляет значительные технические трудности;
вто же время принципиально новые методы (по сравнению
стеорией двух величин) здесь почти не появляются.
Вматематическом анализе зависимость между двумя величинами выражается понятием функции y=f(x), где каждому допустимому значению одной переменной соот ветствует одно и только одно значение другой переменной. Такая зависимость носит название функциональной; она обнаруживается с помощью строгих логических доказа тельств и не нуждается в опытной проверке. Если i/=const при изменении х, то говорят, что у не зависит от х\ всякое изменение у есть проявление зависимости от х. Так, напри мер, угол правильного многоугольника зависит от числа
сторон, но не зависит от их длины.
214 §9 ЗАВИСИМОСТЬ МЕЖДУ СЛУЧАЙНЫМИ ВЕЛИЧИНАМИ
Гораздо сложнее обстоит дело с понятием зависимости случайных величин: если при изменении х изменилось у , мы не можем сразу сказать, является ли это изменение результатом зависимости от х или оно обязано лишь влия нию случайных факторов. Правда, и между случайными величинами может существовать строгая функциональная зависимость, устанавливаемая логическим путем. Напри мер, число мужчин | и число женщин г\ на 1000 человек населения являются случайными величинами, однако всегда |4-т]=1000. Подобного рода зависимость между слу чайными величинами обычно известна из теоретических соображений заранее, до всяких наблюдений. На практике она проявляется в том случае, когда для вычисления двух случайных величин используются одни и те же наблюдения (случай косвенных измерений), например, при нахождении числа мужчин и женщин на 1000 человек населения или при вычислении площади квадрата по измеренной стороне. Если же для вычисления каждой из случайных величин используются свои наблюдения, то на эти случайные вели чины действуют разные случайные факторы, и функцио нальная зависимость между ними уже невозможна. Попро буйте, например, отдельно измерять сторону а и площадь 5 квадрата и вы сами убедитесь, что на практике не всегда
S= a2 *).
Как правило, между случайными величинами может существовать лишь связь особого рода, при которой с из менением одной величины меняется распределение другой — такая связь называется стохастической. Изменение слу чайной величины т|, соответствующее изменению величины £, разбивается при этом на две компоненты: стохастическую (связанную с зависимостью т| от £) и случайную (связанную
с |
влиянием |
«собственных» случайных факторов величин |
||
| |
и г]). Если |
первая компонента отсутствует, то величины |
||
г] и | |
независимы. Если |
же стохастическая компонента не |
||
равна |
нулю, |
то между |
т| и | есть стохастическая связь. |
При этом соотношение между стохастической и случайной
*) От строгой функциональной следует отличать ложную функцио нальную зависимость, нередко возникающую на практике из-за того, что влияние случайных факторов оказывается слабее точности прово димых наблюдений.
9.1. КОРРЕЛЯЦИЯ |
215 |
компонентами определяет силу связи (понятие, лишенное смысла для функциональной зависимости). Наконец, от сутствие второй компоненты дает функциональную зави симость.
Выявление стохастической связи и оценка ее силы пред ставляют важную и трудную задачу математической ста тистики. Достаточно сказать, что эта задача в общем виде не решена. Существуют показатели, оценивающие те или иные стороны стохастической связи. Из них важнейшим является коэффициент корреляции, рассматриваемый ниже.
В пункте 2.3. указывалось, что дисперсия суммы двух независимых величин равна сумме дисперсий этих величин. Поэтому если для двух случайных величин £ и ц окажет ся, что
D (H -il)^ D £ + Dri,
то это служит верным признаком наличия зависимости между | и г]. Таким образом, сравнивая дисперсию D(£+r|) с D£-fDr|, мы получаем первый критерий стохастической связи между £ и г\. Непосредственно из свойств дисперсии и математического ожидания (п. 2.3) вытекает, что
D (i + T)) = M li + ri-M (? , + i))P =
= М [(| - Mi)* + 2 (i - Mg) (П - Мч) + (г, - Mil)2] =
= М ( | — М|) 2 +':2М [(I— М|) (Г| —Мт))] + м(ц —Мп)2.
Но
M ( | - M |) 2 = D|, M (TI- M TI)2 = D4,
поэтому
D (5 + n ) - ( D | + Dri) = 2М [(S-M £) (л —/Аг|)].
Итак, зависимость между £ и ц немедленно |
вытекает |
из неравенства |
|
М [(£ -М Ш т1 -М тО ]^0 . |
(9.1) |
К сожалению, обратное утверждение несправедливо и из равенства М[(£—М|)(г|—Мг|)]=0 независимость | и г) не вытекает. Это значит, что на дисперсии суммы сказывается не всякая стохастическая связь между слагаемыми. Может быть и так, что D(£+TI)=H=D£+DTI, но в этом неравенств? «повинна» лишь часть имеющейся связи между £ и rj.
9.1. КОРРЕЛЯЦИЯ |
217 |
откуда |
|
Если коэффициент корреляции отличен от нуля, |
то он |
своей величиной характеризует не только наличие, но и силу стохастической связи между | и т), точнее, той части этой связи, которую мы выше назвали корреляцией. Чем больше абсолютная величина р, тем сильней корреляция между £ и тр Максимальная корреляция соответствует зна
чениям р= + 1 . Оказывается, |
это возможно только |
в слу |
||
чае, когда £0= ± т 1о. |
т. е. когда между величинами |
| 0 |
и г|0 |
|
(а значит, и между | |
и г]) существует строгая функциональ |
|||
ная связь. Действительно, при р= + 1 справедливо |
одно |
|||
из равенств |
|
|
|
|
О(1о + Ло) = °. |
0 (Б0-Л о) = 0, |
|
|
а это значит, что либо Н0 H-rjo, либо | 0—г|0 есть постоянный нуль.
Итак, мы получили первый (и важнейший в силу своей простоты) показатель зависимости между случайными ве личинами | и т]. Из коэффициента корреляции можно из влечь и еще одну информацию: если р > 0, то величины £ и г| с точностью до случайных погрешностей одновременно возрастают или убывают, если же р < 0, то с возрастанием одной величины другая убывает.
Тем не менее, коэффициент корреляции как показатель зависимости обладает серьезными недостатками. Мы уже упоминали, что из равенства р= 0 не следует независимость величин | и т]. Оказывается, и крайние значения р= + 1 не очень полезны, так как соответствуют не всякой функ циональной зависимости, а только строгой линейной связи
между £ и г|. Действительно, из равенства |
£0= ± г |0 следу |
||
ет, |
что |
|
|
|
I —1*1_ + Л—мл |
|
|
|
у щ |
- УЩ ’ |
|
т. |
е. |
|
|
|
г] = al + b, |
|
|
где |
|
|
|
|
а = + J ^ L , Ь = Мц т Х ^ М * . |
||
|
- у DI |
' Уог |
ъ |
218 §9. ЗАВИСИМОСТЬ МЕЖДУ СЛУЧАЙНЫМИ ВЕЛИЧИНАМИ
Таким образом, зависимость между | и т] может быть строго функциональной (например, квадратичной), без следа случайности, а коэффициент корреляции все еще будет меньше 1 (по абсолютной величине), и корреляция будет неполной.
Исходя из сказанного, можно считать, что коэффициент корреляции есть показатель того, насколько связь между случайными величинами близка к строгой линейной зави симости. Он одинаково отмечает и слишком большую долю случайности, и слишком большую криволинейность этой связи.
Существуют, однако, такие случайные величины, для которых коэффициент корреляции является достаточно полным показателем зависимости. Сюда относятся в первую очередь величины, между которыми заранее, из общих соображений, можно предсказать линейную зависимость. Например, измеряя в электрической цепи одновременно напряжение и силу тока, мы должны, по закону Ома, ожи дать между ними линейной зависимости (пропорциональ ности). Поэтому сильное отличие коэффициента корреляции р от 1 будет свидетельствовать о недостатках измери тельных приборов или о наличии переменного сопротивле ния в цепи.
Сильно повышается ценность коэффициента корреляции и для величин, собственные случайные колебания которых подчиняются нормальному закону. Для таких величин, как это можно показать строго математически, отсутствие корреляции, т. е. равенство р= 0, означает одновременно и отсутствие всякой зависимости.
Последнее свойство для нас особенно важно, так как мы при обработке наблюдений преимущественно сталкива емся с нормальными распределениями. Возникает вопрос, как оценить коэффициент корреляции по данным наблю дений.
Допустим, что проведено т испытаний и при каждом отмечались значения двух случайных величин. В результа те получатся т пар выборочных значений (хъ уг), (х2, у2),...
..., (хт , ут). Для наглядности эти пары значений можно рассматривать как координаты точек на плоскости. Обра зовавшаяся совокупность точек сразу же даст нам пред ставление о силе корреляции. На рис. 26 приведены примеры
220 §9. ЗАВИСИМОСТЬ МЕЖДУ СЛУЧАЙНЫМИ ВЕЛИЧИНАМИ
При достаточно большом объеме выборки т выборочный коэффициент корреляции г приближенно равен генераль ному коэффициенту р. Однако оценить возникающую при этом погрешность очень трудно. Это и не обязательно, так как точное значение р в расчетах почти не используется и нужно нам лишь как показатель силы связи. На практике выборочный коэффициент корреляции используют в ос новном для проверки общей гипотезы о наличии корреляции между наблюдаемыми величинами, не вдаваясь в подробные оценки силы этой корреляции.
В связи со случайностью выборки выборочный коэф фициент корреляции г может быть отличен от нуля, даже если между наблюдаемыми величинами нет корреляции. Следовательно, для проверки гипотезы об отсутствии кор реляции необходимо проверять, значимо ли отличается г от нуля. А для этого нужно знать распределение г как слу чайной величины. Это распределение, как и следовало ожидать, зависит от генерального коэффициента корреля ции р, который нам неизвестен. Но если мы в качестве ну левой гипотезы возьмем равенство р= 0 (отсутствие корре ляции), то нам потребуется лишь г-распределение, соответ ствующее р=0. Такое распределение оказывается уже зависящим только от объема выборки т. Легко видеть, что оно симметрично относительно нуля и сосредоточено на отрезке [—1, 1]. В таблице XII Приложения приведены квантили гг_р/2 этого распределения для некоторых уров ней значимости р и объемов т.
Зная r-распределение, можно заранее предсказать до верительные границы для выборочного коэффициента кор реляции г в предположении, что генеральная корреляция отсутствует. А именно, с вероятностью 1—р должна быть справедлива оценка
' 1 - р/2 ^=5 ' ^ ' 1 - /7/2 •
Поэтому если окажется, что найденный по выборке коэф фициент корреляции удовлетворяет неравенству
М > Гг-р/2,
то его нужно признать значимым, т. е. нужно считать, что нулевая гипотеза неверна. А это значит, что р=^=0 и между наблюдаемыми величинами есть корреляция. Корреляция