Статистические методы анализа и обработки наблюдений
..pdf4.4. СРЕДНЕЕ И ДИСПЕРСИЯ ВЫБОРКИ |
91 |
Из случайности выборок вытекает, что все числовые ха |
|
рактеристики выборки (в частности, среднее и |
дисперсия) |
при неизменном объеме п будут случайными |
величинами |
со своими распределениями. Эти распределения |
можно на |
ходить, зная распределение основной случайной величины Рассмотрим вначале среднее выборки, равное сумме ре
зультатов отдельных наблюдений, деленной на п. Если рассматривать всевозможные выборки, то результат пер вого наблюдения окажется совершенно случайным; то же самое верно для второго наблюдения, третьего и т. д. Сле довательно, каждому по счету наблюдению соответствует своя случайная величина: первому — р1( второму — |и2
ит. д. Все эти величины имеют то же распределение, что
иосновная величина £ — ведь именно ее мы наблюдаем всякий раз. Поэтому они имеют одинаковые математиче ские ожидания Мр,1=Мр,2= ... = Мр.п = М£, одинаковые дис персии D ii^D iio^... = Djj,„=D£. Среднее выборки выражает
ся через результаты отдельных наблюдений по формуле
“ _ Ш+ Ра+ • • • + Р„
п
Следовательно, в силу свойств математического ожидания и дисперсии любой случайной величины
м ~ = |
+ |
... +М[1„ _ |
пЬАс, |
|
|
|
п |
п |
* |
И |
|
|
|
|
D~ |
PPt + PP2+ ••• +РР„ _ |
ПР1 _ |
! |
|
|
|
п2 |
п2 |
п |
Сравним теперь случайные величины £ и х. Обе эти вели чины имеют одинаковые математические ожидания, т. е. наблюдения над ними соответствуют одному и тому же ис тинному результату. Благодаря этому, вместо величины £
можно изучать величину х. Правда, каждое наблюдение над
величиной х в п раз труднее, чем наблюдение над £ (нужно сначала получить всю выборку и лишь потом сумму эле
ментов поделить на п), но зато у величины х в п раз мень ше дисперсия.
Перейдем к рассмотрению дисперсии D |;j. Считая, так же как и выше, каждое наблюдение случайной величиной,
92 § 4. Н А Б Л Ю Д ЕН И Я
получим, ЧТО
D f |
( Щ — -к) 2 + ( Ц 2 — * )2 + ••• + ( [ 1 , — x f |
и Ьп |
п |
откуда |
|
M(Dg„) = |
м (щ — * )2+ М (р2— х)2■+... 4-М ( ^ — J ) 2 |
Производя преобразования (которые мы опускаем ввиду их громоздкости), приходим к равенству:
M(DL) = - ^ - D | .
Иными словами, истинный результат наблюдений над дис
персией |
D£„ как случайной |
величиной не совпадает с дис |
|
персией |
D£, а оказывается |
несколько меньше последней. |
|
В связи с этим |
называется смещенной оценкой диспер |
||
сии D£. |
|
|
|
Из полученных формул непосредственно видно, как нуж но изменить D|n, чтобы получить несмещенную оценку дис персии D£. А именно, в качестве дисперсии выборки нуж но рассмотреть величину
Согласно свойствам математического ожидания Ms2 = Dl
и, значит, s2 действительно является несмещенной оценкой D£*). Переход к несмещенной оценке s2 важен в основном для малых выборок, ибо разница между s2 и при боль ших п незаметна. Однако во избежание разногласий мы в дальнейшем под выборочной дисперсией будем понимать только s2.
Используя знак 2 для обозначения суммы по всем эле ментам выборки, получим удобные сокращенные формулы
среднего и дисперсии выборки |
|
|
s2 = T Z T |
^)2' |
И-1) |
) Более подробно о несмещенных оценках см. ниже, в п. 5.1.
4.4. СРЕДНЕЕ И ДИСПЕРСИЯ ВЫБОРКИ |
93 |
В практических вычислениях для дисперсии s2 часто удоб на формула
s2 |
_1_ |
(£*/)* 1 |
|
п — 1 |
|
легко вытекакЛцая из (4.1).
Величина s (корень квадратный из выборочной диспер сии) называется средним квадратичным отклонением вы борки или выборочным стандартом.
Тот факт, что для получения несмещенной оценки дис персии D£ в знаменателе выборочной дисперсии пришлось п заменить на п—1, непосредственно связан с тем, что вели
чина х, относительно которой берутся отклонения, сама зависит от элементов выборки. Если бы в формуле выбо рочной дисперсии были две такие величины, то п нужно было бы заменить на п—2 и т. д. (со значительным уменьше нием знаменателя выборочной дисперсии нам еще придется столкнуться в регрессионном анализе, п. 9.2).
Каждая величина, зависящая от элементов выборки и участвующая в формуле выборочной дисперсии, называется связью. Оказывается (это можно строго доказать), знаме натель выборочной дисперсии всегда равен разности между объемом выборки и числом связей, наложенных на эту вы борку. Эта разность фактически показывает, какое коли чество элементов выборки можно произвольно изменять, не нарушая связей, поэтому она называется числом степеней свободы выборки. Число степеней свободы участвует не только в формуле выборочной дисперсии, но и в формулах всех случайных величин, так или иначе связанных с этой дисперсией.
Математическое ожидание М£ и дисперсию D£ самой случайной величины £ называют обычно генеральным сред ним и генеральной дисперсией. Применяя различные мето дики испытаний, мы будем получать различные случайные величины, даже исследуя один и тот же объект; соответствен но будут меняться и D£. Следовательно, генеральное среднее и генеральную дисперсию можно использовать для характеристики методик испытаний. При этом нужно хорошо представлять себе, что генеральное среднее и гене ральная дисперсия, взятые по отдельности, слабо характе ризуют методику испытаний. Так, методика с большой
94 § 4. НАБ Л ЮД ЕН И Я
дисперсией (малой точностью) может из-за отсутствия систе матических ошибок дать лучшее приближение к истинному результату, чем методика с малой дисперсией, но с систе матической ошибкой.
Итак, среднее и дисперсия характеризует две различные важные стороны применяемой методики испытаний: среднее характеризует результат, даваемый методикой, а диспер сия — точность этого результата, точность методики.
На этом «разделении ролей» среднего и дисперсии основана обработка так называемых «текущих измерений», к изло жению которой мы и перейдем.
Как уже указывалось, генеральное среднее и генеральная дисперсия оцениваются средним и дисперсией выборки тем точнее, чем больше объем выборки. В практической работе, однако, не всегда есть возможность провести достаточно большое число наблюдений; если же такая возможность есть, то на проведение большой серии наблюдений потре буется много времени, в течение которого результат или точность методики могут измениться. В то же время в руках исследователя часто имеются большие совокупности наб людений, в которых неизменна только дисперсия или только среднее. Например, состав неизвестного вещества одновре менно исследуется в нескольких лабораториях, в силу чего точность методики (дисперсия) по всем наблюдениям не бу дет одинакова, но среднее всех наблюдений (при отсутствии систематических и грубых ошибок) одно и то же. Часто встречается и такая ситуация, когда для различных изме рений с различными средними применяется одна и та же методика, одни и те же приборы, и значит, дисперсия по всем наблюдениям не изменится.
Оказывается, изменение одного из чисел (среднее, дис персия) не мешает использовать все наблюдения для на хождения второго числа, если оно остается неизменным. Проще всего обстоят дела с вычислением среднего — здесь изменением дисперсии можно просто пренебрегать. При вы числении дисперсии нужно уже учитывать изменение сред него, что позволит найти общую дисперсию «текущих изме рений».
Для вычисления дисперсии все наблюдения разбивают на отдельные выборки, в каждой из которых среднее можно считать неизменным. Пусть эти частные выборки имеют
|
4.4. С РЕ Д Н Е Е И ДИСПЕРСИЯ ВЫБОРКИ |
95 |
объемы пъ |
пг, ..., nk. Вычислим частные дисперсии |
si, si, |
..., s i для |
каждой такой выборки в отдельности. Общая |
дисперсия всех наблюдений будет теперь равна средневзве шенному значению частных дисперсий (в качестве весов бе рутся степени свободы):
s2 _ (п1 — О s l~l~(п2— 1) So 4~ • • • + ( ^ f e — 1) s i
Отметим, что в знаменателе, как всегда, стоит общее число степеней свободы для всей объединенной выборки. Дейст вительно, каждая частная выборка имеет свою связь, зна чит, всего k связей.
Рассмотрим пример вычисления дисперсии по «текущим измерениям». Спектральный метод определения фосфора в чугуне по различным образцам дал значения, приведен ные в таблице 4.1 (в % содержания фосфора). Используем все эти данные для вычисления дисперсии указанного ме тода; соответствующая схема рекомендуется для обработки любых «текущих измерений».
Т а б л и ц а 4.1
Номер наблюде- |
|
|
Номер образца |
/ |
|
11 И Я / |
1 |
2 |
3 |
4 |
5 |
1 |
0,42 |
0,26 |
0,09 |
0,60 |
0,47 |
2 |
0,38 |
0,24 |
0,08 |
0,64 |
0,44 |
3 |
0,39 |
0,21 |
0,08 |
0,62 |
0,46 |
4 |
0,36 |
0,23 |
0,09 |
0,62 |
0,47 |
5 |
0,41 |
— |
0,12 |
0,64 |
0,49 |
6 |
0,39 |
— |
0,08 |
0,59 |
0,45 |
7 |
0,40 |
— |
— |
0,61 |
0,48 |
8 |
0,41 |
— |
— |
0,63 |
— |
* * / |
3,16 |
0,94 |
0,54 |
4,95 |
3,26 |
|
|
|
|
|
|
2х] |
1,2508 |
0,2222 |
0,0498 |
3,0651 |
1,5200 |
п,- |
8 |
4 |
6 |
8 |
7 |
96 |
§ 4. Н АБ Л Ю Д Е Н И Я |
В нижних трех строчках таблицы 4.1 указаны резуль таты подсчета сумм данных каждой колонки, сумм квадра тов этих данных, а также объемы наблюдений по каждому образцу (число данных в колонке). Эти числа нужны для вычисления дисперсий s2 по формуле
S; = |
( S i i l ' |
|
Я/ |
||
|
Для вычисления общей дисперсии s2 нам понадобятся, од нако, не сами s2, а произведения
К — 1)«*
ni
По результатам первой колонки легко находим
(«!— l)s? = 1,2508— |
1,2508 — 1,2482 = 0,0026. |
Аналогичные расчеты дают |
значения |
(п2— 1) si = 0,0013, |
(п3— 1) s§ = 0,0012, |
(п[— 1)s\ = 0,0023, |
(пь— 1) si = 0,0018. |
Общее число степеней |
свободы здесь |
равно |
|
8 + 4 + 6 + 8 + 7 —5 = 28. |
|
||
Поэтому |
|
|
|
0,0026 + 0,0013 + 0,0012 + 0,0023 + 0,0018 |
0,00033. |
||
|
28 |
|
|
|
|
|
|
Извлекая квадратный |
корень, можем |
найти |
|
|
s = 0,018. |
|
|
При обработке наблюдений чаще всего приходится стал киваться с нормальным распределением. Для такого рас пределения математическое ожидание и дисперсия обозна чаются через а и а2. Во всех случаях, где это не может вызвать недоразумений, мы будем использовать эти обозначе ния и для любых других распределений: а — генеральное
среднее, а2 — генеральная |
дисперсия (соответственно о — |
||
генеральный стандарт). |
о играет |
очень важную роль |
|
Генеральный |
стандарт |
||
в большинстве |
вопросов обработки |
наблюдений. Как мы |
4.4 СРЕДНЕЙ И ДИСПЕРСИЯ ВЫБОРКИ |
97 |
увидим ниже, знание генерального стандарта дает всегда более точные оценки и в то же время заметно облегчает их получение. К сожалению, данные наблюдений не позво ляют находить точное значение генерального стандарта, и мы вынуждены использовать лишь выборочный стандарт. Возникающая при этом погрешность тем меньше, чем боль шее число наблюдений участвовало в вычислениях выбо рочного стандарта, точнее, чем больше число степеней сво боды у выборочной дисперсии.
Число степеней свободы у средневзвешенной дисперсии s2 гораздо больше, чем у каждой дисперсии s] в отдельности. Поэтому-s намного точнее отражает генеральный стандарта. В приведенном выше примере вычисления дисперсии по «текущим измерениям» можно теперь считать, что а=0,018, используя это значение стандарта при дальнейших приме нениях спектрального метода определения фосфора в чугуне. Подобное соображение особенно ценно в тех случаях, когда одна и та же методика повторяется много раз (например, при контроле за производством).
Рассмотрим теперь некоторые вопросы, связанные с об работкой косвенных измерений, т. е. случайных величин, полученных не непосредственно из наблюдений, а путем некоторого функционального перехода. Почти все иссле дования бывают связаны с косвенными измерениями, ибо величины, найденные из опыта, редко используются в даль нейшем сами по себе — гораздо чаще их приходится пере считывать по тем или иным формулам.
Пусть случайная величина z зависит от наблюдений хи
х2, |
хп по известному закону |
|
|
г = ф(л-1, х2, |
*„). |
Тогда |
истинное значение величины z может не совпадать |
с математическим ожиданием Mz, и его естественнее опреде лить этим же законом
аг = ^ { ап а2> аг.)>
где а,— генеральные средние величин х{. Число аг на зывается обычно средним косвенного измерения.
Дисперсия косвенного измерения о\ определяется так же, как обычная дисперсия, только отклонения берутся не от Mz, а от среднего косвенного измерения аг. Эта дисперсия
4 Е. И. Пустылышк
98 § 4. Н АБ Л Ю Д Е Н И Я
обладает всеми свойствами обычной дисперсии; ее можно найти, если известны дисперсии а2 отдельных наблюдений х {. На практике чаще приходится иметь дело с выборочными дисперсиями s], по которым определяется некоторое число si фо\. При достаточно больших числах степеней свободы у дисперсий s] найденное s| оказывается близким к диспер сии косвенного измерения а|. Из соображений аналогии s\ называют обычно выборочной дисперсией косвенного изме рения г.
Чтобы найти si, разложим z в ряд Тейлора, ограничи ваясь членами первого порядка и предполагая, что отдель ные наблюдения x-t мало отличаются от своих истинных
значений |
а,-: |
|
|
|
z ^ ф (fllf |
а2, |
дф(Дь |
а,, . . . . |
ап) |
ал) + |
дхх |
(*i —Ai) + |
||
|
|
|
|
дхг |
Воспользовавшись тем, что дисперсия суммы независимых величин равна сумме дисперсий и что дисперсия постоянной величины равна нулю, найдем
Вчастности, если z зависит только от одного наблюдения
хпо закону г=ф(х), то
az = 'H ax), s* = [\|)' (*)]2s2. |
(4.2) |
В заключение пункта отметим, что при неизвестном рас пределении наблюдаемой случайной величины генераль ное среднее а и генеральная дисперсия а2 представляют в основном лишь самостоятельную ценность (см. п. 7.2). Если же известно, что изучаемое распределение нормально, то числа а и а2 полностью определяют его, и следовательно, знание этих чисел является исчерпывающим знанием о ве личине
§ 5. ОСНОВНЫЕ ЗАДАЧИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
5.1.Параметры распределения. Важнейшая задача мате
матической |
статистики, решение которой позволило бы, |
в принципе, |
решить и все остальные задачи — это нахож |
дение функции распределения наблюдаемой случайной величины. Для решения этой задачи можно пользоваться тео ремой Гливенко (см. п. 4.3), которая позволяет неизвест ное распределение приближенно заменять эмпирическим распределением случайной величины Теорема Гливенко не использует никаких специфических свойств генеральной совокупности, целиком опираясь на случайность выборки и соответствующие вероятностные закономерности; она при менима к любым случайным величинам. Естественно, что от теоремы с такими общими условиями трудно ждать тон ких результатов. И действительно, теорема Гливенко может быть практически использована лишь при очень больших объемах выборки. Например, для того чтобы быть доста точно уверенным, что эмпирическая функция распределе ния Fn(x) отличается от неизвестной функции распределе ния F(x) не более, чем на 0,1, нужно брать выборку объе мом не меньше 185 элементов *).
К счастью, при обработке наблюдений редко приходится прибегать к построению эмпирической функции распреде ления. Даже простейший анализ условий испытаний позво ляет с достаточной степенью уверенности определять тип неизвестной функции распределения — распределение Пуас сона, биномиальное, нормальное распределение и т. д. В подобном случае окончательное уточнение неизвестной
*) Подсчет произведен на основании теоремы Колмогорова (смниже, п. 7.1).
4*
100 § 5- ОСНОВНЫЕ ЗАДАЧИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
функции распределения сводится к определению некоторых числовых параметров распределения. Эти параметры оп ределяются по выборке, разумеется, приближенно, однако нужная точность здесь достигается при гораздо меньших объемах выборки, чем при непосредственном использова нии теоремы Гливенко.
Большинство параметров определяется и для наблю даемой случайной величины £ (в этом случае они называются генеральными), и для эмпирической случайной величины (в этом случае они называются выборочными). С двумя важ нейшими параметрами мы уже встречались — это среднее
и дисперсия. В этом пункте мы укажем еще несколько важ ных параметров; случайная величина £ при этом все время предполагается непрерывной.
Формальное определение большинства параметров рас пределения дается с помощью функции распределения*). Если в таком определении заменить генеральную функцию распределения F (х) эмпирической функцией Fn(x), то из генеральных получатся соответствующие выборочные па раметры. Поэтому тот факт, что выборочные параметры стремятся к генеральным при увеличении объема выборки, обеспечивается уже теоремой Гливенко, хотя при этом, как правило, получается весьма грубая оценка погрешности. В результате возникает основная задача, связанная с па раметрами: используя специфические свойства каждого па раметра в отдельности, найти для него более удобную оценку.
Пусть изучается генеральный параметр а и пусть по выборке объема п определена некоторая величина а„ (не обязательно соответствующий выборочный параметр). Го ворят, что ап является состоятельной оценкой параметра а, если с вероятностью единица а л—хх при п-+оо. Используя теорему Гливенко, мы можем теперь сказать, что выбороч ные параметры являются состоятельными оценками своих генеральных параметров.
Оценка ап называется несмещенной, если при каждом фиксированном п математическое ожидание Мал= а . В част
*) Такие определения используют, как правило, сложное понятие интеграла Стилтьеса. Поэтому в дальнейшем даются раздельные форму лы параметров: для генеральной совокупности через плотность распре деления, для выборки — через ее элементы.