1139
.pdf5.3. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ |
111 |
верительной вероятностью. В зависимости от конкретных обстоятельств в качестве доверительной вероятности берут 0,95; 0,98; 0,99; реже 0,90 или 0,999.
Соответствующие доверительной вероятности квантильные границы (только такие границы и будут рассматри ваться в дальнейшем) называются доверительными грани цами, образуемый ими интервал — доверительным интер валом (или доверительной оценкой).
Найдем, например, доверительную оценку генерального среднего а по одному наблюдению х0=3, если известно, что генеральная совокупность имеет нормальное распре
деление со стандартом а=0,9. |
В качестве доверительной |
вероятности возьмем 0,95. |
|
Как показано в начале пункта, соответствующая оцен |
|
ка имеет вид х0—е ^ а ^ х 0+ е, |
где е есть оценка абсолют |
ного отклонения. Иными словами, в качестве доверитель ных границ можно взять симметричные квантили а0)025 и о0,97б нормального распределения со средним х0=3 и стан дартом а=0,9. Используя формулу (5.1) предыдущего пунк та, найдем, что
,025 = 3 + 0,9 (—1,96) = 1,236, уо,975 = з + 0,9 • 1,96 = 4,764
(здесь число и0,97Ь= 1,96 найдено из таблицы II Приложе ния). Окончательно получим, что
1,236 < а < 4,764. |
|
Возможно, полученный |
доверительный интервал нас |
не устроит. Однако любое |
его сужение повлечет снижение |
доверительной вероятности, что нежелательно. Поэтому единственный путь улучшения оценок — снижение соответ ствующей дисперсии (путем улучшения методики, уточне ния действующих факторов и т. д.).
5.3. |
Проверка статистических гипотез. Из принципа прак |
||||
тической достоверности, изложенного в предыдущем |
пунк |
||||
те, немедленно вытекает принцип практической невозмож |
|||||
ности: |
события |
с очень |
малыми вероятностями |
можно |
|
в практических |
приложениях |
считать невозможными. |
|||
В качестве примера использования этого принципа на |
|||||
помним |
сформулированное |
в |
п. 3.2 правило трех |
сигм. |
112 § 5 ОСНОВНЫЕ ЗАДАЧИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
Вероятность того, что абсолютное отклонение нормально распределенной случайной величины превзойдет ее стан дарт о не более, чем в три раза, равна 0,9973. Значит, вероятность отклонения, большего За, равна 0,0027. С прак тической точки зрения столь малой вероятностью можно пренебречь, что и приводит к правилу трех сигм.
Принципы практической достоверности и практической невозможности представляют собой, в сущности, одно и то же утверждение, примененное к- противоположным событиям. Поэтому, вместо того чтобы говорить о практи ческой достоверности некоторой доверительной оценки, можно говорить о практической невозможности отклонений, превышающих эту оценку Если для нормально распределен ной случайной величины в качестве доверительной вероят ности взять 95% , то соответствующей доверительной оценкой абсолютного отклонения будет неравенство
Д£ ^ 1,96а.
Отклонения, большие чем 1,96а, нужно теперь считать прак тически невозможными. Разумеется, такая оценка более «рискована», чем правило трех сигм, поэтому ею можно поль зоваться лишь при малом числе предстоящих испытаний (чаще всего при одном испытании).
Допустим теперь, что отклонения Д£, большие, чем не которое доверительное число, признаны нами практически невозможными. Этот вывод был, очевидно, сделан на осно вании некоторого теоретического распределения, которое, по тем или иным соображениям, мы считаем распределением величины £. Производя наблюдение, мы получим реальное значение отклонения ДЕ. И может оказаться, что это реаль ное значение превосходит доверительную оценку. Какой вывод нужно из этого сделать?
Первое, что может прийти на ум — это влияние случая. Ведь доверительная оценка не является абсолютно досто верной; возможно, здесь в первом же испытании сыграла роль та ничтожно малая (но существующая!) вероятность, которой мы пренебрегли в доверительной оценке. Однако при таком допущении пришлось бы отказаться от принци
па |
практической достоверности, |
который |
уже в тече |
ние |
многих столетий надежно |
проверен |
человеческой |
практикой. |
|
|
5.3. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ |
113 |
Поэтому более естественным будет второе предположе ние: несоответствие принятого нами теоретического распре деления реальному распределению величины Это несоот ветствие может быть коренным (не тот тип распределения) или может быть связано с неправильным определением па раметров распределения. Таким образом, принцип практи ческой невозможности удается использовать в этом примере как один из критериев проверки гипотезы о распределении величины
Принцип практической невозможности может быть ис пользован в самых различных задачах, где возникает необхо димость проверять, случайно или неслучайно появилось то или иное событие. При этом всякий раз практическая не возможность события полностью отвергает случайность его появления, заставляя пересмотреть исходные предпосылки вычисления вероятности.
Эти рассуждения ясно вырисовывают разницу исполь зования теории вероятностей для изучения предстоящих или уже осуществившихся событий. По отношению к пред стоящим событиям главное —это надежное предвидение, поэ тому здесь мы интересуемся лишь событиями с большими вероятностями. Из осуществившихся же событий нас инте ресуют в первую очередь события с малой вероятностью. Чем меньше расчетная вероятность уже осуществившегося события, тем больше его «неслучайность» и тем важнее эту «неслучайность» раскрыть. Событие как бы сильнее прико вывает к себе внимание наблюдателя, становится для него более значимым.
Использование принципа практической невозможности для доказательства неслучайного появления события с ма лой вероятностью называется принципом значимости. Наи большее значение вероятности, несовместимой со случай ностью события, называется уровнем значимости. Иными словами, уровень значимости есть максимум таких вероят ностей, при которых события можно считать практически невозможными. Но событие, противоположное практически невозможному, является практически достоверным. Поэ тому принятые нами уровень значимости и уровень досто верности должны в сумме давать единицу.
Теперь можно дать более строгое определение значимсоти событий. Событие А называется значимым, если его
114 § 5. ОСН ОВНЫЕ ЗАДАЧИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
вероятность Р(А) меньше, чем принятый уровень значимо сти. Чем выше уровень значимости, тем он «жестче», ибо тем большее число событий нельзя рассматривать как случай ные. Уровень значимости—это как бы величина ячеек «сита», сквозь которое отсеиваются неслучайные события. Наи более употребительны уровни значимости 0,05; 0,02; 0,01; реже 0,10 или 0,001. Чтобы лучше «почувствовать» уровень
Рис. 20.
значимости, можно пользоваться аналогией между вероят ностью и частотой, считая, что уровень значимости, выра женный в процентах, показывает, сколько раз в ста испы таниях мы рискуем ошибиться, объявив изучаемое событие неслучайным. Так, наиболее употребительный в данной книге 5%-ный уровень значимости допускает ошибку в пяти случаях из ста. Поскольку каждую проверку гипотезы мож но считать одним испытанием, то такой уровень вполне до пустим при единичных проверках.
Чаще всего принцип значимости применяется для про верки так называемых статистических гипотез. Эти гипо тезы имеют самые различные формулировки, но, в конеч ном счете, являются гипотезами о распределении той или иной случайной величины. Проверка каждой такой гипо тезы осуществляется следующим образом.
Выбирается уровень значимости р, ему соответствует доверительная вероятность 1—р. По этой вероятности, используя гипотезу о распределении величины £, находят квантильные доверительные границы, как правило симмет ричные,т. е. \р/2и £t_p/2. Числа £р/2и £I_ p/2 называются кри тическими значениями гипотезы; значения х, меньшие, чем |р/2, и большие, чем £,I- p/2, образуют критическую область гипотезы (рис. 20). Для многих широко используемых на практике распределений составлены таблицы критических значений при различных уровнях значимости.
Следующим этапом находят реальное значение £0 изу чаемой случайной величины (обычно его вычисляют по вы
5.3. Пр о в е р к а с т а т и с т и ч е с к и х г и п о тез |
115 |
борке). Если найденное значение £0 попадает в критическую область, то, по нашей гипотезе оно является практически невозможным. Но так как оно все-таки появилось, то долж на быть отвергнута гипотеза. Если же £0 попадает между \ р/2 и £,1 —р/2 , т о гипотеза вполне допускает такое значение в качестве случайного (на данном уровне значимости); поэтому нет никаких оснований ее отвергать.
Мы видим, что первое суждение (гипотеза неверна) гораздо более категорично, чем второе (гипотеза не отвер гается, но и не утверждается, что она верна). И это не уди
вительно — в |
обоих случаях для проверки |
гипотезы |
используется |
лишь одно значение £0- Но если для |
опровер |
жения гипотезы достаточно одного противоречащего при мера, то доказать правильность гипотезы нельзя даже с помощью тысячи подтверждающих примеров — опровер гающим может оказаться еще не найденный нами тысяча первый. Конечно, и подтверждающие примеры не беспо лезны для научного познания, ибо каждый такой пример есть испытание, увеличивающее вероятность того, что гипотеза правильна*).
Принимая решение по результатам проверки, мы можем допустить ошибку. Возможные ошибки различаются по своему характеру. Ошибка первого рода состоит в том, что отвергается гипотеза, которая на самом деле верна. Вероят ность такой ошибки не выше уровня значимости, следова тельно, достаточно мала. Ошибка второго рода состоит в том, что гипотеза принимается, а на самом делеона не вер на. Вероятность ошибки второго рода зависит от характера проверяемой гипотезы, от способа проверки и от многих других причин, что сильно усложняет ее оценку. Ясно только, что эта вероятность тем меньше, чем «жестче» при нятый уровень значимости, ибо при этом увеличивается число отвергаемых гипотез.
Одну и ту же статистическую гипотезу можно исследо вать с помощью различных случайных величин. Каж дый такой способ исследования называется критерием значимости. Для проверки гипотезы стараются из всех
*) Понятие «вероятность» употреблено здесь не совсем точно — это, скорее, житейская уверенность (ибо правильность гипотезы не есть случайное событие).
116 $ 5. ОСНОВНЫЕ ЗАДАЧИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
возможных критериев выбрать тот, у которого при заданном уровне значимости меньше вероятность ошибки второго рода. Теория такого выбора в общем виде слишком сложна и вы ходит за рамки настоящей книги; отдельные сведения о конт роле за ошибками второго рода имеются в следующем пунк те и п. 10.2.
5.4. Односторонние и двусторонние критерии. Наиболее часто встречаются статистические гипотезы, связанные со сравнением различных выборок.
Рассмотрим следующий пример. Изучаются два типа резцов, применяемых при обработке деталей на токарном станке. С помощью резцов получают некоторое число дета лей. Диаметры этих деталей образуют две выборки, соот ветствующие каждому типу резца; дисперсии этих выборок несколько различаются. Такое различие может, конечно, оказаться результатом случайных причин, а может быть и следствием разницы резцов. Зная, что распределения ре зультатов по каждому резцу являются нормальными, мы должны фактически проверить гипотезу, одинаковы ли генеральные дисперсии этих распределений Если такая ги потеза будет отвергнута, то одному из резцов нужно будет отдать предпочтение.
Другим примером может служить сравнительное испы тание на всхожесть двух сортов пшеницы. Вычисляя коли чество проросших семян каждого сорта на нескольких уча стках, мы, как и выше, получим две выборки, у которых теперь нужно сравнивать средние. Если генеральные сред ние обоих соответствующих распределений окажутся оди наковыми, то различие между сортами пшеницы будет толь ко случайным; если же они окажутся разными, то различны по всхожести и сами сорта.
Сравнение двух или нескольких выборок приходится проводить, сравнивая различные методики анализа, раз личные условия производства; с такой же задачей прихо дится сталкиваться при обработке «текущих измерений» (см п. 4.4). Весьма важно следить за неизменностью основ ных параметров при исследованиях, требующих длительного времени.
Приведенным примерам соответствует следующая об щая схема. Найдены два значения аг и а 2 некоторого выбо
S.4. ОДНОСТОРОННИЕ И ДВУСТОРОННИЕ КРИТЕРИИ |
117 |
рочного параметра. Эти значения можно рассматривать как оценки генеральных параметров А х и А 2. Высказывает ся гипотеза, что различие между а х и а2 чисто случайное и что на самом деле АХ^=Л2, т. е. между генеральными пара метрами нет различий. Такая гипотеза называется нуле вой. Для проверки этой гипотезы нужно выяснить, значимо ли расхождение между а х и а2 в условиях нулевой гипоте зы. С этой целью обычно исследуют случайную величину Д а=ах—а2 и проверяют, значимо ли ее отличие от нуля.
Иногда удобнее рассматривать величину —, сравнивая а2
ее с единицей. Конкретные методы таких исследований при водятся в следующем параграфе.
Гипотеза А \ф А 2 называется альтернативной. Отвер гая нулевую гипотезу, мы тем самым принимаем альтерна тивную гипотезу Альтернативная гипотеза в свою очередь распадается на две: А {> А 2 и Ax<o42. Если одно из этих неравенств заведомо невозможно, то альтернативная ги потеза называется односторонней и для ее проверки приме няются односторонние критерии значимости (в отличие от обычных, двусторонних).
Как будет показано ниже, односторонний критерий зна чимости имеет намного меньшую вероятность ошибки вто рого рода, чем соответствующий двусторонний. Уже из этого видно, насколько полезно предварительно выяснить, какой из сравниваемых параметров и А2 не может быть меньше другого. Односторонний характер альтернативной гипотезы зачастую вытекает из самой постановки задачи. Например, изучая эффективность некоторого усовершен ствования производственного процесса, мы заранее можем считать, что это усовершенствование способно лишь умень шить дисперсию процесса. Точно так же при исследовании удобрения можно считать, что его применение увеличивает среднюю урожайность (т. е. генеральное среднее).
Односторонний критерий значимости легко |
получать |
из двустороннего. Обратимся к рис. 20. Мы видим, |
что кри |
тическая область гипотезы (заштрихованная на рис. 20) состоит из двух частей. Каждая часть соответствует своему неравенству: А{> А2 или А г<.А2. Если мы заранее знаем, что возможно лишь одно из этих неравенств, то и рассмат ривать мы должны лишь одну из половин критической
118 § 5 . ОСНОВНЫЕ ЗАДАЧИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
области. Вероятность попадания в критическую область
Р
уменьшится, тем самым, ровно вдвое и станет равна —■.
Таким образом, при одностороннем критерии значимо сти можно использовать те же критические значения, что и при двустороннем, однако этим значениям будет соответ ствовать вдвое меньший уровень значимости. Например, уровню значимости 0,05 при двустороннем критерии соот ветствуют критические значения £0)025 и £0,975»т- е- значи мыми (неслучайными) считаются значения £0, удовлетво
ряющие неравенствам £0<£о,о25 и £о>£о,975Если же перей ти к одностороннему критерию, то одно из этих неравенств (например, £о<£о,о2ь) заведомо невозможно и значимыми будут лишь значения Н0> удовлетворяющие другому нера венству (£о> £ о,97б)- Вероятность последнего неравенства равна 0,025, таков и будет уровень значимости односторон него критерия.
Обычно для одностороннего критерия берут тот же уро вень значимости, что и для двустороннего, так как ошибка первого рода в обоих случаях нежелательна совершенно одинаково. Для этого нужно выводить односторонний кри терий из двустороннего, соответствующего вдвое большему уровню значимости, чем тот, что нами принят. Так, в пре дыдущем примере, желая сохранить уровень значимости 0,05 для одностороннего критерия, мы для двустороннего должны были бы взять уровень 0, 10, что дало бы критиче ские значения £0i05 и ,95- Из этих значений для односторон него критерия сохраняется одно (скажем, £0,95)» которое и бу дет окончательным критическим значением, соответствую щим одностороннему критерию при уровне значимости 0,05.
Итак, при одном и том же уровне значимости 0,05 од ному и тому же неравенству А{^>А2 в случае двустороннего критерия соответствует критическое значение t 0i975, а од
ностороннего — g0,95Но £0,95< £ о,975>значит, при одностороннем критерии большее число значений £0 придется считать не случайными (значимыми), большее число ги потез будет отвергнуто. Тем самым уменьшится вероят ность принять неверную гипотезу, допустить ошибку вто рого рода. А вероятность ошибки первого рода как для одностороннего, так и для двустороннего критерия остается одинаковой, ибо она равна уровню значимости.
5.4. ОДНОСТОРОННИЕ И ДВУСТОРОННИЕ КРИТЕРИИ |
119 |
Чтобы нагляднее подчеркнуть преимущества односто роннего критерия значимости перед двусторонним, приве дем следующий пример. Сталеплавильный завод изготов ляет специальную сталь, которая должна содержать 40% ванадия. Контроль ведется на уровне значимости 0,05; методика контроля дает нормальное распределение резуль татов со стандартом а=2% . Контрольный анализ партии стали дал для содержания ванадия значение 36,4%. Доста точно ли этого результата, чтобы забраковать партию?
Обозначим через £ результат произвольного анализа над доброкачественной сталью. Согласно условиям задачи ве личина £ имеет нормальное распределение с параметрами а = 40 и сг=2. Правило вычисления квантилей такого рас пределения было указано в п. 5.1. Используя таблицы II Приложения, найдем
ио,о25 = 40 -Ь2ио1025 = 4 0 -2 -1 ,9 6 = 36,08, vo,975 = 40 + 2ц0)в75 = 40 + 2 • 1,96 = 43,92.
В качестве нулевой гипотезы здесь нужно взять гипо тезу о том, что исследуемая сталь доброкачественна и, сле довательно, значение £„=36,4 появилось в результате слу чайностей анализа. Критическими значениями такой ги потезы при двустороннем критерии будут числа у0<025=36,08 и ^0,975=43,92; критическая область образуется неравенст вами £<36,08 и £>43,92. Значение £„=36,4 не попадает в эту критическую область, следовательно, двусторонний критерий не позволяет отвергнуть нулевую гипотезу и счи тать сталь недоброкачественной.
Условия задачи позволяют применить односторонний критерий значимости. Действительно, найденное значение £„=36,4 меньше медианы цО)5О=40, поэтому его можно сравнивать только с теми критическими значениями, кото рые меньше 40. Критическим значением проверяемой нуле вой гипотезы при одностороннем критерии является кван тиль yOiO5=40+2wOiO5=40—2 -1,64=36,72.
Мы видим, что £„<36,72, т. е. £„ попадает в критическую область. Таким образом, односторонний критерий, как бо лее точный, сумел при тех же исходных данных выявить недоброкачественность стали-
§ 6. ОЦЕНКА РЕЗУЛЬТАТОВ НАБЛЮДЕНИЙ НАД НОРМАЛЬНО РАСПРЕДЕЛЕННОЙ СЛУЧАЙНОЙ ВЕЛИЧИНОЙ
6.1. Оценка генерального среднего. В настоящем пара графе рассматриваются некоторые методы статистических оценок. При этом постоянно предполагается, что наблюдае мая случайная величина (или, как мы условились говорить, генеральная совокупность) имеет нормальное распределе ние. Чере? р все время обозначается принятый уровень зна чимости; доверительная вероятность соответственно будет равна 1—р.
Основным оцениваемым параметром является генераль ное среднее. Особенно важную роль играет среднее в обра ботке наблюдений — ведь здесь оно совпадает с истинным результатом наблюдений (см. п. 4.2).
Легче всего дать оценку для генерального среднего в тех случаях, когда с достаточно высокой степенью точности известна генеральная дисперсия а2. Генеральную диспер сию можно найти только приближенно по выборочной дисперсии; погрешность такого приближения в зависимо сти от объема выборки п изучается в следующем пункте. На практике эту погрешность обычно не учитывают уже при 50. Разумеется, такое большое количество наблю дений над одним объектом проводится редко. Однако здесь можно пользоваться сериями наблюдений и над другими объектами, если только у этих серий та же самая генераль ная дисперсия (сравнение двух или нескольких дисперсий также возможно методами математической статистики, оно изучается ниже, в п. 6.3). Дисперсия будет тогда вычис ляться по «текущим измерениям», как указывалось в конце п. 4.4. Используя наблюдения над большим количеством объектов, мы сможем сделать общее число наблюдений до