Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистический анализ данных в геологии. Кн. 1

.pdf
Скачиваний:
6
Добавлен:
12.11.2023
Размер:
14.63 Mб
Скачать

Вероятность получения представителя совокупности рода <Composita, длина которого меньше — 2,4 стандартных отклоне­ ний, есть кумулятивная вероятность в этой точке: по нашей табл. 2.10 найдем значение 0,0082, которое в действительности очень мало. Теперь вычислим вероятность появления предста­ вителя, длина которого превышает 20 мм.

Снова требуемую величину преобразуем в стандартную нормальную форму:

Z = (20,0 — 14,2)/4,7 = 1,2.

Так как суммарная площадь под кривой нормального распре­ деления равна 1,00, то вероятность получения величины х, рав­ ной или большей 1,2 стандартных отклонений, т. е. большей, чем среднее, равна разности 1,00 и кумулятивной вероятности получения значений, не превосходящих 1,2. Иначе говоря,

Р ( х > 1,2) = 1,0 — Р ( х < 1,2).

Табл. 2,10 дает нам кумулятивные вероятности вплоть до 1,2, и вычитаемая вероятность равна 0,8849. Поэтому вероятность

появлении особей Composita длиннее 20 мм

равна 1,0000 —

0,8849 = —0,1151, или

немногим больше

одной десятой.

Теперь

вычислим вероятность

случайного выбора

Composita,

длина

которой попадает в интервал от 15 до 20 мм:

 

 

для

15 мм

 

 

 

 

 

Z =

(1 5 ,0 - 14,2) /4,7 «0,2,

 

 

для

20 мм

 

 

 

 

 

Z =

(20,0 — 14,2)/4,7 ~

1,2,

 

 

Р( х < 1,2) =0,8849,

Р0,2) = 0,5793, Р(0,2 < Ж 1,2) =0,3056,

т.е. примерно одна треть образцов попадает в заданный интер­ вал.

Центральная предельная теорема

В этом примере предполагалось, что выборка была сделана из нормально распределенной совокупности. К сожалению, мы обычно не знаем, какой вид имеет распределение, и иногда подозреваем, что оно значительно отличается от нормального. Из этого не следует, что нормальное распределение бесполез­ но, так как имеет место замечательная центральная предель­ ная теорема. Она утверждает, что если выборки извлечены случайно из любой совокупности, то средние, вычисленные для этих данных, а именно выборочные средние, являются случай-

62

Выборка 1

------------ о--------X , -------------- о— о

Выборка 2

о----- о---------------Х2---------о------ о— о

 

Выборка 3 о— о----------о— х3-----------------о-о

Рис. 2.24, Три

выборки

из пяти наблюдений, взятые наудачу из совокупности

с L'-образным

распределением. Средние

значения выборок обозначены че­

 

 

рез X

 

 

ными величинами,

распределение

которых

стремится к нор­

мальному при увеличении объема выборки.

 

Центральная предельная теорема кажется на первый взгляд

не вполне понятной; трудно понять, почему

средние выборок

должны подчиняться нормальному распределению, если образ­ цы были выбраны из совокупности совершенно другого типа. Однако моделирование позволяет убедиться в том, что эта теорема на самом деле верна. Предположим, что мы произво­ дим выборку из совокупности, имеющей совершенно отличное от нормального распределения б^-образного вида, как это по­ казано на рис. 2.24. Большая часть индивидуальных наблюде­ ний в выборке будет получена из двух краев распределения, которые содержат пик совокупности. Когда эти значения усред­ няются с целью нахождения среднего арифметического, боль­ шие значения погашаются низкими значениями, в результате получается среднее, близкое к центру распределения. Только в очень редких обстоятельствах, когда все случайно выбранные наблюдения окажутся близкими либо к высоким значениям, либо к самым низким, при вычислении среднего мы получим значение, которое сильно отличается от центрального.

Заметим, что выборочные средние значения кластеризуются (собираются в пучки) вблизи центрального значения гипотети­ ческого распределения на рис. 2.24. Если этот эксперимент повторить тысячу раз и больше, то окажется, что выборочные средние будут располагаться наподобие хорошо известной ко­ локолообразной нормальной кривой. По существу, те же самые

ба

Рис. 2.25. Распределение среднего А' для большого числа выборок объема п взятых наудачу из совокупностей, с распределением, отличающимся от нор­ мального.

Центральная предельная теорема позволяет утверждать, что распределение X по мере

увеличения п стремится к

нормальному, а — распределения исходных

совокупностей,

из которых взяты выборки;

б—г — распределение X для выборов объема

п=2 (б), /;=4

 

(в) и л ->25 (г) [221

 

результаты будут получены, если начать почти с любого дру­ гого исходного распределения, как, например, изображено на рис. 2.25, взятом из книги Л. Л. Лапина f22J.

Так как распределение выборочных средних стремится к нормальному, то его можно описать только двумя статистика­ ми — средним [I дисперсией. Как теоретическое, так и эмпири­ ческое исследования показывают, что среднее значение выбо­ рочных средних равно среднему совокупности, т. е. Х х =д. Дис­ персия выборочной средней равна дисперсии совокупности, де­

ленной на объем выборки, или s2^ =а2/п. Стандартное отклоне­

ние выборочных средних есть квадратный корень из этого чис­ ла и называется стандартной ошибкой оценки среднего, или

■64

просто стандартной ошибкой. Оно описывает изменчивость, ко­ торую можно ожидать от средних выборок при повторном случайном выборе из той же совокупности. Стандартная ошиб­ ка равна

se = V о2/п,

 

пли к:внвалентно

 

 

se =

о У 1/ц.

(2.27)

Центральная предельная

теорема позволяет

сформулиро­

вать статистические критерии, основанные на характеристиках нормальной кривой, и применять их даже в тех случаях, когда совокупность, из которой взята выборка, не распределена нор­ мально. Предположим, что палеонтолог, который занимался исследованием коллекции Composita, нашел очень большую плиту, покрытую брахноподами. Ископаемые выглядят анало­ гично Composita, но по размерам очень велики, средняя длина десяти образцов составляет примерно 30,0 мм. Напомним, что мы «знаем», что среднее и стандартное отклонения совокуп­ ности Composita соответственно равны примерно 14,2 и 4,7 мм. Можно ли считать, что новая выборка брахиопод была извле­ чена из этой совокупности?

Мы можем определить разность между средним значением нашей новой выборки и средним значением совокупности. Эту разность затем можно сравнить с изменчивостью, которую мы бы хотели иметь для средних значений выборок, случайно из­ влеченных с заданной совокупности. Эта изменчивость задает­ ся стандартной ошибкой и является функцией как дисперсии совокупности, так и объема выборки.

Сравнение между разностью средних и стандартной ошиб­ кой можно осуществить по следующей формуле

Заметим, что проверяемая статистика вычисляется таким образом, что она в точности эквивалентна критерию, исполь­ зуемому для стандартизации переменной (см. уравнение 2.26). Проверяемая статистика Z нормально распределена со средним значением, равным нулю, и стандартным отклонением, равным единице, если выборочное среднее действительно было получе­ но для гипотетической совокупности. Если Z крайне велико, то мы вправе заключить, что наша выборка не была взята из этой совокупности. Формальное решение, однако, требует, чтобы мы установили соответствующую процедуру для вычисления прове­ ряемой статистики.

5-201

Первый шаг в статистической проверке гипотез — формули­ ровка подходящей гипотезы об исследуемой переменной. Обыч­ но такая гипотеза называется нулевой, обозначается Но и, а сущности, является гипотезой об отсутствии различия. Напри­ мер, можно предположить, что данная выборка взята из сово­ купности, имеющей заданное среднее значение. Нулевая гипо­ теза выражается в форме

Я0:ц1 = (Ло,

(2.29)

которая означает, что среднее значение ри изучаемой совокуп­ ности, из которой была взята выборка, равно заданному сред­ нему значению.

В нашем примере мы должны будем предположить, что среднее значение совокупности, из которой были взяты брахиоподы, находящиеся на плите, совпадает со средним значением совокупности рода Composita.

Сформулировав нулевую гипотезу, мы должны указать и альтернативу к ней. Подходящая альтернатива в этой ситуа­ ции может быть следующей:

#i : |Л1=#щ0,

(2.30)

т. е. что среднее значение совокупности, из которой была взята выборка, не равно заданному значению ц0. Теперь рассмотрим, процедуры проверки гипотез при заданном уровне значимости. Если две изучаемые совокупности окажутся различными, сле­ дует сделать вывод, что ископаемые остатки были взяты не из совокупности рода Composita, а из совокупности некоторого' другого рода.

Как только гипотеза сформулирована, можно на основании нашего статистического критерия принять ее или отвергнуть. Гипотеза также может быть истинней пли ложной. Это приво­ дит к тому, что возникает четыре комбинации возможных ис­ ходов, две из которых приводят к правильному выводу, а две— к неправильному. Это можно проиллюстрировать следу­ ющим образом:

 

Гипотеза верна

Гипотеза неверна

Гипотеза принимается

Правильное решение

Ошибка второго рода

Гипотеза отвергается

Ошибка первого рода

Правильное решение

Только принятие правильной или отклонение неправильной гипотезы можно считать верным решением. Если нулевая ги-

66

отез:' отвспгаетт л,

а на самом деле она верна, то возникает

, 111и:б'-а. называемая

ошибкой первого рода. Наоборот, если

иная гипотеза принимается, то совершается ошибка вто- ■ою рода. Возвращаясь к нашему примеру, проиллюстрируем (.веденные понятия:

 

 

В Д С П

твптсльтюгти

 

Гипотеза

Особи с

плиты приитле-

Особи С П Л И Т Ы

н е при-

 

жат с о в о к у п н о с т и

надложат совокупности

t ШШТЫ=|Яо

Правильное решение

Ошибка второго

рода

П'ШТЬ1=Д|Л0

Ошибка

первого рода

Правильное решение

_..;есь «ц плиты» относится, конечно, к среднему значению со­ вокупности, к которой принадлежат особи, собранные с плиты.

В распространенных статистических процедурах ьс озтность появления ошибки первого рода обозначается через м к назы­ вается уровнем значимости; эту вероятность можно . дать до применения критерия. Для того чтобы минимизировать вероят­ ность появления ошибки второго рода, запишем нулевую гипо­ тезу при условии, что она будет отклонена. Если гипотеза от­ клоняется, то вероятность появления сшибки з- орого род,а рав­ на пулю, тогда как вероятность появления ошибки первого рода известна., так как она задается заранее. Если, однако, критерий не приводит к отклонению нулевой гипотезы (т. е. нулевая гйпо- (еза принимается), то появляется некоторая вероятность сде­ лать ошибку второго рода. Эта вероятность [}, вообще говоря, неизвестна. Таким образом, если гипотеза о равенстве средних

.лвергается, мы делаем вывод о том, что две изучаемые сово­ купности имеют различные средние значения и вероятность того, что принято ошибочное решение, равна а. С другой сто­ роны, озли //о не отвергается, утверждение о том, что средние дву;, совою* .тостей совпадают, может оказаться ложным с не­ известной вероятностью (J.

Вес статистические критерии основаны на предположении, •до нулевая гипотеза и альтернатива к ней взаимно исключают ;упз друга и вместе образуют полное множество событий. Так лак нулевая гипотеза записывается в явном виде, то альтерна­ тива должна быть довольно обшей. Если Но отвергается, то мы считаем, что заданное соотношениее, описываемое нулевой ги­ потезой, не выполняются. Более того, истинное соотношение в „том случае содержится в обширном множестве альтернатив, заключенных в общей альтернативе. Мы не можем определить, какое из соотношений истинно; мы можем только установить, какое из соотношении не выполняется. Иногда в математиче­ ской статистике применение статистических критериев позволя­

5*

67

ет говорить об «опровержении нулевой гипотезы» против аль­ тернативы о неуспехе опровержения. Неуспех опровержения, которому соответствует неизвестная вероятность принятия ошибочного решения, не служит эквивалентом принятия гипо­ тезы. Статистические критерии в некотором смысле не могут сказать нам, что именно имеет место, а только могут сказать, чего нет.

Возвращаясь к нулевой гипотезе и альтернативе, определен­ ной формулами (2.29) и (2.30), предположим, что мы сочли уровень значимости (г. с. вероятность ошибки первого рода) « = 0,05 подходящим для наших целен. Иными словами, мы до­ пускаем возможность приблизительно 5 раз на 100 испытаний ошибочно отвергнуть проверяемую гипотезу в случае, когда она верна.

Предположим, что дисперсия совокупности, по отношению к которой ведется проверка, нам известна. Палеонтолог опреде­ лил, что дисперсия значений длины для совокупности особей рода Composita равна 22,1 (напомним, что стандартное откло­ нение было 4,7). Теперь можно формально записать статистиче­ ский критерий следующим образом:

1 ) пусть проверяемая гипотеза и альтернатива имеют вид

Но: p i — ро>

Н1 : рч^Ро;

2)принимаем уровень значимости: а = 0,05;

3)вычисляем статистический критерии:

* —р„

(2.31)

а |/ 1

 

Если выборка взята наудачу из нормальной совокупности с известной дисперсией, то статистический критерий Z будет рас­ пределен нормально со средним значением, равным нулю, и дис­ персией, равной единице. Мы приняли соглашение о том, что приблизительно один раз на 20 испытаний допускается оши­ бочное отклонение гипотезы о равенстве средних, в то время как она верна. Иными словами, мы принимаем 5%-ный уровень риска или вероятность ошибки первого рода равную 0,05. Опре­ делим для стандартизованного нормального распределения об­ ласть, заключающую 5% площади под кривой нормального рас­ пределения. Эта область называется критической. Если вычис­ ленное значение статистического критерия попадает в эту об­ ласть, мы вынуждены отклонить нулевую гипотезу.

Так как альтернатива — просто одно из неравенств, то гипо­ теза будет отклонена, если значение критерия слишком велико или слишком мало. Это значит, что существуют три возможные ситуации: [Xi = p0; (Xi>M-o или p i< p 0. В данном случае нас не

68

интересует различие между двумя последними неравенствами. Критическая область охватывает крайние значения оси абсцисс, причем каждая подобласть занимает 2,5% площади, ограничен­ ной кривой нормального распределения.

Сказанное можно резюмировать следующим образом: мы знаем характеристики нормальной кривой, которые получены из теоретических соображений, и поэтому их эмпирическое ис­ пользование вполне оправданно. Если дисперсия нормально распределенной совокупности известна, то мы знаем также про­ центное содержание особей, размеры которых заключены в раз­ личных пределах (например, две трети особей приходится на интервал с центром в среднем значении, имеющий длину, рав­ ную двум стандартным отклонениям). Если особи извлечены из этой совокупности случайным образом, вероятность получения выборки в заданном интервале кривой распределения равна площади, заключенной под соответствующей частью этой кри­ вой. Если выборка взята из области, соответствующей очень

.малой вероятности, то это значит, что наша выборка не явля­ ется выборкой из совокупности, указанной проверяемой гипоте­ зой, которую мы отвергаем. Однако имеется некоторая вполне определенная вероятность извлечь выборку из критической об­ ласти совокупности, равная площади этой критической области.

Возвращаясь к примеру рода Composita, напишем:

1)# 0: [X плиты = 14,2 мм; Я, ; р плиты Ф 14,2 мм;

2)а = 0,05;

3)

2 = 3 0 ,0 — 14,2

g о

 

4,71/1/6

 

Мы уже знаем, что гипотеза о равенстве средних отвергает­ ся, если выборочное среднее либо слишком велико, либо слиш­ ком мало. Это приводит к двустороннему критерию, представ­ ленному на рис. 2.26. Критическая область, которая по согла­ шению должна содержать 5% площади нормального распреде-

Рпе, 2.26, Кривая нормального распределения с двумя заштри­ хованными критическими обла­ стями, охватывающими 5% площади под кривой

69

ления, распадается на две части, причем каждая из них содер­ жит 2,5% общей площади. Если вычисленное значение Z по­ падает в левую половину, то мы делаем вывод, что выборка по­ влечена из совокупности, имеющей меньшее среднее значение, чем данная совокупность. Наоборот, если оно попадает в пра­ вую половину, то среднее выборочной совокупности больше, чем среднее заданной совокупности. Из табл. 2.10 мы находим, что приблизительно 2,5% площади под криво;'; находится слева, от значенияZ, равного— 1,9, и 97,5% (100%—2,5% =97,5%) — справа от значения +1,9. Вычисленное значение критерия 8,2 пре­ вышает 1,9, из чего мы делаем вывод, что средние значения двух совокупностей не равны между собой, п коллекция иско­ паемых остатков на плите должна принадлежать к роду, отлич­ ному от рода Composita.

Необходимо отметить те допущения, которые делаются при использовании указанного критерия. Критерий Z основан на предположениях:

1 )

выборка брахиопод извлечена случайным образом;

2)

совокупность длин остатков Composita распределена нор­

мально;

3)

дисперсия длин остатков Composita известна и равна

22,1 мм.

Если в частном примере какое-либо из указанных предполо­ жений является необоснованным, результаты, полученные с при­ менением Z-критерия, могут показаться сомнительными. Тогда следует обратиться к другой процедуре принятия решений, ос­ нованной на предположениях, более отвечающих случаю.

Значимость

Прежде чем продолжать перечень статистических критериев, полезно сделать несколько комментариев относительно выбора уровня значимости. Во многих статистических руководствах, в частности тех, которые касаются вопросов сельского хозяйст­ ва или промышленного контроля качества, в примерах и уп­ ражнениях обычно используются уровни значимости один к двадцати (а = 0,05) или один к тысяче (а = 0,001). Казалось, что подобная практика могла бы помочь обосновать целесооб­ разность такого выбора, однако это не так. Определение уров­ ня значимости находится целиком в компетенции исследовате­ ля, он должен решить, какой риск при отклонении истинной ги­ потезы является допустимым.

В геологии мы часто имеем дело с обстоятельствами боль­ шой неопределенности, и кажется мало реальным, что мы мо­ жем позволить себе сделать ошибку только в одном случае из тысячи пли даже в одном случае из двадцати. Если выбрать очень стеснительные уровни значимости, мы увидим, что нуле-

70

H Q ' прогноз “ пустьге скважины прогноз - пРод ^ кт ивны с скважины

Рис. 2.27. Распределение статистического критерия с критической областью,

определяющей отклонение гипотезы о том, что разведка безрезультатна:

а — критическая область для уровня значимости а=0,05 б — критическая область для

/ и /' — соответственно редкая и частая сети бурения; 2 и 2' —- соответственно редкие- и частые ошибки первого рода; 3 и 3' — соответственно большая и малая вероят­

ности пропуска залежи

г.ую гипотезу мы никогда не отвергнем, и будем нуждаться во все большем и большем объеме данных, которые не имеем воз­ можности получить. Выбирая более скромные уровни значимо­ сти, можно быстрее прийти к заключению, хотя вероятность по­ лучить ошибочные выводы может оказаться очень высокой в сравнении со стандартами, принятыми в других областях.

На рис. 2.27 проиллюстрирован эффект от принятия различ­ ии:; уровней значимости для некоторого гипотетического стати­ стического критерия в прогнозе нефтеносности. Представим себе, что компания нашла некоторые количественные перемен­ ные, позволяющие определить приоритеты при бурении, цель которого — убедиться в правильности прогноза продуктивности ■-кважии. Компания применяет статистический критерий к этим переменным с целью решить, продолжать бурение скважины пли лучше оставить ее. Нулевая гипотеза состоит в том. что образцы взяты из совокупности бесперспективных объектов;

альтернатива

состоит

в том, что они взяты из

совокупности

нер

■с е д ы х

продуктивных объектов.

значимости, например

7

■i

согласиться

принять уровень

а —0,05,

п нанести его на рисунок так,

как это

сделано на

рис. 2,27, а, то очень

немногие прогнозы

окажутся

отличающи­

еся от неперспективной нулевой совокупности. Если же ока­ жется, чго они отличны от нее, то это почти наверняка даст открытие при бурении. Компания получит очень высокое отно­ шение для числа успехов, но при этом пропустит много объек­ тов, которые могли бы оказаться продуктивными. В итоге ком­ пания будет редко бурить, редко ошибаться и оставит много резервуаров неоткрытыми.

Теперь представим на рис. 2.27, в такой уровень значимости, как а = 0,40. Тогда многие прогнозные участки придется бурить,

71

Соседние файлы в папке книги