книги / Статистический анализ данных в геологии. Кн. 1
.pdfчерпнуть в руководствах по непараметрическим статистическим методам Брэдли [8], Коновера [10], Зигеля [50]. Примеры ис пользования критерия скачков в геологии имеются в книге Мил лера и Кана [36]. Некоторые из этих авторов считают длину самого большого скачка показателем неслучайности, другие ис пользуют число точек инверсии, т. е. точек, в которых знаки последовательных наблюдений меняются. В некоторых случаях эти критерии могут оказаться более подходящими, чем про цедуры, описанные выше. Вообще говоря, процедура исследова ния скачков вверх и вниз считается наиболее мощным приемом из критериев скачков, так как она использует изменение вели чины в каждой точке по отношению к прилегающим точкам. Другие дихотомические схемы отражают только изменения по отношению к одному значению, например к медиане или сред нему значению.
Критерии скачков целесообразно применять в тех случаях, когда требуется выяснить причину нарушения случайности. На личие слишком большого или слишком малого числа скачков позволяет выявить места нарушения случайности и не отож дествлять их с трендом. Необходимо отметить, что сам по себе факт случайности не может быть доказан, так как условие случайности содержится в нулевой гипотезе. Мы можем только утверждать при некотором заданном уровне значимости, что нулевая гипотеза неверна и что по этой причине последователь ность не является случайной. Иными словами, если наши по пытки проверить неслучайность окончились провалом, то нам ничего не остается больше, кроме принятия нулевой гипотезы. В дальнейшем мы рассмотрим пронедуры обнаружения тренда или систематических изменений среднего значения. Мы будем иметь возможность убедиться в том, что критерии скачков в со четании с этими методами оказываются весьма полезными.
МЕТОД НАИМЕНЬШИХ КВАДРАТОВ И РЕГРЕССИОННЫЙ АНАЛИЗ
Во многих задачах нас могут интересовать не только имею щиеся в последовательности изменения, но также те точки, в ко торых эти изменения происходят. Для решения этих задач нужно иметь набор измерений изучаемой переменной, а также знать расположение точек этих измерений. Как измеряемая пе ременная, так и шкала, в которой в соответствующих единицах выражены элементы последовательности, должны иметь опреде ленный размах. Оказывается, нам недостаточно простой инфор мации о порядке следования точек. В большинстве примеров, которые мы сейчас рассмотрим, нас будет интересовать общий характер изменения данных. Информация об этом будет ис пользована при интерполяции между данными точками для экстраполяции значений, расположенных за пределами данной
202
|
|
|
Т а б л и ц а |
4.11 |
|
|
Влажность современных илов в пробах керна, взятых |
||||
|
на побережье Мексиканского залива, Луизиана |
||||
ГлубЕгна, |
футы |
Влажность |
(грамм ч |
Глубина, футы |
Влажность (граммы |
воды/100 |
г сухого |
воды/ГОО г сухого |
|||
|
|
осадке) |
|
осадка) |
|
0 |
|
124 |
20 |
30 |
|
5 |
|
78 |
25 |
21 |
|
10 |
|
54 |
30 |
22 |
|
15 |
|
35 |
35 |
18 |
последовательности, для получения выводов о влиянии тренда или для получения оценок характеристик, которые могут быть инюресны геологам. Если относительно распределения сово купности, из которой взяты выборки, можно сделать некоторые обоснованные предположения, то к ним можно применить стагнсгнческшТ метод, называемый регрессионным анализом.
Данные табл. 4.11 представляют значения влажности в про бах керна современных морских илов побережья Мексикан ского залива в Восточной Луизиане. Измерения получены вре- п'ль■ате сравнения массы проб немедленно после взятия их из пробоотборника и после тщательного высушивания. Если мы сопоставим сделанные измерения и соответствующие им глу бины, как ?лю сдельно на рис. 4.13, то увидим, что содержание влага быстро пад-.ы с глубиной в верхних частях слоя ила и медленно убывает, почш стабилизируясь, в осадке вблизи се тования слоя. Рассмотрим теперь различные способы исследо- ' ■; н.я и записи неявных соотношений между этими наблюде-
дначенне. |
47,75, указанное на рис. 4.13, — среднее содержа |
нке влаги в |
пробах— представляет собой точку, относительно |
которой дисперсия минимальна, т. е. минимальна сумма квад ратов отклонений содержаний влаги относительно этой точки. Читатель должен помнить (см. гл. 2), что если некоторые про бы вызывают сомнение, то их можно заменить несмещенной п эффективной оценкой выборочного среднего, являющегося наи
лучшим |
предсказанием |
для |
дополнительных проб, которые мо |
|
гут быть |
извлечены, |
из |
топ же совокупности. Однако ясно, что |
|
>•роднее |
значение не |
может |
адекватно представлять данные |
рас. 4.13. Пробы отбирались последовательно, я потому они не являются независимыми. Еще более, чем точечная оценка, нам подошла бы прямая линия, которая выразила бы связь между содержанием влаги и глубиной на всем множестве изменения значений переменных. Интуитивные соображения подсказыва ют нам, что в качестве такой линии можно было бы выбрать прямую, отклонения которой от данных значений можно свести
208
В л а ж н о с т ь , г
Х = 47.75
Рис. 4.13. Зависимость влажности осадка от глубины (в граммах воды на 100 г сухого осадка).
Данные собраны в скважине, пробуренной в современных илах на побережье Мексиканского залива. Отметим, что ориентация графика не соответствует ориентации, обыч но используемой в математике
Рис. 4.14. Различные варианты кри териев минимизации отклонений от линии аппроксимации:
<4— минимизация отклонения влажности;
В— минимизация обобщенных отклонений;
С— минимизация отклонений глубины
до минимума. Если рассуждать по аналогии со средним, то один из способов состоит в минимизации суммы квадратов от клонений от прямой. (Среднее — это значение, относительно которого дисперсия и, следовательно, сумма квадратов откло нений, является наименьшей). Мы можем построить единст венную прямую, относительно которой дисперсия минимальна. Если значения этой линейной функции в данных точках вы честь из соответствующих наблюдаемых значений, то получен ное в результате множество чисел будет иметь среднее значе ние, равное нулю, и меньшую дисперсию, чем набор отклонений от любой другой прямой, построенной по данным точкам.
Имеется, однако, несколько способов определения и измере ния отклонений от подбираемой линии. Например, мы можем рассмотреть отклонения значений влажности, отклонения глу бин или некоторую их комбинацию. На рис. 4.14 отрезок А изображает отклонение содержаний влажности от подобранной прямой, а отрезок С — отклонение значения глубины от той же прямой. Отклонение В измерено по перпендикуляру к ней. Можно было бы построить прямые, используя любой из этих
204
способов измерения отклонений, но мы ограничимся лишь за мечаниями по поводу каждого из этих способов. Если наша за дача будет заключаться в минимизации отклонений содержа ний влаги, то мы получим прямую, представляющую наилуч шую оценку влажности при заданных глубинах. Наоборот, если задача будет состоять в минимизации отклонений глубин, то мы получим наилучшую оценку зависимости глубины от содержа ний влаги. Третья альтернатива позволяет выразить связь меж ду двумя переменными. В специальном наборе задач, рассмат риваемых в этой главе, временные или пространственные ин тервалы считаются известными, а вторая переменная имеет не прерывное распределение. Поэтому первая альтернатива ка жется наиболее подходящей для наших целей. Иными словами, содержание влаги Y рассматривается как случайная перемен ная, а глубина X фиксируется. Поэтому задача состоит в пред сказании значений Y по значениям X. Другие случаи будут рас смотрены в следующих главах этой книги.
После того как мы условились о характеристиках прямой тренда, которую мы хотим построить, определим некоторые термины. Изучаемая переменная является зависимой (т. е. функцией) или регрессионной и обозначается Yt. Отклонения Yi от прямой линии должны быть минимальными. Другая перемен ная является независимой (или аргументом) и обозначается X,-. Пусть аппроксимирующая прямая пересекает ось Y в точке Ь0 и имеет угловой коэффициент Ь\. Тогда ее уравнение имеет вид
|
Yi — |
ЬгХ ь |
(4.11) |
|
где Yi — оценка для Уг при данном |
значении X,. Рассматривае |
|||
мое отклонение равно |
Уг—Yiy и наша задача сводится к нахож |
|||
дению такой прямой, |
для |
которой |
сумма |
квадратов откло |
нений |
|
|
|
|
П |
|
|
|
|
Л (Е г—Кр2 = минимум. |
(4.12) |
|||
1 = 1 |
|
|
|
|
Получение окончательного результата требует применения дифференциального исчисления, поэтому мы не будем рассмат ривать доказательство, а ограничимся тем, что приведем так называемые нормальные уравнения, позволяющие найти значе ния Ьо и Ь\ для аппроксимирующей прямой. Они имеют вид
П |
|
|
П |
|
i-l |
= М |
+ |
2 * « ; |
(4ЛЗ) |
|
|
/=1 |
|
|
п |
|
п |
п |
|
= |
+ |
2 * Л |
(4Л4) |
i = i |
/ = 1 |
i = i |
|
205
Решая систему уравнений, получим
(4.15)
и
2 ^ . |
2 |
x i |
|
/«1 |
А :=i |
Y — ЬуХ. |
(4.16) |
Мы могли бы использовать эти формулы для получения коэф фициентов прямой, однако легко заметить, что уравнения (4.13) н (4.14) представляют собой систему уравнении, кото рую можно решить, используя методы, описанные в гл. 3.
Оба эти уравнения можно записать в матричной форме.
/ п |
SAr \ |
(' |
b0 \ |
( SK \ |
|
\Z X |
SA'2) |
\ |
I |
\SAT ; ‘ |
14‘17' |
Хотя в этом простом случае использование матричного метода едва ли даег какие-либо преимущества, в более сложных си туациях его применение оправданно. Полому мы приведем решение задачи о зависимости содержания влаги от глубины
методами матричной алгебры |
п будем использовать этот |
метод |
|||||
л далее ь настоящей главе. |
Элементы |
матриц |
таковы: |
п = 8, |
|||
SA*= 140, ХУ= 382, |
ХЛ'У- 3870 |
н SA'2 = 35GU. Сисщма в |
матрич |
||||
ной форме имеет вид |
|
|
|
|
|
|
|
I |
8 |
140 \ |
/ ba \ _ |
I 382 . |
|
|
|
\ |
140 |
3500 |
) ' б, ! “ |
1У«70 '' |
|
|
|
Решив ее, получаем 60 = 94,67 и Ь] = —2,68. Мы |
дожем |
псшоль- |
зовать полученные значения для вычисления одинок содержа ний влаги в осадке на различных глубинах. Полученные оценки опробования в точках позволяют измерить, насколько прямая, построенная по методу наименьших квадратов, соотнес твует исходным выборочным данным. Если бы достроенная тогда:?
проходила в точности через каждую выборочную точку, то У, и Y; совпадали бы и сумма квадратов отклонении от прямой была бы рдзна^нулю. Конечно, в приведенном примере эго не
так. Значения У; и У; изображены на рис. 4.15.
Мы можем определить три характеристики, которые вписы вают изменение зависимой переменной. Первая из них — эхе
Рис. 4.15. |
Наблюдаемые значения |
Влажность, г |
||
влажности |
и их |
оценки, |
полученные |
|
из линейного уравнения регрессии, по* |
|
|||
строенного |
по |
методу |
наименьших |
|
|
квадратов |
|
|
общая сумма квадратов (SSr) переменной У:
|
S S T = |
|
|
|
(4.18) |
Разделив это уравнение на (п—1), получим дисперсию пе |
|||||
ременной |
У: |
|
|
|
|
S' |
|
1 |
|
2 |
(4.19) |
п(п — 1) |
|
|
|||
|
|
|
|
||
Вторая характеристика изменчивости зависимой перемен |
|||||
ной— это |
сумма квадратов |
отклонений |
оцененных значений У,- |
||
от среднего значения У: |
|
, 2 |
|
|
|
|
п |
п |
п |
|
|
|
|
|
|
|
(4.20) |
Как следует из правой части этого равенства, оценки име ют то же среднее значение, что и исходные данные. Сумма
квадратов этих оценок У; характеризует меру изменчивости ли
нии регрессии относительно среднего значения. Если У,- и У,- совпадают для всех наблюдений, то суммы квадратов, вычис ленные по формулам (4.18) и (4.20), будут одинаковыми. На оборот, если сумма квадратов (4.20) будет меньше, то разность
SSD = S S T — SSr, |
(4.21) |
207
называемая остаточной суммой квадратов, будет отличаться от нуля. Как легко убедиться, величину S S D можно также вычис лить по формуле
SS0 = |
(4.22) |
1=1
где S S D является мерой отклонения прямой, построенной по ме тоду наименьших квадратов, от результатов наблюдений. Ка чество приближения прямой характеризуется отношением
*2 = - S r - |
(4-23) |
Если для имеющихся данных прямая хорошо подобрана, то это отношение будет близко к единице; ниже мы рассмотрим критерии, позволяющие судить о том, насколько хорошо это отношение характеризует качество оценки. Величину R2 неред ко выражают в процентах. Та же терминология принята в тренд-анализе, который, как мы увидим, является прямым обоб щением этого метода. Необходимо отметить, что квадратный корень из R 2 равен множественному коэффициенту корреля ции R:
R = |/Ж = | SSBISSJ . |
(4.24) |
Алгебраический эквивалент этого соотношения определен в гл. 2 как коэффициент корреляции
SSX!!
(4.25)
у щ щ
Таким образом, при нахождении уравнения прямой, харак теризующей зависимость влажности осадка от глубины, по ме тоду наименьших квадратов мы вычислили различные величи ны, необходимые при определении сумм квадратов, качества приближения и коэффициента корреляции. Вычислите величи ны S S T, SSr, S S d, R2 и R для данных табл. 4.11,
Совершенно очевидно, что прямая линия не всегда хорошо аппроксимирует данные даже в случаях высокой корреляции. Плохое приближение возникает как следствие ряда причин, среди которых следует отметить высокую дисперсию зависимой переменной (чрезмерный разброс данных), а также выбор не подходящей модели. В этом примере мы склонны подозревать последнее, так как расположение исходных данных наводит на мысль, что для аппроксимации более пригодна кривая, а не прямая линия. Ниже мы рассмотрим нелинейную аппроксима цию. Однако прежде нам придется изучить статистические кри
2 0 8
терии, применяемые для проверки предположения, что данные подчиняются некоторым заданным требованиям.
Если У,-— случайная переменная, которой соответствует не который интервал изменения переменной Х„ то мы можем предположить, что имеющиеся данные подчиняются следующей теоретической модели:
Yi = Ро + |
+ 6;, |
(4.26) |
где i — номера последовательных |
наблюдений. |
Величина е яв |
ляется случайной нормально распределенной величиной с нуле вым средним и неизвестной дисперсией о2, не зависящей от ве личин Иными словами, предполагается, что наблюдаемые значения У,- являются суммами постоянной величины, связанной со средним значением (если X,- и У,- отсчитываются от своих средних значений, то р0 равно нулю), линейной функции от Xi и случайной компоненты е. Это соотношение изображено на рис. 4.16. Предполагается, что для каждой точки линии регрес сии существует нормальное распределение частот возможных значений переменной У;. Применяя метод наименьших квадра тов и используя выборочные коэффициенты регрессии, вычис ленные исходя из модели (4.17), мы можем оценить параметры регрессии [т. е. параметры р в формуле (4.26)] по выборочным
коэффициентам регрессии [параметры b в |
модели (4.17)]. |
Если сделанные нами ограничения выполнены, |
то метод наи |
меньших квадратов даст нам оценки максимального правдопо добия параметров регрессии bi и Ь0, и построенная нами линия регрессии будет ближе к истинной прямой регрессии, чем любая другая прямая. Если построенное линейное уравнение являет ся удачной регрессионной моделью, то дисперсия случайной компоненты равна дисперсии относительно линии регрессии.
Рис. 4.16. Компоненты регрессионной модели Yi= Po+Pi^+ei.
Предполагается, что случайная компонента 8, нормально распределена относительно ли нии регрессии
14— 201 |
209 |
Т а б л и ц а 4.12
Дисперсионный анализ для случая простой линейной регрессии
Источник |
изменчивости |
Сумма квад' |
Число степе |
Средние |
Значение |
/ратов |
ней свободы |
квадраты |
/'-критерии |
||
Линейная |
регрессия |
•SS* |
1 |
MSn |
M S RIMSo |
Отклонение |
S S D |
/г—2 |
MSo |
|
|
Обшая дисперсия |
S S T |
п— 1 |
|
|
Наоборот, если модель выбрана неудачно, то дисперсия отно сительной прямой регрессии будет больше, чем дисперсия ве личины 8.
Можно использовать полученные суммы квадратов для вы числения оценок дисперсий, которые в свою очередь необходи мы при проверке двух альтернатив. В частности, S S D исполь зуется как оценка дисперсии относительно линии регрессии. Мы можем получить адекватную оценку для о2 только в том слу чае, если проведем измерения К,- в каждой точке А',-, так как это единственный путь, который позволяет оценить значение дис персии У независимо от дисперсии X. Однако значение S S R дает оценку дисперсии о2 в том случае, если наша модель пра вильна; если же наша модель неправильна, это значение пре восходит а2 на некоторое положительное число, называемое смещением. Используя S S R, можно провести дисперсионный анализ, приводящий к отклонению нулевой гипотезы в любом из двух случаев, либо когда изменчивость наблюдений слиш ком велика для того, чтобы сделать надежные выводы, либо если постулированная нами модель неверна. В табл. 4.12 при ведена схема дисперсионного анализа.
Как указано в гл. 2, средние квадратов дают дисперсии, оценки которых получаются в результате деления соответст вующих сумм квадратов на отвечающие им числа степеней сво боды. Величине M SR отвечает одна степень свободы, так как ее значение получено на основе двух «наблюдений» значении ко эффициентов Ь0 и bj. Общая дисперсия имеет п—1 степеней сво боды. Поэтому величина M SDдолжна иметь число степеней сво боды, равное разности между двумя указанными, т. е. (п—1)— —1 = я —2. Мы можем применить ANOVA к рассмотренной выше задаче, как это сделано в табл. 4.13. При этом проверяет ся следующая гипотеза:
Н0 : р, = О
210
Т а б л и ц а 4.13
Результаты дисперсионного анализа, проведенного дли определения
значимости регрессии, |
характеризующей зависимость содержания воды |
|||
|
в осадке |
от глубины |
|
|
Источник изменчивости |
Сумма квад. |
Число степе |
Средние |
Значение |
раюз |
ней свободы |
квадраты |
F-критерия |
|
Линейная регрессия |
7546,88 |
1 |
7546,88 |
23,071* |
Отклонение |
1962,62 |
6 |
327,10 |
|
Суммарная дисперсия |
9509,50 |
7 |
! |
|
г Гипотеза о равенстве дисперсий отклоняется при 5%-ном уровне значимости (а=
-О,Сё;.
при альтернативе
Я, : fr Ф 0.
Линия регрессии подчинена условию: ежа проходит через сред ние значения X и '/. Если угловой коэффициент б-, незнд шмо отличается от нуля, то зю эквивалентно следующему утверж дению: рассеяние значений У относительно^ огипп регрессии не меньше, чем их рассеяние относительно У. Б-Л-ерсм 5%-ный уровень значимости (а=0,05). Если Но верна, го проверяемая ста,истина подчиняется ^-распределению с vi—1 и vg—6 л. еленями свободы, и поэтому критическая облает с о с т о и тиз з н а чении, превышающих .F=5,99. Вычисленное значение критерия иопедаег в критическую область, поэтому мы должны откло нить гипотезу о том, что дисперсия стноапел? по линии регрес сии не отличается от дисперсии, коду ченщ.б до наблюдениям. Однако даже несмотря на го, что существует значительный ли нейный тренд, графическое представление дсктых позволяет предположить, что мы в состоянии провести анализ точнее.
В 15 м от первой скважины в илистых обложениях устья реки била пробурена вторая скважина. Содержания веды в гробах из этой скважины образуют последовательность измере ний VI, позволяющих оценить о2. В результате мы можем опре делить, является ли слабая корреляция между содержанием соды в осадке и глубиной следствием сильного разброса дан ных или результатом непригодности уравнения, выбранного в качестве модели. Данные по второй скважине приведены в табл. 4,14. Нанесите эти точки на график и сравните получен ное распределение е распределением, соответствующим дан ным табл. 4.11.
14 |
гп |