Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

9531

.pdf
Скачиваний:
0
Добавлен:
25.11.2023
Размер:
2.83 Mб
Скачать

Случай Б: H1 {a a0 }. В этом случае, критическая область критерия будет

левосторонней K kr

{k kkr }, а значения критерия отрицательными (рис.14.1). Кри-

тическая точка k kr

определяется из уравнения P(k kkr ) , решение которого, в

силу симметрии распределения Стьюдента, будет следующим kkr tkr ( ; n 1) .

Случай В: H1 {a a0 }. В этом случае критическая область критерия будет двухсторонней K kr {k kkr1 ; k kkr 2 }. Однако, здесь критические точки kkr1 , kkr 2 не определяются однозначно из уравнения P(k kkr1 ) P(k kkr 2 ) . Доказано [9],

что при условии P(k kkr1 ) / 2 и P(k kkr 2 ) / 2 мощность критерия (1 ) по отношению к конкурирующей гипотезе Н1 будет максимальной. Тогда из этих уравнений критические точки находятся однозначно и представляют собой двухстороннюю квантиль распределения случайной величины Стьюдента:

kkr1 tkr ( / 2; n 1) , kkr 2 tkr ( / 2; n 1) .

Рассмотрим числовой пример: Пусть по выборке объема n=16 получена оценка математического ожидания наблюдаемой нормальной случайной величины хВ 10,2 и оценка среднеквадратического отклонения S 6,5. Поскольку, каждая оценка есть величина случайная (получена по конкретной случайной выборке), то проверим гипотезу о том, что истинное математическое ожидание наблюдаемой величины равна 15

т.е. H 0 {a 15}.

Зададимся уровнем значимости гипотезы

0,05и альтерна-

тивной гипотезой

H1 {a 15}. Наблюдаемое в выборке

значение критерия

knab 10,2 15 4 / 6,5 2,954 . Критическая область K kr двухсторонняя, а критические точки будут:

kkr1 tkr (0,025;15) 2,13 ; kkr 2 tkr (0,025;15) 2,13 .

Видим, что knab принадлежит критической области и значит, гипотеза отвергается,

т.е. отличие наблюдаемого значения математического ожидания от гипотетического значительны.

1.2. H 0 { 2 02 } Проверим теперь гипотезу о том, что истинная (гипотетиче-

ская) дисперсия случайной величины равна 02 . Проверяемая гипотеза

H0 { 2 02 }

В качестве критерия возьмем одномерную случайную величину K , имеющую рас-

пределение «хи-квадрат» с n-1 степенями свободы:

 

K

 

S 2

(n 1) n2 1 .

 

 

 

 

 

 

02

 

Здесь S 2

оценка 02 , полученная по выборке хВ {xi , i 1, n}.

 

81

Задаваясь уровнем значимости для проверяемой гипотезы H 0 , будем строить кри-

тическую область K kr в зависимости от вида единственной конкурирующей (альтернативной) гипотезы H1 в следующих случаях (рис.14.2):

Случай А: H1 { 2 02 } . В этом случае, при справедливости конкурирующей

гипотезы ожидаем сдвиг наиболее вероятных значений критерия K в большую сторону, поэтому критическая область будет правосторонней.

Рис. 14.2 Критические области гипотезы H 0 { 2 02 } .

Критическая точка k kr здесь однозначно определяется согласно общему подходу к

построению критических областей критерия из условия равенства вероятности ошибки I-рода заданному уровню значимости :

 

 

 

 

P(k kkr )

2 (k; n 1)dk

.

 

 

kkr

 

 

Решение этого уравнения kkr kr2

( ; n 1) находятся однозначно, и представ-

ляет собой правостороннюю квантиль «хи-квадрат» распределения случайной величины и приводится в приложении 4.

Случай Б: H1 { 2 02} . В этом случае критическая область критерия будет левосторонней, а критическая точка однозначно определяется из уравнения :

kkr

 

P(k kkr ) 2 (k; n 1)dk

 

0

 

82

 

Левосторонняя критическая точка может быть легко выражена через функцию

для

правосторонней

 

критической

точки.

Действительно,

т.к.

P(k kkr ) P(k kkr ) 1

, то

P(k kkr ) 1 и тогда решение для левосторонней

точки будет следующим

kkr

kr2 (1 ; n 1) .

 

 

 

Случай В: H1 { 2

02} . В этом случае, объединяющем два предыдущих слу-

чая,

критическая область критерия будет двухсторонней Kkr {k kkr1; k kkr 2}.

Однако, здесь критические точки kkr1, kkr 2

не определяется однозначно из уравне-

ния

 

 

 

 

 

 

 

 

 

kkr 2

 

 

 

 

P(k kkr1 ) P(k kkr 2 ) 1 2 (k, n 1)dk .

 

 

 

 

 

kkr1

 

 

 

Доказано [9], что при условиях P(k kkr1 ) / 2, P(k kkr 2 ) / 2 мощность критерия (1 ) по отношению к конкурирующей гипотезе H1 будет максимальной, тогда из этих двух условий критические точки находятся однозначно:

kkr1 2kr (1 / 2; n 1) ; kkr 2 2kr ( / 2; n 1) .

Рассмотрим числовой пример: Пусть по выборке объема n=15 получена оценка дисперсии наблюдаемой нормальной случайной величины S 2 40,25 или оценка среднеквадратического отклонения S 6,5. Поскольку, каждая оценка есть величина случайная (получена по конкретной случайной выборке), то проверим гипотезу о том, что истинная дисперсия наблюдаемой величины равна 36, т.е. H0 { 2 36} . Зада-

димся

уровнем значимости

гипотезы

H0 0,05и альтернативной

гипотезой

H1 { 2

36}.

 

 

 

 

 

 

Наблюдаемое значение критерия

knab (15 1)40,25 / 36 15,653 . Критическая

область K kr {k k1kr ; k k2kr }

двухсторонняя, а критические точки будут:

 

k

kr1

2 (1 0,025;14) 5,63; k

kr 2

2 (0,025;14) 26,1.

 

 

kr

kr

 

 

Видим,

что knab 15,653 не принадлежит критической области и значит,

гипотеза

принимается, т.е. отличия наблюдаемого значения дисперсии от гипотетического не-

значительны. Если бы,

такая оценка дисперсии была получена по выборке меньше-

го объема n=7, то

 

 

 

 

k

kr1

2 (1 0,025;6) 14,4;

k

kr 2

2

(0,025;6) 1,24.

 

kr

 

kr

 

тогда наблюдаемое значение критерия knab 15,653 попадает в критическую область и тогда проверяемая гипотеза отвергается.

Отметим, что при проверке гипотез H 0 {a хВ } и H 0 { 2 S 2 } при уровне значимости будут построены двухсторонние критические области такими, что об-

83

ласть принятия гипотез Kkr совпадет с доверительными интервалами, построенными с надежностью 1 .

2. Критерий согласия Пирсона

Критериями согласия называются критерии проверки статистических гипотез о виде распределения случайной величины. Проверяемая гипотеза имеет вид:

H0 {X ~ f Х (x, 1, 2 ,... r ) ,

где 1, 2 ,... r - принятые в гипотезе параметры распределения. Пирсон предложил и обосновал следующий критерий проверки гипотезы H 0 по отношению к единственной альтернативной противоположной гипотезе

H1 H 0 .

Пусть по полученной выборке хВ {xi , i 1, n} {x1 , x2 ,...xn } построена гистограмма наблюдаемых частот H Xn {hj , n j ; j 1, m}. Построим, так же теоретические частоты nTj для интервалов hj при условии справедливости проверяемой гипотезы H 0 . Теоретические частоты вычисляются через вероятность Pj нахождения случайной величины X в интервале hj (xj , xj 1) по формуле:

 

n

Т

 

 

 

 

 

 

x j 1

 

 

 

 

j

 

Р j

F (x j 1 ) F (x j )

f Х (x, s )dx hf (x j 0.5 , s ) ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

x j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где F (x j )

- функция распределения для случайной величины X ,

h – шаг интерва-

лов гистограммы, x j 0.5 0,5 (x j x j 1 ) центры интервалов hj

гистограммы. Та-

ким образом, получим теоретические частоты

nT n P . Показано [9],

 

 

 

 

 

 

 

 

 

 

 

j

j

что величина :

 

 

 

 

m

 

(n

 

nT )2

 

 

 

 

 

 

j

 

j

m2 r 1 ,

 

 

 

 

 

 

T

 

 

 

 

 

j 1

 

 

 

n j

 

 

 

 

 

при достаточно большом объеме выборки имеет «хи-квадрат» распределение с m r 1 степенями свободы и может быть использована в качестве критерия для проверки гипотезы H 0 . Задаваясь уровнем значимости можем однозначно

определить правостороннюю критическую область критерия из уравнения

P( 2 2kr )

Его решение представляет собой правостороннюю квантиль «хи-квадрат» распределения 2kr 2kr ( , m r 1) и приведено в приложении 4.

84

Рис. 14.3. Критическая область критерия Пирсона.

Определив, таким образом, критическую точку 2kr , сравним ее с наблюдаемым

значением nab2

получим правило проверки гипотезы:

- если nab2

kr2 , то гипотеза принимается

(отклонения теоретических и наблюдаемых частот незначительны),

- если же 2nab 2kr , то гипотезу необходимо отвергнуть (отклонения частот значительны).

Числовой пример: Проверим гипотезу о нормальном распределении полуденных температур месяца мая для выборки, приведенной в лекции 10, при уровне значимости гипотезы 0,05. Вычислив выборочные характеристики

 

хВ 14,6

и

 

S 7,5 ,

примем их за оценки параметров нормального распределе-

ния. Таким образам проверяемая гипотеза такова:

 

 

 

 

 

 

 

H0 {X N (a, ); а хВ ; S} .

 

 

 

 

 

 

 

 

 

Учитывая, что для нормальной случайной величины Х

функция распреде-

ления имеет вид F(x)

 

1

 

Ф(

х а

) , где Ф(x) - функция Лапласа (приложение 2), то

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

для теоретических частот получим формулу:

 

 

 

 

 

 

 

Т

 

 

x

j 1

x

B

 

 

 

x

j

x

B

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n j n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

[Ф

 

 

 

 

 

 

Ф

 

 

 

 

]

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S

 

 

 

 

 

S

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где x j

,

x j 1

– соответственно левая и правая границы каждого из интервалов h j

разбиения

 

данных в гистограмме. Все результаты приведем в таблице 8 и на

рис.14.4.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 8.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

h j

 

 

 

0-5

5-10

 

 

 

10-15

15-20

 

20-25

 

25-30

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

85

n j

3

6

8

7

3

4

31

 

 

 

 

 

 

 

 

nТj

2,31

5,26

7,79

7,53

4,74

1,95

29,6

 

 

 

 

 

 

 

 

nab2

0,205

0,105

0.006

0,037

0,639

2,171

3,162

 

 

 

 

 

 

 

 

Рис. 14.4. Ги-

стограмма наблюдаемых частот и кривая теоретических частот.

По заданному уровню значимости проверяемой гипотезы H 0 определим критическую точку распределения «хи-квадрат» используя приложение 4. Получим,

что kr2 kr2 (0,05;6 2 1) 7,8 .

 

Поскольку nab2

3,162 kr2

7,8 , то гипотеза H 0 принимается (нет основа-

ний ее отвергнуть), т.к. отклонения частот незначительны.

Примеры заданий для проверки различных статистических гипотез для самостоятельной работы студентов приводятся в [12].

86

Лекция № 15 Элементы корреляционного анализа

Две случайные величины X и Y могут быть независимыми между собой, зависимыми строго функционально Y (X ) или зависимыми статистически. При статистической зависимости между случайными величинами распределение одной из величин зависит от того, какое значение имеет другая случайная величина. Степень статистической зависимости величин X и Y характеризует теоретический коэффициент корреляции Пирсона

 

 

 

 

M ( X Y ) M ( X ) M (Y )

,

 

 

XY

 

 

 

 

 

 

 

 

 

 

 

D( X ) D(Y )

 

 

 

 

 

 

обладающий следующими свойствами:

 

 

 

 

1)

его значение по модулю не превышает единицы 1 ХУ 1.

2)

для независимых величин X и Y

 

ХУ 0 ,

3)

для линейно зависимых величин

ХУ 1.

Сама статистическая зависимость описывается функциями условного распределения, например, для непрерывных случайных величин функциями плотности

условного распределения

f X (x

 

y) или

f y ( y

x) . Однако нахождение этих функций и их

 

практическое

использование

 

 

 

 

обычно затруднено и малоэффективно. Чаще

статистическая

зависимость

 

 

рассматривается в более простом виде, в виде

функциональной зависимости

 

числовых характеристик одной из величин от значения

другой величины. Такая

зависимость

называется корреляционной и описывается

функциями регрессии

ˆ

 

 

 

 

 

ˆ

Так например, наиболее часто используется

Y (x) или X ( y) .

регрессия в форме условного математического ожидания:

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

M (Y

 

х) yf y ( y

 

x)dy Y (x) .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

Корреляционная зависимость приближает статистическую зависимость функциональной зависимостью и имеет следующий вид:

ˆ

Y Y (x) .

Здесь Y - объясняемая переменная, x - значение объясняющей переменной X , а - случайная величина ошибки (невязки) корреляции с нулевым математическим ожиданием М ( ) 0 при любом значении х. Дисперсия же ошибки D( ) не нулевая, но при «хорошей» функции регрессии она не должна быть большой, и не должна зависеть от переменной х. Построение таких функций регрессии является задачей регрессионного анализа.

Для приближенного построения функции регрессии будем искать наилучшее в определенном, но довольно широком, m-параметрическом классе функций

U m {yˆ(x, 1 , 2 ,.. m )} таким образом, что бы дисперсия ошибки D( , 1 , 2 ,.. m ) как функция от параметров k была минимальной. Такое приближение называется средне-

87

квадратической регрессией в классе U m . Для приближенного построения функции регрессии можно так же воспользоваться данными наблюдений за величинами X и Y, полученными в выборке (хi , yi ) объема n. Такие оценки для функции регрессии уˆ(x)

ищутся так же в кассе U m , имеют минимальное суммарное отклонение от наблюдае-

мых значений yi , строятся методом наименьших квадратов и называются выборочной среднеквадратической регрессией.

1. Эмпирическая линейная среднеквадратическая регрессия

Линейная регрессия является простейшей регрессионной моделью, согласно которой функция регрессии является линейной 2-х параметрической функцией:

уˆ(x) а вх ,

где а, в - неопределенные коэффициенты, которые оценим по наблюдаемым данным. Пусть имеется двухфакторная выборка n наблюдений (хi , yi ) за величинами X и Y , которую будем называть корреляционным полем. Помимо выборочных средних зна-

чений х, у и выборочных дисперсий

Dx 2x , Dy 2y ,

вычислим так же среднее

 

 

 

 

 

произведение xy и выборочный

(эмпирический)

коэффициент корреляции

r xy x y , который является выборочным аналогом теоретического коэффициента

xy

x y

 

корреляции Пирсона XY .

 

Построим коэффициенты а, в методом наименьших квадратов. Для этого

найдем такие значения а, в , которые минимизируют сумму квадратов отклонения yi

и yˆi

yˆ(xi ) , то есть

ошибки ei yi

yˆi

n

n

 

n

 

 

ei2

( yi

yˆi )2

( yi a bxi )2

min .

i 1

i 1

 

i 1

 

a,b

 

 

 

Из необходимых условий минимума найдем искомые значения а, в :

 

n

n

 

 

 

 

 

 

 

 

 

 

 

ei2 2 ( yi

a bxi ) 0 ;

y а вх ;

a y вх ,

 

a i 1

i 1

 

 

 

 

 

 

 

 

 

 

 

n

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xy

xy

 

 

 

 

аx вх 2 ; в

 

 

ei2 2 ( yi

a bxi )xi 0 ;

xy

 

.

 

 

 

 

 

 

b i 1

i 1

 

 

 

 

 

 

 

x 2 x 2

Через выборочный коэффициент корреляции rxy , коэффициент в представим в

форме в rxy y , а уравнение выборочной линейной среднеквадратической регрес-

x

сии имеет одну из следующих форм: yˆ(x) а вх ; yˆ(x) y в(х x) ;

88

ˆ

y

 

yˆ(x) y

 

(x x)

 

y(x) y rxy

x

(х x) ;

y

rxy

x

.

 

 

 

 

2. Свойства линейной регрессии и коэффициента корреляции

Построенная выборочная линейная среднеквадратичная регрессия является простейшим приближение корреляционной зависимости, показывает тенденцию (тренд) этой зависимости и изображается прямой на корреляционном поле, наименее уклоняющейся от его точек. Прямая линия регрессии yˆ(x) а вх проходит через

точку (х, у) , отсекает от оси х отрезок а , и имеет угол наклона с тангенсом равным в , как это изображено на рис. 15.1.

Рис. 15.1 Прямая линейной среднеквадратической регрессии

Выборочный коэффициент корреляции rxy характеризует степень корреляционной зависимости наблюдаемых величин Х и У и обладает следующими свойствами:

1)его значения по модулю не превышают единицы ( rxy 1),

2)для независимых Х и У коэффициент близок к нулю (rxy 0) ,

3)для линейно зависимых величин он близок к единице ( rxy 1) .

Геометрически он показывает «тесноту» корреляционного поля возле прямой линии регрессии, что иллюстрирует рис. 15.2 для различных значений коэффициента.

.

Рис. 15.2 Корреляционное поле для различных уровней корреляции величин

89

Из рис. 15.2 видно, что некоррелированной выборке (rxy

0) соответствует не-

ориентированное шаровое корреляционное поле, с ростом rxy

поле сжимается и ори-

ентируется к прямой линии регрессии. Знак коэффициента говорит о нарастающем или убывающем тренде зависимости.

 

Ошибки регрессии ei yi

ˆ

имеют нулевое среднее значение е 0 , так как

 

yi

 

 

 

y yˆ , и минимальную в соответствии с методом наименьших квадратов дисперсию

 

 

 

1

n

 

 

De

 

 

 

ei2 Dy (1 rxy2 ) , так называемую остаточную дисперсию, которая тем мень-

 

 

 

 

 

n i 1

 

 

ше, чем выше коэффициент корреляции. Величина выборочной дисперсии De является статистической оценкой для дисперсии ошибки D( ) , однако, это смещенная оцен-

ка. Несмещенной (исправленной) оценкой является величина S 2

n

D , величина

 

 

 

 

 

 

 

 

 

 

 

n 2

e

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

n

 

S (

 

ei2 )1/ 2 называется стандартной ошибкой регрессии. Ошибки для коэффи-

 

 

 

 

n 2 i 1

 

циентов регрессии вычисляются по формулам:

 

 

 

 

 

 

 

 

 

 

 

Sb2

 

S 2

 

, Sa2

x 2 S 2

.

 

 

n Dx

 

 

 

 

 

 

 

 

n Dx

 

В корреляционном анализе также вводится понятие коэффициента

детерминации

R 2 DY / DY , показывающего долю объясненной части дисперсии, объясняемой переменной Y. Поскольку Dy Dyˆ De , то коэффициент детерминации представим так же в следующем виде:

R 2 1 De r 2 ,

D y xy

показывающем его прямую связь с коэффициентом корреляции.

Известно [9] распределение случайных величин, связанных с введенными выше

коэффициентами при условии независимости величин

X и Y :

 

 

 

 

 

 

 

 

 

rxy n 2

 

tn 2 ~ распределение Стьюдента с n 2

степенями свободы,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 r 2

 

 

 

 

xy

 

 

 

 

R 2 (n 2)

 

F1,n 2 ~ F-распределение Фишера с 1 1,

2 n 2 степенями свободы.

 

1 R

2

 

 

 

 

 

 

 

 

Эти величины используется для построения критериев значимости выборочных коэффициентов rxy и R 2 , и их распределение приводится приложениях 3 и 5 соответ-

ственно.

Действительно, например, задаваясь уровнем значимости проверяемой

гипотезы

H 0 { XY 0} , соответствующей

независимости величин Х и Y, можно

сравнить наблюдаемое значение критерия tnab

с критическим значением tkr ( ) . Если

 

 

90

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]