Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2835

.pdf
Скачиваний:
8
Добавлен:
15.11.2022
Размер:
2.39 Mб
Скачать
bj=0.

Ф/ bj = 0 0≤j≤ k (5.7)

или

[ (xi , b0 , b1 ,…, bj ,…,

bk)- yi]

f(xi)/ bj=0

 

 

 

0≤j≤ k

 

f(xi)/ bj -

 

После преобразований получим

 

[ (xi , b0 , b1 ,…, bj ,…, bk)- yi]

i f(xi)/

(5.8)

Система уравнений (5.8) содержит столько же уравнений, сколько неизвестных коэффициентов b0, b1,..., bk входит в уравнение регрессии, и называется в математической статистике системой нормальных уравнений.

Поскольку Ф≥0 при любых b0, ..., bk, величина Ф обязательно должна иметь хотя бы один минимум. Поэтому если система нормальных уравнений имеет единственное решение, оно и является минимумом для этой величины.

Расчет регрессионных коэффициентов методом наименьших квадратов можно применять при любых статистических данных, распределенных по любому закону.

5.3. Определение тесноты связи между случайными величинами

Определив уравнение теоретической линии регрессии, необходимо дать количественную оценку тесноты связи между двумя рядами наблюдений. Линии регрессии, проведенные на рис. 5.1, б, в, одинаковы, однако на рис. 5.1, б точки значительно ближе (теснее) расположены к линии регрессии, чем на рис. 5.1, в.

При корреляционном анализе предполагается, что факторы и отклики носят случайный характер и подчиняются нормальному закону распределения.

110

Тесноту связи между случайными величинами характеризуют корреляционным отношением ρxy. Остановимся подробнее на физическом смысле данного показателя. Для этого введем новые понятия.

Остаточная дисперсия S²y ост характеризует разброс экспериментально наблюдаемых точек относительно линии регрессии и представляет собой показатель ошибки предсказания параметра y по уравнению регрессии (рис. 5.6):

y ост=

 

∑ [ i-ỹi]² =

 

∑ [ i-f( xi , b0 , b1 ,…, bk)]² . (5.9)

 

 

Где l=k+1- число коэффициентов уравнения модели

Рис. 5.6. К определению дисперсий

Общая дисперсия (дисперсия выходного параметра) S2y характеризует разброс экспериментально наблюдаемых точек

относительно среднего

 

значения y ,

т.е. линии С

(см. рис. 5.6): S2y =

 

[ i-

 

]², где

 

 

y

 

 

 

 

 

 

y

=

 

 

I .

(5.10)

 

 

 

 

 

111

Средний квадрат отклонения линии регрессии от среднего значения линии y =C (см. рис. 5.6)

S*2y=

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i- уi

]² =

 

 

 

i-f( xi , b0 , b1 ,…, bk) – yi ].(5.11)

 

 

 

 

 

 

Очевидно,

что

общая

дисперсия

S

2

 

 

(сумма квадратов

 

 

[

 

 

 

 

 

[

 

 

y

относительно среднего значения y ) равна остаточной дисперсии (сумме квадратов относительно линии регрессии) плюс средний квадрат отклонения линии регрессии y ост S*2y (сумма квадратов, обусловленная регрессией).

 

S2y= y ост + S*2y .

 

(5.11a)

Разброс

экспериментально

наблюдаемых

точек

относительно линии регрессии характеризуется безразмерной величиной – выборочным корреляционным отношением, которое определяет долю, которую привносит величина Х в общую изменчивость случайной величины Y.

ρ*yx=

² ² ост

=

²

=

²

.

(5.12)

 

²

 

²

 

 

 

 

Проанализируем свойства этого показателя.

1. В том случае, когда связь является не стохастической, а функциональной, корреляционное отношение равно 1, так как все точки корреляционного поля оказываются на линии регрессии, остаточная дисперсия равна y ост= 0, а S*2y= S2y

(рис. 5.7, а).

2. Равенство нулю корреляционного отношения указывает на отсутствие какой-либо тесноты связи между величинами x и y для данного уравнения регрессии, поскольку разброс

112

экспериментальных точек относительно среднего значения и линии регрессии одинаков, т.е. S2y = y ост (рис. 5.7, б).

Рис. 5.7. Значения выборочного корреляционного отношения ρxy:

а– функциональная связь; б – отсутствие связи

3.Чем ближе расположены экспериментальные данные к линии регрессии, тем теснее связь, тем меньше остаточная дисперсия и тем больше корреляционное отношение.

Следовательно, корреляционное отношение может изменяться в пределах от 0 до 1.

Учитывая, что для компьютеров имеются пакеты программ для статистической обработки результатов исследований, рассмотрим методологию этого подхода на примере

простейших линейных и одномерных задач (см. уравнение (5.5)). Идеология решения более сложных задач принципиально не отличается. Более того, как мы увидим в дальнейшем, многие нелинейные зависимости можно свести к линейным.

113

5.4. Линейная регрессия от одного фактора

Уравнение линии регрессии на плоскости в декартовых координатах имеет вид выражения (5.5).

Задачу метода наименьших квадратов аналитически можно

выразить следующим образом:

 

Ф(b0, b1) =∑ [ i-( b0+ b1xi)]²→ min b0 ,b1.

(5.13)

Для решения этой задачи, как известно из математического анализа, необходимо вычислить частные производные функции Ф по коэффициентам b0, b1 и приравнять их нулю:

Ф(

)

=0 ;

 

 

 

 

 

 

 

 

 

(5.14)

Ф( )

=0 .

 

 

 

 

 

 

 

 

 

 

 

видСистема

нормальных уравнений (4.8) в этом случае примет

∑[

−(

 

 

 

+

)] = 0;

+

 

= ∑

;

 

(5.15)

∑[ −( +

)] = 0; ∑ + ∑ = ∑ .

 

 

Решение этой системы относительно b0

и b1 дает

 

 

 

=

 

 

 

− ∑

 

 

;

 

(5.16)

 

 

 

−∑− (∑

 

)

 

 

 

=

 

 

−(∑

)

)

 

 

 

 

 

 

 

 

 

 

 

∑ (

)(

 

 

 

 

 

 

 

 

 

 

=

(

)

 

,

 

 

(5.16

)

т.е. для расчета b0

и b1 необходимо определить

;

 

;

∑(

 

 

 

 

 

 

 

уравнения

Коэффициент b0 (свободный член

 

 

регрессии) геометрически представляет собой расстояние от

114

начала координат до точки пересечения линии регрессии с

осью ординат, а коэффициент b характеризует тангенс угла

1

наклона линии регрессии к оси OX.

Если же определяют уравнение регрессии в виде

ỹ= b0+b1x+ b11 x² , то система уравнений для нахождения b0, b1, b11 будет иметь следующий вид:

 

=

+

+

;

 

 

=

+

+

;

(5.16б)

 

 

=

+

+

.

 

 

 

Из уравнений (5.15) и (5.16 б) вытекает правило записи любых систем нормальных уравнений: необходимо записать столько уравнений в системе,

сколько неизвестных коэффициентов содержится в искомом уравнении, всякий раз суммируя произведения членов исходного уравнения на переменную при искомом коэффициенте.

Оценку силы линейной связи осуществляют по выборочному (эмпирическому) коэффициенту парной

корреляции r . Выборочный коэффициент корреляции может

xy

быть вычислен двумя способами.

1. Как частный случай корреляционного отношения для линейного уравнения регрессии.

С учетом того, что y = b0+ b1x,

115

S*2y=

 

 

 

 

0 + b1 xi - b0 – b1x]² = b1² Sx² ,

(5.17)

 

 

 

 

величина

отношения S* /S

y

будет равна

 

 

[

y

 

 

 

 

 

 

 

 

rxy= b1Sx/Sy

,

(5.18)

где Sx

и

Sy

– выборочные

средние

квадратичные

отклонения.

2. Как среднее значение произведения центрированных случайных величин, отнесенное к произведению их среднеквадратичных отклонений:

 

 

 

 

=1(

 

 

(

)

 

 

 

 

 

 

 

 

 

 

=

 

 

)

 

 

 

=

 

 

 

 

 

 

 

 

 

 

 

 

(

−1)

)

 

 

 

 

 

 

 

 

 

 

 

=1(

 

(

 

 

 

 

 

 

 

 

 

 

 

=

 

 

 

)

 

 

 

 

 

 

.

 

(5.19)

 

=1

)

2 =1

(

)

2

 

 

 

(

 

 

 

 

 

 

 

 

 

 

 

 

 

Покажем, что две последние формулы эквивалентны. Для

этого преобразуем выражение (5.19) к виду

( i

-x)(y-

 

 

=

y)

rxy(n-1) SxSy.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

Подставляя последнее выражение в формулу (5.16а),

имеем

( −1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

)

2

=

 

 

 

,откуда =

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( −

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Как правило, по результатам экспериментов находят Sx, Sy, y ,x и рассчитывают rxy по формуле (5.19), а затем, используя эти величины, определяют коэффициенты уравнения регрессии:

b1=rxy Sx/Sy ; b0= y - b1x .

(5.20)

116

Коэффициент корреляции r изменяется в пределах

xy

-1≤ r ≤+1.

xy

Положительная корреляция между случайными величинами характеризует такую стохастическую зависимость между величинами, когда с возрастанием одной из них другая в среднем также будет возрастать. При отрицательной корреляции с возрастанием одной случайной величины другая

в среднем будет уменьшаться. Чем ближе значение r к

xy

единице, тем теснее статистическая связь.

Отметим еще раз область применимости выборочного коэффициента корреляции для оценки тесноты связи.

1. Коэффициент парной корреляции значений y и x применительно к однофакторной зависимости характеризует тесноту группирования данных лишь относительно прямой (например, линия A на рис. 5.8, a). При более сложной

зависимости (рис. 5.8, б) коэффициент корреляции r будет

xy

оценивать тесноту экспериментальных точек относительно некоторой прямой, обозначенной буквой А, что, естественно, несет мало сведений о тесноте их группирования относительно искомой кривой ỹ=f(x).

2. Коэффициент парной выборочной корреляции имеет четкий физический смысл только в случае двумерного нормального распределения параметров, т.е. когда для

каждого значения Х, например х ,

х ,

х , существует

1

2

3

совокупность нормального распределения у и наоборот, а дисперсия зависимой переменной при изменении значения аргумента остается постоянной (рис. 5.9).

117

Рис. 5.8. К понятию коэффициента парной корреляции

Даже при выполнении этих, вообще говоря, достаточно жестких условий, не всякое значение выборочного коэффициента корреляции является достаточным для статистического обоснования выводов о наличии действительно надежной корреляционной связи между фактором и откликом. Надежность статистических характеристик ослабевает с уменьшением объема выборки (n). Так, при n=2 через две экспериментальные точки можно провести только одну прямую и зависимость будет функциональной, при этом выборочный коэффициент

корреляции равен единице (r =1). Однако это не означает

xy

надежность полученных статистических характеристик в силу весьма и весьма ограниченного объема выборки. Значит, вычислять коэффициент корреляции по результатам двух наблюдений бессмысленно, так как он заведомо будет равен единице, и это будет обусловлено не свойствами переменных и их взаимным отношением, а только числом наблюдений.

В связи с этим требуется проверка того, насколько значимо

отличается выборочный коэффициент корреляции r от его

xy

118

*

действительного значения r . При достаточно большом

xy

*

объеме выборки n→∞ r =r . Таким образом, требуется

xy xy

проверка значимости выборочного коэффициента парной корреляции и оценка его доверительного интервала.

Рис. 5.9. К понятию коэффициента парной корреляции в случае двумерного нормального распределения параметров

Для определения значимости r сформулируем нуль-

xy

*

гипотезу H0: rxy =0, т.е. корреляция отсутствует. Для этого

рассчитывается экспериментальное значение t-критерия Стьюдента и сравнивается с теоретическим при числе степеней свободы n-2.

 

 

 

 

 

 

t=|rxy|

( )²

.

(5.21)

119

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]