Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Методы оптимизации эксперимента в химической технологии

..pdf
Скачиваний:
2
Добавлен:
12.11.2023
Размер:
13.27 Mб
Скачать

Как было показано (см. гл. II), состоятельными и несмещенными оценками для математических ожиданий тх и ту служат выборочные средние:

п п

Состоятельными и несмещенными оценками дисперсий ах и СУ служат выборочные дисперсии:

2

_1_

2

S

п — 1

У\

У

 

 

1=1

Наконец, состоятельной и несмещенной оценкой ковариации cov^x служит выборочная ковариация:

C0V = 7 1 ГГ

 

i=1

По этим оценкам получают выборочный коэффициент корреляции:

 

п

 

 

^ ( x i — x)(,yi — y)

 

 

i=1

(IV. 1)

* У

(n ~ l ) sx sy

 

Выборочный коэффициент корреляции г* дает состоятельную, но сме­ щенную оценку для коэффициента корреляции генеральной совокуп­

ности, эта оценка имеет смещение, равное — ----Величина смещения 2п

убывает обратно пропорционально числу опытов п и при п > 50 состав­ ляет менее 1%.

Выборочный коэффициент корреляции /■*,, так же как и ^ —коэффи­ циент корреляции генеральной совокупности, по абсолютной величине не превосходит единицы:

— 1< г*у< + 1•

Выборочный коэффициент корреляции не изменяется при изменении начала отсчета и масштаба величин X и Y (см. свойства коэффициента корреляции генеральной совокупности, с. 25). Это свойство позволяет существенно упростить вычисления.

Коэффициент корреляции одинаково отмечает долю случайности и криволинейность связи между X и Y. Зависимость между X и Y может быть близкой к функциональной, но существенно нелинейной, а коэффи­ циент корреляции будет значительно меньше единицы.

При достаточно большом объеме выборки п выборочный коэффици­ ент корреляции г* приближенно равен генеральному коэффициенту г. Однако оценить возникающую при этом погрешность затруднительно. Для этого нужно знать распределение г* как случайной величины. Это распределение зависит от генерального коэффициента корреляции /*, который неизвестен. Для проверки гипотезы об отсутствии корреляции необходимо проверять, значимо ли отличается г* от нуля. Для проверки нулевой гипотезы № : г= 0 можно использовать нормальное распределе­ ние со стандартом:

V * ( l - г * 2)/У^~. (IV.2)

Если в качестве доверительной вероятности взять = 0,95, коэффи­ циент корреляции находится в следующих доверительных границах:

г*

1,96(1

г *2)

1,96(1 — г*2)

(IV.3)

Vn

< Г < г * +

V

 

 

 

С вероятностью 0,95 можно утверждать, что зависимость между слу­ чайными величинами существует, если 0 не содержится внутри довери­ тельного интервала, т. е. если

| г * | -

1,96(1 — г*2)

(IV.4)

— -> о .

Vn

При малом числе экспериментов и сравнительно высокой корреляции распределение коэффициента корреляции существенно отличается от нормального (рис. 25, а). Для построения доверительного интервала можно воспользоваться преобразованием Фишера:

г* = th 2 =

e*z — 1

(IV.5)

ё12+ 1 '

отсюда

1+ г*

 

 

(IV.6)

 

1— г*

 

 

Распределение z является почти неизменным по форме при меняющихся г* и п и с возрастанием п быстро приближается к нормальному (рис. 25, б) со средним, равным

Рис. 25. Плотность распределения выборочного коэффициента корреляции

m z =

1

1+ r

(IV. 7)

I n --------

*

2

1—/•

 

и со стандартом

(IV.8)

Vn — 3

Тогда с доверительной вероятностью fi значение неизвестного m, находится в пределах

 

: < mz < z+

“Р

Vn — 3

У п—3

 

где Mjj —квантиль нормального распределения. При вероятности/ j =0,95, и»—1,96, отсюда

1,96

• <

т* < г +

1,96

Vn — 3

'

*

Vn — 3

После нахождения доверительных^границ для ги2

1,96

Zj = Z —

V"n-^3”

1,96

za = z+

V n—3

(IV.9)

доверительной

(IV. 10)

(iv.ll)

можно найти доверительные границы для генерального коэффициента корреляции, подставляя zi и Z2 в формулу (IV.5).

2.Коэффициенты частной корреляции. При исследовании зависимости

величины у от двух факторов х\ и хг наличие корреляции между у и JC2и корреляции между х\ и хг будет влиять на корреляцию между у и х\. Для того чтобы устранить влияние хг, необходимо измерить корреляцию между у и XI, когда хг постоянно. Для этой цели в статистике при­ меняют частные коэффициенты корреляции:

ryxx ryx2 rxtxt

(IV. 12)

UXrXt

*

*

*

 

________г ух,

ryxt тхххх

(IV. 13)

 

 

 

Частный коэффициент корреляции г*х

оценивает степень влияния

фактора XI нау при условии, что влияние хг нау исключено. В обозначении частного коэффициента корреляции этот исключенный фактор поставлен в индексе после точки. При изучении зависимости у от трех факторов XI, хг и хз частный коэффициент корреляции между у и xi при условии, что Х 2 и хз будут постоянными, можно вычислить по формуле

*

__________ г у \ . 3

г у 2 Я г 1 2 .3

(IV. 14)

 

_ ^ . 3)V, (, _ r;2 3)V

 

 

При переходе от парных коэффициентов корреляции к частным может существенно измениться не только величина коэффициента кор­ реляции, но и знак. Проиллюстрируем это на примере.

Исследовалась скорость коррозии (К) образцов стали, содержащих серу (S), фосфор (Р) и медь (Си) в растворе лимонной кислоты.

На основании выборки из 39 опытов были получены значения коэффи­ циентов парной корреляции:

=

+

0 ,2 0 5 »

г^р = +

0 , 8 1 0 !

=

+

0,277;

rscu =

0*663»

Cu =

— 0,504;

rp Cu =

+ 0,369.

По формуле (IV.12) найдем частные коэффициенты корреляции, ис­ ключив влияние одного из факторов:

rK s cu == "Ь 0,850;

r/ccu s =

0,887;

r/ccu P ==— 0,690.

r/CS P =

— 0,034;

rs

P.Cu =

+ 0,813;

 

r K P'Cu =

“ b 0,585,

, "P

C U *S =

=

0,383;

 

rK P S =

0» 193»

rs cu-P =

"b 0,668;

 

Сопоставление величин парных и частных коэффициентов корреляции показьшает, что влияние, например, фосфора на скорость коррозии при постоянном содержании меди больше, чем при переменном, а влияние фосфора на скорость коррозии при постоянном содержании серы меньше, чем при переменном:

r/CP S < /7СР< г/СР-Си*

Частные коэффициенты корреляции, вычисленные по формуле (IV.14) в предположении, что устранено влияние двух факторов, приведе­ ны ниже:

/7cscuP = +0.792; rKP,SCu = —0,343; rKQa,sp = — 0,897.

Коэффициент парной корреляции между скоростью коррозии и содер­ жанием фосфора при меняющихся концентрациях меди и серы поло­ жительный (г*КР =+0,277); частный коэффициент корреляции rfo 5Cu=

= -0,343.

Таким образом, анализ корреляции дал возможность установить харак­ тер и степень влияния количества серы, фосфора и меди, содержащихся

встали, на скорость ее коррозии в растворе лимонной кислоты.

Вобщем случае для расчета коэффициентов частной корреляции можно воспользоваться выборочной корреляционной матрицей:

Коэффициент частной корреляции между х,- и у определится по

формуле

 

 

 

А/,у

 

*

i - 1. *4-1.

 

(IV. 15)

Чу 1,2.

 

— .

 

 

 

 

/ д н • Дуу

 

где Ai y —минор, получаемый вычеркиванием /-й строки и столбца у\

А и (A jj) минор„ получаемый вычеркиванием /-й (/-й)

строки и /-го

(/-го) столбца. Например, для корреляционной матрицы

 

 

''ll

to

' ’з •• •

г\у

 

 

*

*

*

*

 

 

Г21

Г22

Г23 *' • Г2у

 

 

*

*

*

*

(IV. 16)

 

Г31

Г32

г33 •'

Г3У

 

 

 

*

*

*

*

 

 

Гу\

Гу2

гуз • ’ *ГУУ

 

коэффициент частной корреляции rfy. 23 между х\ и у определится сле­ дующим образом:

Г21

Г22

г23

*

*

*

Л31

г32

Г33

*

*

*

гг/1

Гр2

гуз

*

*

*

V*

 

 

(IV.17)

Г22

г23

Г2у

'll

'12

'13

*

*

*

 

*

*

*

г32

гзз

г3у

 

'21

г22

Г23

*

 

*

ГУ2

ГУЪ

ГУУ

 

Г31

г32

г33

При интерпретации результатов корреляционного анализа нужно иметь в виду, что коэффициент корреляции —чисто статистический показатель. Он не содержит предположения, что изучаемые величины находятся в причинно-следственной связи. Поэтому любая трактовка корреляционной зависимости должна основываться на информации физико-химического характера.

3. Приближенная регрессия. Метод наименьших квадратов. Для харак­ теристики формы связи при изучении корреляционной зависимости пользуются уравнением приближенной регрессии. Задача ставится таким образом: по данной выборке объема п найти уравнение приближенной регрессии и оценить допускаемую при этом ошибку. Эта задача решается методами регрессионного и корреляционного анализа. Уравнение прибли­ женной регрессии существенно зависит от выбираемого метода прибли­ жения. В качестве такого метода обычно выбирают метод наименьших квадратов. Пусть задан некоторый класс функций f(x), накладывающих

на выборку одинаковое число связей /. Число связей / равно числу неопределенных коэффициентов, входящих в аналитическое выражение этой функции. Чаще всего используют многочлены различной степени. Наилучшее уравнение приближенной регрессии дает та функция из рассматриваемого класса, для которой сумма квадратов имеет наимень­

шее значение

л

 

Ф=

^ [ y t - f i X i ) ] ^

(IV. 18)

1=1

При нормальном распределении случайных величин метод наимень­ ших квадратов обосновывается в теории вероятностей как частный слу­ чай принципа максимума правдоподобия.

Предположим, что уравнение истинной регрессии выражается форму­ лой ту = ср (х), а экспериментальные точки отклоняются от этой зависи­ мости вследствие случайных ошибок измерения. Допустим, что ошибки измерения подчиняются нормальному закону распределения. Тогда ре­ зультат /-го опыта есть случайная величина у,-, распределенная по нормальному закону с математическим ожиданием myi = сp(xi) и сред­

ним квадратичным отклонением

ст,, характеризующим ошибку воспро­

изводимости.

 

 

Полагая, что все эксперименты равноточны, имеем:

 

 

°1 = °2 = . . . = а/ = . . . ол = а .

Тогда

нормальный закон,

по которому распределена величина

у,., можно

записать

в виде

 

 

fi (Уд =

- j y t e - t W P l .

В результате

опыта —ряда

измерений —произошло следующее

событие: случайные величины Y\, Тг,...,Ул приняли совокупность значений у,, у2,...,ул. В соответствии с принципом максимального

правдоподобия

(см. гл. II, с. 30) подберем так математические

ожидания (p(xj,

чтобы вероятность этого события Р

была максимальна.

Вероятность р. того, что случайная величина У, попадет в интервал у} - е/2, у] + г/2 в первом приближении, равна:

е

Найдем вероятность того, что система независимых случайных величин Y\, У2,..., Yn примет совокупность значений из интервалов у, -е/2, y,+s/2, / = 1,2,...,п:

р=Е"П у —

ехрj( - ^ 1л-*

1 =

= tn а~п (2п)~п^ ехр |

[ * - ,< * ) ,• } =

= к ехр { ~

" 7

2

[Pi_ * (Xi)rJ

где К коэффициент, не зависящий от

(p(xj.

 

Очевидно, что при заданном

а 2 максимум вероятности Р получит­

ся в случае, когда стоящая в показателе степени экспоненты сумма минимальна, т. е.

п

2 (и — <р(*/)12 = m‘n-

1=1

По методу наименьших квадратов можно обрабатывать любые экспериментальные данные, однако оптимальность этой процедуры доказывается только для нормального распределения. При этом мож­ но говорить о достаточных статистиках, т. е. таких функциях от результатов наблюдений (оценках для параметров генеральной сово­ купности), при помощи которых извлекается вся информация об этих параметрах, содержащаяся в эксперименте.

Задача определения коэффициентов уравнения регрессии по методу наименьших квадратов сводится практически к определению миниму­ ма функции многих переменных. Если

 

 

 

У—/ (*»

bltЬ2, . . . .

bk)

 

 

(IV. 19)

есть функция дифференцируемая и требуется

выбрать b0,

b]f b2...

так, чтобы

 

п

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ф = j?lyi —f(Xh ь0, V

Ь2,

...,

&Л)]2 =

т т ,

(IV.20)

 

i=i

 

 

 

 

Ф(b0,

b]f

Ь2>...,Ьк)

 

 

 

необходимым условием минимума

 

 

является выполне­

ние равенств

 

 

 

 

 

 

 

 

дФ

 

 

 

 

 

 

— - 0 — - 0

 

 

 

 

(IV.21)

 

 

 

 

 

— = 0

 

 

или

 

 

db0

dbY

 

 

 

dbk

 

 

 

 

 

yi —f(xi' V

blt

Ь2, . .. ,

bk)j

 

 

 

 

2

2 [

 

 

=

 

f=l

 

yi —f(*l>b0» bi>b2, .

 

 

 

 

 

 

 

 

2*[1=1

 

 

 

 

dby

= 0,

 

 

 

 

 

 

 

 

 

 

 

 

 

df (Xj)

(IV. 22)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

2 [

yt - f ( x h

bt , V

b„ ....

6*)]

^

 

= 0.

 

1=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

После преобразования

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

. .

o; (A-i)

 

 

df (xi)

 

b° ' bi* bi>

■■'

 

 

2 * yi ah

i=i

 

»*>

 

at,

 

iti

db«

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

. ,

 

df (x,)

 

 

 

 

 

 

fr«-

*1. ft2.

••

 

 

Z d yi

dbt

 

 

Ьк)

 

db,

 

1=1

1

yi

df (Xj)

bo.

bit b2j

. bk)

df (Xj)

0 .

dbk

dbk

=

 

1

 

 

 

 

 

 

1=

 

 

 

 

 

 

Система уравнений (IV. 23)

содержит

столько

же уравнений, сколько

неизвестных коэффициентов b0,

bv

Ь2,...,Ьк

входит

в

уравнение

регрессии, и называется в математической статистике системой нормальных уравнений.

Функция Ф >0 при любых b0, bv Ь2,...,Ьк, следовательно, у нее обязательно должен существовать хотя бы один минимум. Поэтому если система нормальных уравнений имеет единственное решение, то оно и является минимумом для функции Ф.

При изучении зависимости от одного переменного параметра полезно для определения вида уравнения регрессии построить

эмпирическую линию регрессии.

Для этого весь

диапазон изменения

х на поле корреляции (рис.

26) разбивается на

к равных интерва­

лов Ах. Все точки, попавшие в данный интервал Axj, относят к его середине х}. Для этого подсчитывают частные средние уу. для

каждого интервала

nJ

2

ун

 

У) = — ,

' (IV.24)

 

 

где Hj —число точек в интервале Аху, при этом

 

k

 

(IV.25)

2

- = п;

г= 1

п—объем выборки. Затем последовательно соединяют точки-(xJf v отрезками прямой. Полученная ломаная называется эмпирической линией регрессии у по х. По виду эмпирической линии регрессии можно подобрать уравнение регрессии у =f(x).

4.Линейная регрессия от одного параметра. Требуется определить по методу наименьших квадратов коэффициенты линейного уравне­ ния регрессии

y = bQ+ blX

(IV. 26)

по выборке объема п. Система нормальных уравнений при этом имеет вид

п п

 

2 yi — 2

 

(Ь° + bl *l) = °*

 

1=1

1=1

 

 

п

гг

 

 

 

^У1*1

— 2

 

+ bl *i= °>

 

»=1

(=1

 

 

 

 

п

 

п

Рис. 26. Эмпирическая ли­

пЬо + bi 2

Х1= 2у*

ния регрессии

 

»=1

 

1=1

ьо2

*i + bt 2

x] = 2

(IV.27)

<=i

<=i

<=i

 

Коэффициенты ft0 и bt легко найти при помощи определителей:

ЯЯ

2 *

2 * *

/=>1

<=i

f=i

2*?

2“2*?-2*i>‘

*=i

i=*\

i=\

f=l

(=\

(IV.28)

 

 

 

 

 

 

я

 

\*

 

 

 

 

 

 

 

 

 

2 *

 

п 2 * ?

-

2 -х'

 

 

 

/*=1

 

 

J= I

 

\ i = i

 

 

 

2 * *

2 * ?

 

 

 

 

 

 

 

 

/*1

м

 

 

 

 

 

 

 

 

 

2 «

 

 

 

 

 

 

 

 

 

<=i

 

 

 

 

 

 

 

 

я

 

 

 

 

 

я

 

я

 

2 *

2

 

л

2 * <у<~

2 * '

2

У*

*=1

f=i

 

 

 

 

f=i

 

*=i

bi =

я

 

 

■i4-(i*T

п

 

 

Г=1

 

 

2 * *

 

 

/=1

 

\i-

1

/

 

 

 

 

 

 

 

Я

я

 

 

 

 

 

 

 

 

2 * *

2 - ?

 

 

 

 

 

 

 

 

*=i

<=1

 

 

 

 

 

 

 

 

 

Я

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

f*=l1______________

 

 

 

 

 

 

 

(IV.29)

 

 

я

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

< *

' - 7

)*

 

 

 

 

 

проще найти по известному

из первого уравнения системы:

 

b0 = 'y— bl 7 .

 

 

 

 

(IV.30)

Уравнение (ГУ.30) показывает, что между коэффициентами Ь0 и ЬА

существует корреляционная зависимость. Для оценки силы линейной свя­ зи (ГУ.26) вычисляется выборочный коэффициент корреляции г*:

я

2( * t - * ) ( y t - y )

_____________

(IV.31)

(п

1) Sx Sy

где sx, sy - выборочные среднеквадратичные отклонения.

S—529

Из уравнений (IV 29) и (IV 31) имеем

Пример 1. Требуется определить зависимость растворимости хлорида бария в воде О) в присутствии хлорида кальция (х) при 70°С. Объем выборки л —6. Эксперимен­ тальные данные приведены ниже:

Xcad2 » % .....................................

О

5

8

10

15

20

у (растворимость ВаСЬ, %) . . .

32

25

20

17

11

5

Р е ш е н и е . Определим коэффициенты уравнения линейной регрессии вида

У = ь0+ ь1*.

Коэффициент Ь\ определим по формуле (IV.29), Ьо по формуле (IV.30). Для этого экспериментальные данные и результаты расчета представим в виде таблицы.

Номер

X

У

*2

ХУ

У2

х + у

'(х + у)*

опыта

 

 

 

 

 

 

 

1

0

32

0

0

1024

32

1024

2

5

25

25

125

625

30

900

3

8

20

64

160

400

28

784

4

10

17

100

170

289

27

729

5

15

11

225

165

121

26

676

6

20

5

400

100

25

25

■625

I

58

110

814

720

2484

168

4738

Проверку вычислений можно провести по формуле

п п п п

2 < * * + л > в= 2 * ? + 2 2 xtyi +

2 у? •

<iv -33)

f=i

l

i= i

/= i

 

В данном примере имеем 4738 —814 + 2-720 + 2484, т.е.

вычисления

проведены пра­

вильно.

 

 

 

 

Используем полученные в таблице суммы для определения коэффициентов Ьо и Ь\\

6-720 — 58-110

— 1,355;

1 1 0 +

1,355-58

31,43 .

=

 

6

6-814 — 58*

 

 

 

По формуле (IV.32) определим выборочный коэффициент корреляции:

6-814 — 3364

— 0,9 9 .

г* = — 1,355

6 - 2 4 8 4 — 12 100

 

Коэффициент корреляции очень близок к единице, следовательно,

зависимость между

х и у является практически линейной в изученном диапазоне и имеет вид

Л

0 = 3 1 ,4 3 — 1,355 х.