книги / Методы оптимизации эксперимента в химической технологии
..pdfКак было показано (см. гл. II), состоятельными и несмещенными оценками для математических ожиданий тх и ту служат выборочные средние:
п п
Состоятельными и несмещенными оценками дисперсий ах и СУ служат выборочные дисперсии:
2 |
_1_ |
2 |
S |
п — 1 |
У\ |
У |
||
|
|
1=1 |
Наконец, состоятельной и несмещенной оценкой ковариации cov^x служит выборочная ковариация:
C0V = 7 1 ГГ |
— |
|
i=1 |
По этим оценкам получают выборочный коэффициент корреляции:
|
п |
|
|
|
^ ( x i — x)(,yi — y) |
|
|
|
i=1 |
(IV. 1) |
|
* У |
(n ~ l ) sx sy |
||
|
Выборочный коэффициент корреляции г* дает состоятельную, но сме щенную оценку для коэффициента корреляции генеральной совокуп
ности, эта оценка имеет смещение, равное — ----Величина смещения 2п
убывает обратно пропорционально числу опытов п и при п > 50 состав ляет менее 1%.
Выборочный коэффициент корреляции /■*,, так же как и ^ —коэффи циент корреляции генеральной совокупности, по абсолютной величине не превосходит единицы:
— 1< г*у< + 1•
Выборочный коэффициент корреляции не изменяется при изменении начала отсчета и масштаба величин X и Y (см. свойства коэффициента корреляции генеральной совокупности, с. 25). Это свойство позволяет существенно упростить вычисления.
Коэффициент корреляции одинаково отмечает долю случайности и криволинейность связи между X и Y. Зависимость между X и Y может быть близкой к функциональной, но существенно нелинейной, а коэффи циент корреляции будет значительно меньше единицы.
При достаточно большом объеме выборки п выборочный коэффици ент корреляции г* приближенно равен генеральному коэффициенту г. Однако оценить возникающую при этом погрешность затруднительно. Для этого нужно знать распределение г* как случайной величины. Это распределение зависит от генерального коэффициента корреляции /*, который неизвестен. Для проверки гипотезы об отсутствии корреляции необходимо проверять, значимо ли отличается г* от нуля. Для проверки нулевой гипотезы № : г= 0 можно использовать нормальное распределе ние со стандартом:
V * ( l - г * 2)/У^~. (IV.2)
Если в качестве доверительной вероятности взять = 0,95, коэффи циент корреляции находится в следующих доверительных границах:
г* |
1,96(1 — |
г *2) |
1,96(1 — г*2) |
(IV.3) |
Vn |
< Г < г * + |
V !Г |
||
|
|
|
С вероятностью 0,95 можно утверждать, что зависимость между слу чайными величинами существует, если 0 не содержится внутри довери тельного интервала, т. е. если
| г * | - |
1,96(1 — г*2) |
(IV.4) |
—— -> о . |
Vn
При малом числе экспериментов и сравнительно высокой корреляции распределение коэффициента корреляции существенно отличается от нормального (рис. 25, а). Для построения доверительного интервала можно воспользоваться преобразованием Фишера:
г* = th 2 = |
e*z — 1 |
(IV.5) |
ё12+ 1 ' |
||
отсюда |
1+ г* |
|
|
(IV.6) |
|
|
1— г* |
|
|
|
Распределение z является почти неизменным по форме при меняющихся г* и п и с возрастанием п быстро приближается к нормальному (рис. 25, б) со средним, равным
Рис. 25. Плотность распределения выборочного коэффициента корреляции
m z = |
1 |
1+ r |
(IV. 7) |
— |
I n -------- |
||
* |
2 |
1—/• |
|
и со стандартом
(IV.8)
Vn — 3
Тогда с доверительной вероятностью fi значение неизвестного m, находится в пределах
|
: < mz < z+ |
“Р |
|
Vn — 3 |
У п—3 |
||
|
где Mjj —квантиль нормального распределения. При вероятности/ j =0,95, и»—1,96, отсюда
1,96 |
• < |
т* < г + |
1,96 |
Vn — 3 |
' |
* |
Vn — 3 |
После нахождения доверительных^границ для ги2
1,96
Zj = Z —
V"n-^3”
1,96
za = z+
V n—3
(IV.9)
доверительной
(IV. 10)
(iv.ll)
можно найти доверительные границы для генерального коэффициента корреляции, подставляя zi и Z2 в формулу (IV.5).
2.Коэффициенты частной корреляции. При исследовании зависимости
величины у от двух факторов х\ и хг наличие корреляции между у и JC2и корреляции между х\ и хг будет влиять на корреляцию между у и х\. Для того чтобы устранить влияние хг, необходимо измерить корреляцию между у и XI, когда хг постоянно. Для этой цели в статистике при меняют частные коэффициенты корреляции:
ryxx ryx2 rxtxt
(IV. 12)
UXrXt
* |
* |
* |
|
________г ух, |
ryxt тхххх |
(IV. 13) |
|
|
|
|
|
Частный коэффициент корреляции г*х |
оценивает степень влияния |
фактора XI нау при условии, что влияние хг нау исключено. В обозначении частного коэффициента корреляции этот исключенный фактор поставлен в индексе после точки. При изучении зависимости у от трех факторов XI, хг и хз частный коэффициент корреляции между у и xi при условии, что Х 2 и хз будут постоянными, можно вычислить по формуле
* |
__________ г у \ . 3 |
г у 2 Я г 1 2 .3 |
(IV. 14) |
|
_ ^ . 3)V, (, _ r;2 3)V |
||
|
|
При переходе от парных коэффициентов корреляции к частным может существенно измениться не только величина коэффициента кор реляции, но и знак. Проиллюстрируем это на примере.
Исследовалась скорость коррозии (К) образцов стали, содержащих серу (S), фосфор (Р) и медь (Си) в растворе лимонной кислоты.
На основании выборки из 39 опытов были получены значения коэффи циентов парной корреляции:
= |
+ |
0 ,2 0 5 » |
г^р = + |
0 , 8 1 0 ! |
= |
+ |
0,277; |
rscu = |
0*663» |
rК Cu = |
— 0,504; |
rp Cu = |
+ 0,369. |
По формуле (IV.12) найдем частные коэффициенты корреляции, ис ключив влияние одного из факторов:
rK s cu == "Ь 0,850; |
r/ccu s = |
0,887; |
r/ccu P ==— 0,690. |
|||
r/CS P = |
— 0,034; |
rs |
P.Cu = |
+ 0,813; |
|
|
r K P'Cu = |
“ b 0,585, |
, "P |
C U *S = |
= |
— 0,383; |
|
rK P S = |
0» 193» |
rs cu-P = |
"b 0,668; |
|
Сопоставление величин парных и частных коэффициентов корреляции показьшает, что влияние, например, фосфора на скорость коррозии при постоянном содержании меди больше, чем при переменном, а влияние фосфора на скорость коррозии при постоянном содержании серы меньше, чем при переменном:
r/CP S < /7СР< г/СР-Си*
Частные коэффициенты корреляции, вычисленные по формуле (IV.14) в предположении, что устранено влияние двух факторов, приведе ны ниже:
/7cscuP = +0.792; rKP,SCu = —0,343; rKQa,sp = — 0,897.
Коэффициент парной корреляции между скоростью коррозии и содер жанием фосфора при меняющихся концентрациях меди и серы поло жительный (г*КР =+0,277); частный коэффициент корреляции rfo 5Cu=
= -0,343.
Таким образом, анализ корреляции дал возможность установить харак тер и степень влияния количества серы, фосфора и меди, содержащихся
встали, на скорость ее коррозии в растворе лимонной кислоты.
Вобщем случае для расчета коэффициентов частной корреляции можно воспользоваться выборочной корреляционной матрицей:
Коэффициент частной корреляции между х,- и у определится по
формуле |
|
|
|
А/,у |
|
* |
i - 1. *4-1. |
|
(IV. 15) |
||
Чу 1,2. |
|
— . |
|||
|
|
|
|
/ д н • Дуу |
|
где Ai y —минор, получаемый вычеркиванием /-й строки и столбца у\ |
|||||
А и (A jj) —минор„ получаемый вычеркиванием /-й (/-й) |
строки и /-го |
||||
(/-го) столбца. Например, для корреляционной матрицы |
|
||||
|
''ll |
to |
' ’з •• • |
г\у |
|
|
* |
* |
* |
* |
|
|
Г21 |
Г22 |
Г23 *' • Г2у |
|
|
|
* |
* |
* |
* |
(IV. 16) |
|
Г31 |
Г32 |
г33 •' |
Г3У |
|
|
|
||||
|
* |
* |
* |
* |
|
|
Гу\ |
Гу2 |
гуз • ’ *ГУУ |
|
коэффициент частной корреляции rfy. 23 между х\ и у определится сле дующим образом:
Г21 |
Г22 |
г23 |
* |
* |
* |
Л31 |
г32 |
Г33 |
* |
* |
* |
гг/1 |
Гр2 |
гуз |
* |
* |
* |
V* |
|
|
(IV.17) |
Г22 |
г23 |
Г2у |
'll |
'12 |
'13 |
|
* |
* |
* |
|
* |
* |
* |
г32 |
гзз |
г3у |
|
'21 |
г22 |
Г23 |
* |
• |
• |
|
* |
• |
• |
ГУ2 |
ГУЪ |
ГУУ |
|
Г31 |
г32 |
г33 |
При интерпретации результатов корреляционного анализа нужно иметь в виду, что коэффициент корреляции —чисто статистический показатель. Он не содержит предположения, что изучаемые величины находятся в причинно-следственной связи. Поэтому любая трактовка корреляционной зависимости должна основываться на информации физико-химического характера.
3. Приближенная регрессия. Метод наименьших квадратов. Для харак теристики формы связи при изучении корреляционной зависимости пользуются уравнением приближенной регрессии. Задача ставится таким образом: по данной выборке объема п найти уравнение приближенной регрессии и оценить допускаемую при этом ошибку. Эта задача решается методами регрессионного и корреляционного анализа. Уравнение прибли женной регрессии существенно зависит от выбираемого метода прибли жения. В качестве такого метода обычно выбирают метод наименьших квадратов. Пусть задан некоторый класс функций f(x), накладывающих
на выборку одинаковое число связей /. Число связей / равно числу неопределенных коэффициентов, входящих в аналитическое выражение этой функции. Чаще всего используют многочлены различной степени. Наилучшее уравнение приближенной регрессии дает та функция из рассматриваемого класса, для которой сумма квадратов имеет наимень
шее значение |
л |
|
Ф= |
^ [ y t - f i X i ) ] ^ |
(IV. 18) |
1=1
При нормальном распределении случайных величин метод наимень ших квадратов обосновывается в теории вероятностей как частный слу чай принципа максимума правдоподобия.
Предположим, что уравнение истинной регрессии выражается форму лой ту = ср (х), а экспериментальные точки отклоняются от этой зависи мости вследствие случайных ошибок измерения. Допустим, что ошибки измерения подчиняются нормальному закону распределения. Тогда ре зультат /-го опыта есть случайная величина у,-, распределенная по нормальному закону с математическим ожиданием myi = сp(xi) и сред
ним квадратичным отклонением |
ст,, характеризующим ошибку воспро |
||
изводимости. |
|
|
|
Полагая, что все эксперименты равноточны, имеем: |
|||
|
|
°1 = °2 = . . . = а/ = . . . ол = а . |
|
Тогда |
нормальный закон, |
по которому распределена величина |
|
у,., можно |
записать |
в виде |
|
|
fi (Уд = |
- j y t e - t W P l . |
|
В результате |
опыта —ряда |
измерений —произошло следующее |
событие: случайные величины Y\, Тг,...,Ул приняли совокупность значений у,, у2,...,ул. В соответствии с принципом максимального
правдоподобия |
(см. гл. II, с. 30) подберем так математические |
ожидания (p(xj, |
чтобы вероятность этого события Р |
была максимальна.
Вероятность р. того, что случайная величина У, попадет в интервал у} - е/2, у] + г/2 в первом приближении, равна:
е
Найдем вероятность того, что система независимых случайных величин Y\, У2,..., Yn примет совокупность значений из интервалов у, -е/2, y,+s/2, / = 1,2,...,п:
р=Е"П у — |
ехрj( - ^ 1л-* |
1 = |
||
= tn а~п (2п)~п^ ехр | |
— |
[ * - ,< * ) ,• } = |
||
= к ехр { ~ |
" 7 |
2 |
[Pi_ * (Xi)rJ |
• |
где К —коэффициент, не зависящий от |
(p(xj. |
|
||
Очевидно, что при заданном |
а 2 максимум вероятности Р получит |
ся в случае, когда стоящая в показателе степени экспоненты сумма минимальна, т. е.
п
2 (и — <р(*/)12 = m‘n-
1=1
По методу наименьших квадратов можно обрабатывать любые экспериментальные данные, однако оптимальность этой процедуры доказывается только для нормального распределения. При этом мож но говорить о достаточных статистиках, т. е. таких функциях от результатов наблюдений (оценках для параметров генеральной сово купности), при помощи которых извлекается вся информация об этих параметрах, содержащаяся в эксперименте.
Задача определения коэффициентов уравнения регрессии по методу наименьших квадратов сводится практически к определению миниму ма функции многих переменных. Если
|
|
|
У—/ (*» |
bltЬ2, . . . . |
bk) |
|
|
(IV. 19) |
|||||||
есть функция дифференцируемая и требуется |
выбрать b0, |
b]f b2... |
|||||||||||||
так, чтобы |
|
п |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ф = j?lyi —f(Xh ь0, V |
Ь2, |
..., |
&Л)]2 = |
т т , |
(IV.20) |
||||||||||
|
i=i |
|
|
|
|
Ф(b0, |
b]f |
Ь2>...,Ьк) |
|
|
|
||||
необходимым условием минимума |
|
|
является выполне |
||||||||||||
ние равенств |
|
|
|
|
|
|
|
|
дФ |
|
|
|
|||
|
|
|
— - 0 — - 0 |
|
|
|
|
(IV.21) |
|||||||
|
|
|
|
|
— = 0 |
|
|
||||||||
или |
|
|
db0 |
dbY |
|
|
|
dbk |
|
|
|
|
|||
|
yi —f(xi' V |
blt |
Ь2, . .. , |
bk)j |
|
|
|
|
|||||||
2 |
2 [ |
|
|
= |
|
||||||||||
f=l |
|
yi —f(*l>b0» bi>b2, . |
|
|
|
|
|
|
|
|
|||||
2*[1=1 |
|
|
|
|
dby |
= 0, |
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
df (Xj) |
(IV. 22) |
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
2 [ |
yt - f ( x h |
bt , V |
b„ .... |
6*)] |
^ |
|
= 0. |
|
||||||
1=1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
После преобразования |
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
n |
|
|
|
|
|
|
|
|
. . |
o; (A-i) |
|
|
|
df (xi) |
|
b° ' bi* bi> |
■■' |
|
|
|||||||||
2 * yi ah |
i=i |
|
• |
»*> |
|
at, |
|
||||||||
iti |
db« |
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
n |
|
|
|
|
|
|
|
|
. , |
|
df (x,) |
|
|
|
|
|
|
fr«- |
*1. ft2. |
•• ■ ’ |
|
|
||||||
Z d yi |
dbt |
|
|
Ьк) |
|
db, |
|
1=1 |
1 |
yi |
df (Xj) |
bo. |
bit b2j |
. bk) |
df (Xj) |
0 . |
||
dbk |
dbk |
= |
||||||
|
1 |
|
|
|
|
|
||
|
1= |
|
|
|
|
|
|
|
Система уравнений (IV. 23) |
содержит |
столько |
же уравнений, сколько |
|||||
неизвестных коэффициентов b0, |
bv |
Ь2,...,Ьк |
входит |
в |
уравнение |
регрессии, и называется в математической статистике системой нормальных уравнений.
Функция Ф >0 при любых b0, bv Ь2,...,Ьк, следовательно, у нее обязательно должен существовать хотя бы один минимум. Поэтому если система нормальных уравнений имеет единственное решение, то оно и является минимумом для функции Ф.
При изучении зависимости от одного переменного параметра полезно для определения вида уравнения регрессии построить
эмпирическую линию регрессии. |
Для этого весь |
диапазон изменения |
х на поле корреляции (рис. |
26) разбивается на |
к равных интерва |
лов Ах. Все точки, попавшие в данный интервал Axj, относят к его середине х}. Для этого подсчитывают частные средние уу. для
каждого интервала
nJ
2 |
ун |
|
У) = — — , |
' (IV.24) |
|
|
'Ч |
|
где Hj —число точек в интервале Аху, при этом |
|
|
k |
|
(IV.25) |
2 |
- = п; |
г= 1
п—объем выборки. Затем последовательно соединяют точки-(xJf v отрезками прямой. Полученная ломаная называется эмпирической линией регрессии у по х. По виду эмпирической линии регрессии можно подобрать уравнение регрессии у =f(x).
4.Линейная регрессия от одного параметра. Требуется определить по методу наименьших квадратов коэффициенты линейного уравне ния регрессии
y = bQ+ blX |
(IV. 26) |
по выборке объема п. Система нормальных уравнений при этом имеет вид
п п
|
2 yi — 2 |
|
(Ь° + bl *l) = °* |
|
|
1=1 |
1=1 |
|
|
|
п |
гг |
|
|
|
^У1*1 |
— 2 |
|
+ bl *i= °> |
|
»=1 |
(=1 |
|
|
|
|
п |
|
п |
Рис. 26. Эмпирическая ли |
пЬо + bi 2 |
Х1= 2у*’ |
||
ния регрессии |
|
»=1 |
|
1=1 |
ьо2 |
*i + bt 2 |
x] = 2 |
(IV.27) |
<=i |
<=i |
<=i |
|
Коэффициенты ft0 и bt легко найти при помощи определителей:
ЯЯ
2 * |
2 * * |
/=>1 |
<=i |
f=i |
2*? |
2“2*?-2*i>‘ |
|||||||
*=i |
i=*\ |
i=\ |
f=l |
(=\ |
(IV.28) |
||||
|
|
|
|
|
|
я |
|
\* |
|
|
|
|
|
|
|
|
|
||
|
2 * |
|
п 2 * ? |
- |
2 -х' |
|
|
||
|
/*=1 |
|
|
J= I |
|
\ i = i |
|
|
|
2 * * |
2 * ? |
|
|
|
|
|
|
|
|
/*1 |
м |
|
|
|
|
|
|
|
|
|
2 « |
|
|
|
|
|
|
|
|
|
<=i |
|
|
|
|
|
|
|
|
я |
|
|
|
|
|
я |
|
я |
|
2 * |
2 |
|
л |
2 * <у<~ |
2 * ' |
2 |
У* |
||
*=1 |
f=i |
|
|
|
|
f=i |
|
*=i |
|
bi = |
я |
|
|
■i4-(i*T |
|||||
п |
|
|
|||||||
Г=1 |
|
|
|||||||
2 * * |
|
|
/=1 |
|
\i- |
1 |
/ |
|
|
|
|
|
|
|
|
||||
Я |
я |
|
|
|
|
|
|
|
|
2 * * |
2 - ? |
|
|
|
|
|
|
|
|
*=i |
<=1 |
|
|
|
|
|
|
|
|
|
Я |
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
f*=■ l1______________ |
|
|
|
|
|
|
|
(IV.29) |
|
|
я |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
< * |
' - 7 |
)* |
|
|
|
|
|
проще найти по известному |
из первого уравнения системы: |
||||||||
|
b0 = 'y— bl 7 . |
|
|
|
|
(IV.30) |
Уравнение (ГУ.30) показывает, что между коэффициентами Ь0 и ЬА
существует корреляционная зависимость. Для оценки силы линейной свя зи (ГУ.26) вычисляется выборочный коэффициент корреляции г*:
я
2( * t - * ) ( y t - y )
_____________
(IV.31)
(п |
1) Sx Sy |
где sx, sy - выборочные среднеквадратичные отклонения.
S—529
Из уравнений (IV 29) и (IV 31) имеем
Пример 1. Требуется определить зависимость растворимости хлорида бария в воде О) в присутствии хлорида кальция (х) при 70°С. Объем выборки л —6. Эксперимен тальные данные приведены ниже:
Xcad2 » % ..................................... |
О |
5 |
8 |
10 |
15 |
20 |
у (растворимость ВаСЬ, %) . . . |
32 |
25 |
20 |
17 |
11 |
5 |
Р е ш е н и е . Определим коэффициенты уравнения линейной регрессии вида
У = ь0+ ь1*.
Коэффициент Ь\ определим по формуле (IV.29), Ьо —по формуле (IV.30). Для этого экспериментальные данные и результаты расчета представим в виде таблицы.
Номер |
X |
У |
*2 |
ХУ |
У2 |
х + у |
'(х + у)* |
опыта |
|
|
|
|
|
|
|
1 |
0 |
32 |
0 |
0 |
1024 |
32 |
1024 |
2 |
5 |
25 |
25 |
125 |
625 |
30 |
900 |
3 |
8 |
20 |
64 |
160 |
400 |
28 |
784 |
4 |
10 |
17 |
100 |
170 |
289 |
27 |
729 |
5 |
15 |
11 |
225 |
165 |
121 |
26 |
676 |
6 |
20 |
5 |
400 |
100 |
25 |
25 |
■625 |
I |
58 |
110 |
814 |
720 |
2484 |
168 |
4738 |
Проверку вычислений можно провести по формуле
п п п п
2 < * * + л > в= 2 * ? + 2 2 xtyi + |
2 у? • |
<iv -33) |
||
f=i |
l |
i= i |
/= i |
|
В данном примере имеем 4738 —814 + 2-720 + 2484, т.е. |
вычисления |
проведены пра |
||
вильно. |
|
|
|
|
Используем полученные в таблице суммы для определения коэффициентов Ьо и Ь\\ |
||||
6-720 — 58-110 |
— 1,355; |
1 1 0 + |
1,355-58 |
31,43 . |
= |
|
6 |
||
6-814 — 58* |
|
|
|
По формуле (IV.32) определим выборочный коэффициент корреляции:
6-814 — 3364 |
— 0,9 9 . |
г* = — 1,355 |
|
6 - 2 4 8 4 — 12 100 |
|
Коэффициент корреляции очень близок к единице, следовательно, |
зависимость между |
х и у является практически линейной в изученном диапазоне и имеет вид
Л
0 = 3 1 ,4 3 — 1,355 х.