Учебное пособие 800461
.pdf
|
|
|
|
|
Y |
|
|
||
|
|
|
|
|
B |
(x x) |
|||
y x y |
B |
||||||||
X |
|||||||||
|
|
|
|
|
B |
– выборочное уравнение прямой линии регрессии Y на X ;
X
x y x B BY ( y y)
B
– выборочное уравнение прямой линии регрессии X на Y .
Замечание 16.1. Знак выборочного коэффициента корреляции B совпа-
|
|
Y |
|
|
|
X |
дает со знаком коэффициентов регрессии, так как a |
|
B |
; |
c |
|
B |
B X |
B Y |
|||||
|
|
B |
|
|
|
B |
. Это
означает, что СВ |
X и Y обе либо убывают либо возрастают, если B |
0 ; или |
ведут себя разнонаправлено ― одна убывает, а другая возрастает, если |
B 0 . |
|
Замечание |
16.2. Если прямые регрессии построить на координатной |
плоскости, на которой изображено корреляционное поле, то при тесной линейной корреляционной зависимости угол между прямыми будет малым, а точки корреляционного поля будут примыкать к этим прямым.
Замечание 16.3. Выборочный коэффициент корреляции характеризует степень линейной зависимости, поэтому, если он близок к нулю, то может оказаться, что между СВ X и Y существует нелинейная регрессионная связь.
16.3. Критерий значимости линии регрессии
Предположим, что по результатам n наблюдений |
(xi |
yi ) , i |
1 n по- |
|
|
|
|
b1 x |
b0 . При по- |
строено выборочное уравнение прямой линии регрессии |
y x |
строении выборочного уравнения прямой линии регрессии будем считать, что
двумерная случайная величина (X Y ) |
распределена по нормальному закону, а, |
||||||||
значит, функция регрессии Y на |
X является линейной: M (Y |
X |
x) |
1 x |
0 . |
||||
Из этого следует, что зависимая переменная Y |
и независимая переменная |
X |
|||||||
связаны соотношением |
|
|
|
|
|
|
|
|
|
Yi M (Y X xi ) |
i |
1 xi |
0 |
i i 1 |
n |
|
|
|
|
где xi – известные значения независимой переменной X ; |
0 |
1 |
– неизвестные |
||||||
параметры; i – чисто случайное слагаемое (остаток). |
|
|
|
|
|
||||
Отметим, что в рассматриваемом случае зависимая переменная Y |
являет- |
ся суммой двух слагаемых – неслучайного слагаемого, определяемого линей-
101
ной формой от независимой переменной, и случайного слагаемого
того, предполагается, что наблюдаемые значения независимой переменной xi являются совокупностью фиксированных значений СВ X , измерения которых проводятся без ошибки или с пренебрежимо малой ошибкой, а остатки i – не-
зависимые случайные величины, имеющие нормальное распределение с нулевым математическим ожиданием и одинаковой неизвестной дисперсией.
Предположение о нормальном распределении СВ нуждается в статистической проверке, так как может оказаться, что гипотеза о двумерном нормальном распределении не согласуется с эмпирическими данными. В этом случае уравнение регрессии может быть нелинейным.
Так как уравнения регрессии обычно строятся по небольшому числу дан-
ных, то трудно проверить гипотезу о нормальном распределении СВ |
(X Y ) . |
Вместо этого проверяют гипотезу линейности, т.е. нулевую гипотезу H0 |
1 0 |
против конкурирующей гипотезы H1 1 0 . Если нулевая гипотеза принима-
ется, то считают, что уравнение регрессии Y на X либо имеет нелинейный вид, либо эти переменные являются некоррелированными случайными величинами.
Одним из методов проверки нулевой гипотезы H0 1 0 является диспер-
сионный анализ (подробности изложены в разделе 17). Пусть мы имеем корреляционное поле (xi , y j ), i 1, 2,..., n, значений двух СВ ( X ,Y ) , полученных в резуль-
тате выборки объема n . Начнем с исследования общей суммы квадратов отклоне-
|
|
|
|
ний значений yi от выборочного среднего |
|
y : |
|
n |
|
|
|
( y |
y)2 |
||
i |
|
|
|
i 1 |
|
|
|
Если коэффициенты линейной формы Yi b1 xi b0 получены из выборки по методу наименьших квадратов в результате решения системы (16.1), то имеет место следующее разложение:
|
|
|
n |
|
|
n |
|
|
n |
|
|
|
( y y)2 |
(Y y)2 |
( y Y )2 |
||||
|
|
|
i |
i |
i i |
||||
|
|
|
i 1 |
i 1 |
i 1 |
||||
|
|
1 |
n |
|
|
|
|
||
где |
y |
|
yi . Принято считать, что в этом фундаментальном соотношении со- |
||||||
|
|||||||||
|
|
n i 1 |
|
|
|
|
держится, как в зародыше, весь дисперсионный анализ (см. [11], стр. 22). Действительно, значение выборочного корреляционного момента
( yi |
Yi )(Yi |
y) |
( yi b0 |
b1 xi )(b0 |
b1 xi |
y) |
|
(b0 y) |
( yi |
b0 b1 xi ) b1 |
xi ( yi |
b0 |
b1 xi ) |
, |
|
|
|||||||
равно нулю, ибо |
( yi b0 |
b1 xi ) |
0 и |
xi ( yi |
b0 |
b1 xi ) |
0 в силу уравне- |
|
|
|
102 |
|
|
|
|
ний системы (16.1). Отсюда
( y y)2 |
(( y Y ) (Y y))2 |
(( y Y )2 |
2( y Y )(Y y) (Y y)2 ) |
, |
||||
i |
i |
i |
i |
i i |
i i i |
i |
||
|
||||||||
( y Y )2 |
2 ( y Y )(Y y) |
(Y y)2 |
(Y y)2 |
( y Y )2 |
|
|||
i i |
|
i |
i i |
i |
i |
i i |
|
что и требовалось доказать.
Таким образом, сумма квадратов отклонений может быть разбита на два положительных слагаемых: 1) сумму квадратов отклонений значений регрессии относительно среднего; 2) сумму квадратов отклонений значений выборки относительно линии регрессии ― остаточная сумма квадратов.
Если прямая регрессии проходит через все заданные точки, то остаточная
сумма квадратов отклонений будет равна нулю, и все рассеяние значений |
yi |
||
относительно среднего объясняется линейной зависимостью yi |
b1 xi |
b0 . |
|
Если же данные не содержат линейного тренда ( 1 b1 |
0, 0 |
b0 |
y ), |
то сумму квадратов значений регрессии относительно среднего будет мала и почти все рассеяние yi объясняется как рассеяние относительно линии регрессии. Поэтому считается, что регрессия будет значимой, если сумма квадратов отклонений регрессии относительно среднего будет больше по сравнению с суммой квадратов отклонений относительно линии регрессии.
Для проверки основной гипотезы можно использовать статистику:
|
|
|
|
F |
|
M1 |
|
|
|
|
|
|
|
M 2 |
|
||
|
|
|
|
|
|
|
||
|
|
|
|
n |
|
|
|
|
|
n |
|
|
( y |
Y )2 |
|
||
|
i |
|
i |
|
||||
где M1 |
(Yi y)2 , M 2 |
i 1 |
|
|
|
. Случайная величина F при условии |
||
n |
2 |
|
|
|||||
|
i 1 |
|
|
|
справедливости нулевой гипотезы имеет распределение Фишера-Снедекора со
степенями свободы |
1 |
1 и 2 |
n |
2 . |
|
|
Зададим уровень значимости данного критерия равным . Найдем кри- |
||||||
тическую точку kкр , |
используя табл. П. 6 |
распределения Фишера-Снедекора, |
||||
критическая точка равна |
Fкр |
F 1 n |
2 . Если Fнабл |
F 1 n 2 , то гипотеза отсут- |
||
ствия линейной связи между переменными |
X и Y |
отвергается. Если же прове- |
ряемая гипотеза не отклоняется, то считается, что либо уравнение регрессии имеет нелинейный вид (распределение СВ (X Y ) не является нормальным), либо эти СВ являются не коррелированными.
Для удобства все вычисления, проводимые для проверки гипотезы о линейности, располагают в таблице дисперсионного анализа (табл. 16.1).
103
Таблица 16.1
Источник изменчи- |
Суммы квадратов |
Число степеней сво- |
Средние квадраты |
||||||
вости |
|
|
|
боды |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Линейная регрессия |
|
n |
|
|
1 |
M1 |
|
B |
|
|
|
|
|
|
|
|
|
|
|
|
B b2 |
x2 |
nx 2 |
|
|
|
|
|
|
|
1 |
i |
|
|
|
|
|
|
|
|
|
i 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Остаток |
C |
A |
B |
n |
2 |
M 2 |
|
C |
|
|
|
|
|
|
|
n |
2 |
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
Полная сумма |
|
n |
|
n |
1 |
|
|
|
|
|
A |
y2 |
ny2 |
|
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
i |
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Формулы, приведенные во второй колонке таблицы, были получены следующим образом:
|
n |
|
|
n |
|
|
|
|
|
|
|
|
|
|
2) |
n |
|
|
|
|
n |
n |
2 |
|
A |
( yi y)2 |
( yi2 |
|
2 yi |
y |
|
|
|
|
yi2 |
|
2 y yi |
|
|
||||||||||
|
|
|
y |
|
|
y |
||||||||||||||||||
|
i 1 |
i 1 |
|
|
|
|
|
|
|
|
|
|
|
i 1 |
|
|
|
|
i 1 |
i 1 |
|
|||
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
2 |
n |
|
|
2 |
|
|
|
|||
|
|
|
|
yi2 |
2 |
yn y n |
|
yi2 |
n |
|
|
|
|
|||||||||||
|
|
|
|
y |
y |
|
|
|
||||||||||||||||
|
|
|
|
i 1 |
|
|
|
|
|
|
|
|
|
|
|
i 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Так как уравнение регрессии Y на |
X имеет вид: |
|
y x |
|
y b1 (x x) , то |
|||||||||||
|
n |
|
|
n |
|
|
n |
|
|
|
|
|
|
2 |
||
B |
(Yi y)2 |
b12 (xi |
|
x)2 b12 |
xi2 |
n |
|
|||||||||
|
x |
|||||||||||||||
|
i 1 |
i 1 |
|
|
i 1 |
|
|
|
|
|
|
|
|
|
Замечание 16.4. Доля общей суммы квадратов, объясняемая регрессией, называется коэффициентом детерминации и находится по формуле
R2 |
B |
|
|
||
A |
||
|
Этот показатель лежит в пределах от нуля до единицы. В случае, когда выборочное уравнение регрессии является линейным, коэффициент детерминации равен квадрату выборочного коэффициента корреляции:
R2 |
2 |
|
B |
Замечание 16.5. Если регрессионная зависимость между СВ X и Y установлена (см. [2, с. 270]), но она не является линейной, то выборочное уравнение регрессии можно искать в виде некоторой нелинейной функции. Например,
y x b0 b1 x b2 x2
104
y x b0 b1ex
Для отыскания параметров выборочных уравнений криволинейной регрессии можно использовать метод наименьших квадратов, а проверку значимости криволинейной регрессии осуществлять методами дисперсионного анализа.
Замечание 16.6. Если исследуется связь между несколькими случайными величинами, то корреляцию называют множественной. В простейшем случае число случайных величин равно трем и связь между ними линейная.
Пример 16.1. В табл. 16.2 приведены результаты 11 измерений отклонения от номиналов высот моделей xi и отливок к ним yi .
Таблица 16.2
№ |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
xi |
0,9 |
1,22 |
1,32 |
0,77 |
1,3 |
1,2 |
1,32 |
0,95 |
1,45 |
1,3 |
1,2 |
|
|
|
|
|
|
|
|
|
|
|
|
yi |
-0,3 |
0,1 |
0,7 |
-0,28 |
-0,25 |
0,02 |
0,37 |
-0,7 |
0,55 |
0,35 |
0,32 |
|
|
|
|
|
|
|
|
|
|
|
|
Требуется вычислить коэффициент корреляции и детерминации, объяснить смысл коэффициента детерминации. Построить выборочные уравнения прямых линий регрессии Y на X и X на Y . Проверить методом дисперсионного анализа значимость линии регрессии.
Решение. Запишем результаты вычислений числовых характеристик, необходимых для отыскания коэффициента корреляции и выборочного уравнения регрессии, в табл. 16.3.
|
|
|
|
|
Таблица 16.3 |
|
|
|
|
|
|
№ |
xi |
yi |
xi yi |
xi2 |
yi2 |
1 |
0,9 |
-0,3 |
-0,27 |
0,81 |
0,09 |
2 |
1,22 |
0,1 |
0,122 |
1,4889 |
0,01 |
3 |
1,32 |
0,7 |
0,924 |
1,7424 |
0,49 |
4 |
0,77 |
-0,28 |
-0,2156 |
0,5929 |
0,0784 |
5 |
1,3 |
-0,25 |
-0,325 |
1,69 |
0,0625 |
6 |
1,2 |
0,02 |
0,024 |
1,44 |
0,0004 |
|
|
|
|
|
|
№ |
xi |
yi |
xi yi |
xi2 |
yi2 |
7 |
1,32 |
0,37 |
0,4884 |
1,7424 |
0,1369 |
8 |
0,95 |
-0,7 |
-0,665 |
0,9025 |
0,49 |
9 |
1,45 |
0,55 |
0,7975 |
2,1025 |
0,3025 |
10 |
1,3 |
0,35 |
0,455 |
1,69 |
0,1225 |
11 |
1,2 |
0,32 |
0,384 |
1,44 |
0,1024 |
|
12,93 |
0,88 |
1,7193 |
15,6411 |
1,8856 |
|
|
|
|
|
|
С учетом полученных значений:
|
|
1 7193 |
|
|
|
12 93 |
|
|
|
0 88 |
|
|||||
xy |
0 1563 x |
1 1754 y |
0 08 |
|||||||||||||
|
|
|
|
|
|
|
||||||||||
11 |
|
11 |
|
11 |
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
105 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
15 6411 |
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
x2 |
|
|
(x)2 |
1 17542 |
0 2 |
|
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
11 |
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 8856 |
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
y2 |
|
|
( y)2 |
|
|
|
|
|
0 082 |
|
0 406 |
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
11 |
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
вычислим выборочный коэффициент корреляции: |
|
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
xy |
|
|
x |
|
|
y |
|
|
|
|
|
0 1563 1 1754 0 08 |
0 766 |
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
B |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0 2 0 406 |
|||||
|
2 |
|
|
|
|
|
|
2 |
|
|
|
|
2 |
|
|
|
|
|
|
|
2 |
|
|
|
|
|||||||
|
|
|
x |
(x) |
|
|
|
y |
|
|
|
( y) |
|
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Отметим, что значение выборочного коэффициента корреляции близко к единице, что говорит о достаточно тесной линейной корреляционной связи между случайными величинами X и Y .
Для построения выборочного уравнения прямой линии регрессии Y на X воспользуемся формулой
|
|
|
|
|
|
|
|
|
Y |
|
|
|
|
|
|
|
|
|
y |
|
|
B |
(x |
x) |
|||
|
|
|
y x |
B |
|
||||||||
|
|
|
|
X |
|||||||||
|
|
|
|
|
|
|
|
|
B |
|
|
|
|
Тогда |
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
0 406 |
|
|
|||||||
|
y x 0 08 |
0 766 |
(x |
1 1754) |
|||||||||
|
0 2 |
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 55x |
1 74 |
|
|
|
||||
|
|
|
|
|
y x |
|
|
|
|||||||||||
– выборочное уравнение прямой линии регрессии Y на X . |
|||||||||||||||||||
Аналогично |
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
X |
|
|
|
|
|
|
|
|
|
y x |
|
|
|
B |
( y |
|
y) |
|
|||||||
|
|
|
x |
|
|
|
|
|
|||||||||||
|
|
|
B |
Y |
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
B |
|
|
|
|
|
|
|
|
|
0 766 |
|
0 2 |
( y |
0 08) |
|||||||||||
|
x |
y 1 1754 |
|
||||||||||||||||
|
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
0 406 |
|
|
|
|
||||
|
|
|
|
|
|
|
|
0 38y |
1 14 |
|
|
|
|||||||
|
|
|
|
|
|
x y |
|
|
|
||||||||||
– выборочное уравнение прямой линии регрессии |
X на Y . |
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
106 |
|
|
|
|
|
Вычислим коэффициент детерминации :
R2 |
2 |
0 58 |
|
B |
|
Полученный результат означает, что 58% рассеивания зависимой переменной Y объясняется линейной регрессией Y на X , а 42% рассеивания Y остались необъясненными. Они могут быть вызваны либо случайными ошибками эксперимента, либо тем, что линейная модель плохо согласуется с экспериментальными данным.
Для проверки соответствия линейной модели экспериментальным данным применим дисперсионный анализ. Для этого составим таблицу дисперсионного анализа (табл.16.4), предварительно найдем:
1) полную сумму квадратов:
|
n |
2 |
|
A |
yi2 n y |
1 8856 11 0 082 1 812 |
i1
2)сумму квадратов регрессии:
n
B b12 xi2 nx 2 (1 55)2 (15 6411 11 1 17542 ) 1 056
i1
3)остаточную сумму квадратов:
|
C |
A B 1 81 |
1 06 |
0 756 |
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
Таблица 16.4 |
||
Источник изменчи- |
Суммы квадратов |
|
Число степеней сво- |
Средние квадраты |
|
||||||||
вости |
|
|
|
|
|
|
|
боды |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Линейная регрессия |
B |
1,056 |
|
|
|
|
|
1 |
|
|
M1 |
1,056 |
|
Остаток |
C |
0,756 |
|
|
|
|
|
9 |
|
|
M 2 |
0,084 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Полная сумма |
A=1,812 |
|
|
|
|
|
10 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
Проведем проверку гипотезы о том, что линейная модель согласуется с |
|||||||||||||
экспериментальными данными, приняв уровень значимости |
0 05. По табл. |
||||||||||||
П. 6 распределения Фишера находим |
Fкр |
F 1 n 2 |
F0 05 1 9 |
5 12 . Наблюдаемое |
|||||||||
значение статистики равно |
Fнабл |
1 056 |
|
|
12 55 , |
так как |
Fнабл |
F 1 n |
2 , ( 12 55 5 12 ), |
||||
|
|
|
|
||||||||||
0 084 |
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
то результаты измерений подтверждают гипотезу наличия линейной связи между переменными X и Y .
На рис. 16.1 изображено корреляционное поле и графики выборочных прямых регрессии X на Y и Y на X .
107
Рис. 16.1. Графики выборочных прямых регрессии
Следует отметить, что все вычисления можно проводить с помощью стандартных функций, встроенных в MS Excel. Поясним на предыдущем примере.
Введем значения xi , yi в ячейки А1-K1 и А2-K2 электронной таблицы Excel соответственно. Построим точки (xi yi ) , вызвав мастер диаграмм, выбираем тип диаграммы Точечная, нажимаем Далее и, поместив курсор в поле Диапазон, обводим курсором данные Y (ячейки А2-K2). Переходим на закладку Ряд и в поле Значения Х делаем ссылку на ячейки А1-K1, обводя их курсором. Нажимаем Готово.
Как видно из графика, точки группируются вокруг прямой, поэтому будем находить выборочное уравнение прямой линии регрессии y x b0 b1 x .
Для нахождения коэффициентов b0 и b1 уравнения регрессии служат функции НАКЛОН и ОТРЕЗОК категории Статистические. Найдем b1 : вводим в любую свободную ячейку функцию НАКЛОН, ставим курсор в поле Изв знач у задаем ссылку на ячейки А2-K2, обводя их мышью. Аналогично в поле Изв знач х даем ссылку на А1-K1. Результат ― значение b1 . Аналогично найдем теперь коэффициент b0 . Вводим в ячейку функцию ОТРЕЗОК с теми же параметрами, что и у функции НАКЛОН. Результат – значение b0 . Следовательно, выборочное уравнение прямой линии регрессии Y на X есть y x 1 55x 1 74 .
Выборочный коэффициент корреляции, коэффициент детерминации, а
108
также данные из табл. 16.4 дисперсионного анализа тоже можно находить с помощью функций, встроенных в MS Excel. Для этого вызываем функцию ЛИ-
НЕЙН, категории Статистические. В полях Изв знач у и Изв знач х даем ссылку на А2-K2 и А1-K1. В поле «Константа» указываем 1, в поле «Стат» должно стоять также 1, если нужно вывести полную статистику о регрессии. Функция возвращает массив размером 2 столбца на 5 строк. После ввода выделяем мышью ячейки размером 2 столбца и 5 строк, затем нажимаем F2 и Ctrl+Shift+Enter. В результате получаем таблицу значений (табл. 16.5).
Таблица 16.5
b1 |
b0 |
Средняя квадратическая ошибка коэффици- |
Средняя квадратическая ошибка коэффици- |
ента b1 |
ента b0 |
|
|
Коэффициент детерминации R2 |
Средняя квадратическая ошибка для оценки |
|
Y |
Fнабл |
Число степеней свободы n 2 |
Сумма квадратов регрессии B |
Остаточная сумма квадратов C |
Для примера 16.1 указанная таблица имеет вид табл. 16.6.
Таблица 16.6
b1 |
1,547892012 |
b0 |
1,739476701 |
|
|
|
|
0,435434656 |
|
0,519230619 |
|
R2 |
0,584041009 |
|
0,289645139 |
Fнабл |
12,6367483 |
|
9 |
B1,060151239 |
C |
0,755048761 |
|
|
|
|
|
Отметим, что результаты, полученные вручную и с помощью пакета MS Excel, практически одинаковы.
Для того, чтобы отобразить на одном графике точки корреляционного поля и график выборочной прямой регрессии Y на X , необходимо на уже имеющейся диаграмме, содержащей корреляционной поле, добавить линию тренда, указав в параметрах линии тренда значение линейная.
17. Дисперсионный анализ
17.1. Основные понятия
Методы дисперсионного анализа устанавливают наличие влияния определенных факторов на изучаемый процесс (случайную величину X ), который представлен совокупностью выборочных данных. Если изучается влияние только одного фактора, имеющего k уровней, то соответствующий критерий
109
называется однофакторным дисперсионным анализом, если нескольких – многофакторным дисперсионным анализом.
Например, если требуется установить, как влияет квалификация работника на его заработную плату, то фактор – это квалификация, а уровни фактора – степени квалификации (высшая, средняя, низкая).
Методы дисперсионного анализа являются одними из основных методов в самостоятельном направлении математической статистики – теории планирования эксперимента. С их помощью можно проверять, оказывают ли влияние на характеристики случайной величины некоторые факторы, которые можно изменять в ходе эксперимента. Выбирая наиболее важные, можно активно участвовать в планировании результатов эксперимента.
Основная идея дисперсионного анализа заключается в представлении общей дисперсии случайной величины X в виде суммы двух слагаемых – факторной дисперсии, порождаемой воздействием исследуемого фактора, и остаточной дисперсии, обусловленной случайными факторами. В результате сравнения факторной и остаточной дисперсий по критерию Фишера, если приходят к выводу о значимом различии, то говорят, что фактор оказывает существенное влияние на случайную величину X , в этом случае выборочные средние на каждом уровне различаются значимо.
Методы дисперсионного анализа основываются на следующих предпо-
ложениях: генеральные совокупности исследуемых случайных величин распределены нормально и имеют хотя и неизвестные, но одинаковые дисперсии.
17.2. Однофакторный дисперсионный анализ
Пусть исследуется влияние фактора F , имеющего k |
уровней, на нормально |
|||||||||
распределенную случайную величину |
X . На каждом уровне Fi произведено n на- |
|||||||||
блюдений. Следовательно, всего произведено |
kn наблюдений. Эксперименталь- |
|||||||||
ные данные представлены в виде табл. 17.1. |
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
Таблица 17.1 |
||
|
|
|
|
|
|
|
|
|
|
|
Номер на- |
F1 |
F2 |
|
|
Fi |
|
|
|
Fk |
|
блюдения |
|
|
|
|
|
|
|
|
|
|
1 |
x11 |
x21 |
|
|
xi1 |
|
|
|
xk1 |
|
2 |
x12 |
x22 |
|
|
xi 2 |
|
|
|
xk 2 |
|
|
|
|
|
|
|
|
|
|
|
|
j |
x1 j |
x2 j |
|
|
xij |
|
|
|
xkj |
|
|
|
|
|
|
|
|
|
|
|
|
n |
x1n |
x2n |
|
|
xin |
|
|
|
xkn |
|
|
|
|
|
110 |
|
|
|
|
|
|