Добавил:

mihail1000 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Воронежский государственный технический университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Учебное пособие 800461

.pdf

Скачиваний:

Добавлен:

01.05.2022

Размер:

3.01 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 1411 12 13 14 > Следующая >>>


		Y
		B	(x x)
y x y	B	B
y x y	B	X
		B

– выборочное уравнение прямой линии регрессии Y на X ;

x y x B BY ( y y)

– выборочное уравнение прямой линии регрессии X на Y .

Замечание 16.1. Знак выборочного коэффициента корреляции B совпа-

		Y				X
дает со знаком коэффициентов регрессии, так как a		B	;	c		B
дает со знаком коэффициентов регрессии, так как a	B X		;	c	B Y
		B				B

. Это

означает, что СВ	X и Y обе либо убывают либо возрастают, если B	0 ; или
ведут себя разнонаправлено ― одна убывает, а другая возрастает, если		B 0 .
Замечание	16.2. Если прямые регрессии построить на координатной

плоскости, на которой изображено корреляционное поле, то при тесной линейной корреляционной зависимости угол между прямыми будет малым, а точки корреляционного поля будут примыкать к этим прямым.

Замечание 16.3. Выборочный коэффициент корреляции характеризует степень линейной зависимости, поэтому, если он близок к нулю, то может оказаться, что между СВ X и Y существует нелинейная регрессионная связь.

16.3. Критерий значимости линии регрессии

Предположим, что по результатам n наблюдений	(xi	yi ) , i	1 n по-
		b1 x	b0 . При по-
строено выборочное уравнение прямой линии регрессии	y x

строении выборочного уравнения прямой линии регрессии будем считать, что

двумерная случайная величина (X Y )		распределена по нормальному закону, а,
значит, функция регрессии Y на	X является линейной: M (Y					X	x)	1 x	0 .
Из этого следует, что зависимая переменная Y				и независимая переменная					X
связаны соотношением
Yi M (Y X xi )	i	1 xi	0	i i 1	n
где xi – известные значения независимой переменной X ;					0	1	– неизвестные
параметры; i – чисто случайное слагаемое (остаток).
Отметим, что в рассматриваемом случае зависимая переменная Y								являет-

ся суммой двух слагаемых – неслучайного слагаемого, определяемого линей-

101

(X Y )

i . Кроме

ной формой от независимой переменной, и случайного слагаемого

того, предполагается, что наблюдаемые значения независимой переменной xi являются совокупностью фиксированных значений СВ X , измерения которых проводятся без ошибки или с пренебрежимо малой ошибкой, а остатки i – не-

зависимые случайные величины, имеющие нормальное распределение с нулевым математическим ожиданием и одинаковой неизвестной дисперсией.

Предположение о нормальном распределении СВ нуждается в статистической проверке, так как может оказаться, что гипотеза о двумерном нормальном распределении не согласуется с эмпирическими данными. В этом случае уравнение регрессии может быть нелинейным.

Так как уравнения регрессии обычно строятся по небольшому числу дан-

ных, то трудно проверить гипотезу о нормальном распределении СВ	(X Y ) .
Вместо этого проверяют гипотезу линейности, т.е. нулевую гипотезу H0	1 0

против конкурирующей гипотезы H1 1 0 . Если нулевая гипотеза принима-

ется, то считают, что уравнение регрессии Y на X либо имеет нелинейный вид, либо эти переменные являются некоррелированными случайными величинами.

Одним из методов проверки нулевой гипотезы H0 1 0 является диспер-

сионный анализ (подробности изложены в разделе 17). Пусть мы имеем корреляционное поле (xi , y j ), i 1, 2,..., n, значений двух СВ ( X ,Y ) , полученных в резуль-

тате выборки объема n . Начнем с исследования общей суммы квадратов отклоне-


ний значений yi от выборочного среднего		y :
n
( y	y)2
i
i 1

Если коэффициенты линейной формы Yi b1 xi b0 получены из выборки по методу наименьших квадратов в результате решения системы (16.1), то имеет место следующее разложение:

			n	n	n
			( y y)2	(Y y)2	( y Y )2
			i	i	i i
			i 1	i 1	i 1
		1	n
где	y		yi . Принято считать, что в этом фундаментальном соотношении со-
где	y
		n i 1

держится, как в зародыше, весь дисперсионный анализ (см. [11], стр. 22). Действительно, значение выборочного корреляционного момента

( yi	Yi )(Yi	y)	( yi b0	b1 xi )(b0		b1 xi	y)
(b0 y)	( yi	b0 b1 xi ) b1		xi ( yi	b0	b1 xi )	,
(b0 y)	( yi	b0 b1 xi ) b1		xi ( yi	b0	b1 xi )
равно нулю, ибо	( yi b0	b1 xi )	0 и	xi ( yi	b0	b1 xi )	0 в силу уравне-
			102

ний системы (16.1). Отсюда

( y y)2	(( y Y ) (Y y))2			(( y Y )2	2( y Y )(Y y) (Y y)2 )		,
i	i	i	i	i i	i i i	i

( y Y )2		2 ( y Y )(Y y)		(Y y)2	(Y y)2	( y Y )2
i i		i	i i	i	i	i i

что и требовалось доказать.

Таким образом, сумма квадратов отклонений может быть разбита на два положительных слагаемых: 1) сумму квадратов отклонений значений регрессии относительно среднего; 2) сумму квадратов отклонений значений выборки относительно линии регрессии ― остаточная сумма квадратов.

Если прямая регрессии проходит через все заданные точки, то остаточная

сумма квадратов отклонений будет равна нулю, и все рассеяние значений			yi
относительно среднего объясняется линейной зависимостью yi	b1 xi	b0 .
Если же данные не содержат линейного тренда ( 1 b1	0, 0	b0	y ),

то сумму квадратов значений регрессии относительно среднего будет мала и почти все рассеяние yi объясняется как рассеяние относительно линии регрессии. Поэтому считается, что регрессия будет значимой, если сумма квадратов отклонений регрессии относительно среднего будет больше по сравнению с суммой квадратов отклонений относительно линии регрессии.

Для проверки основной гипотезы можно использовать статистику:

		F		M1
		F		M 2
				M 2
		n
	n	( y	Y )2
	n	i		i
где M1	(Yi y)2 , M 2	i 1			. Случайная величина F при условии
где M1	(Yi y)2 , M 2	n	2		. Случайная величина F при условии
	i 1	n	2

справедливости нулевой гипотезы имеет распределение Фишера-Снедекора со

степенями свободы	1	1 и 2	n	2 .
Зададим уровень значимости данного критерия равным . Найдем кри-
тическую точку kкр ,	используя табл. П. 6				распределения Фишера-Снедекора,
критическая точка равна		Fкр	F 1 n	2 . Если Fнабл		F 1 n 2 , то гипотеза отсут-
ствия линейной связи между переменными					X и Y	отвергается. Если же прове-

ряемая гипотеза не отклоняется, то считается, что либо уравнение регрессии имеет нелинейный вид (распределение СВ (X Y ) не является нормальным), либо эти СВ являются не коррелированными.

Для удобства все вычисления, проводимые для проверки гипотезы о линейности, располагают в таблице дисперсионного анализа (табл. 16.1).

103

Таблица 16.1

Источник изменчи-	Суммы квадратов			Число степеней сво-		Средние квадраты
вости				боды

Линейная регрессия		n			1	M1		B
		n
	B b2	x2	nx 2
	1	i
		i 1

Остаток	C	A	B	n	2	M 2		C
						M 2	n	2
							n	2

Полная сумма		n		n	1
	A	y2	ny2
		i
	i	1

Формулы, приведенные во второй колонке таблицы, были получены следующим образом:

( yi y)2

( yi2

2 yi

yi2

2 y yi

i 1

yi2

yn y n

yi2

i 1

Так как уравнение регрессии Y на

X имеет вид:

y x

y b1 (x x) , то

(Yi y)2

b12 (xi

x)2 b12

xi2

i 1

Замечание 16.4. Доля общей суммы квадратов, объясняемая регрессией, называется коэффициентом детерминации и находится по формуле

	R2	B

		A
		A

Этот показатель лежит в пределах от нуля до единицы. В случае, когда выборочное уравнение регрессии является линейным, коэффициент детерминации равен квадрату выборочного коэффициента корреляции:

R2	2
	B

Замечание 16.5. Если регрессионная зависимость между СВ X и Y установлена (см. [2, с. 270]), но она не является линейной, то выборочное уравнение регрессии можно искать в виде некоторой нелинейной функции. Например,

y x b0 b1 x b2 x2

104

y x b0 b1ex

Для отыскания параметров выборочных уравнений криволинейной регрессии можно использовать метод наименьших квадратов, а проверку значимости криволинейной регрессии осуществлять методами дисперсионного анализа.

Замечание 16.6. Если исследуется связь между несколькими случайными величинами, то корреляцию называют множественной. В простейшем случае число случайных величин равно трем и связь между ними линейная.

Пример 16.1. В табл. 16.2 приведены результаты 11 измерений отклонения от номиналов высот моделей xi и отливок к ним yi .

Таблица 16.2

№	1	2	3	4	5	6	7	8	9	10	11
xi	0,9	1,22	1,32	0,77	1,3	1,2	1,32	0,95	1,45	1,3	1,2

yi	-0,3	0,1	0,7	-0,28	-0,25	0,02	0,37	-0,7	0,55	0,35	0,32

Требуется вычислить коэффициент корреляции и детерминации, объяснить смысл коэффициента детерминации. Построить выборочные уравнения прямых линий регрессии Y на X и X на Y . Проверить методом дисперсионного анализа значимость линии регрессии.

Решение. Запишем результаты вычислений числовых характеристик, необходимых для отыскания коэффициента корреляции и выборочного уравнения регрессии, в табл. 16.3.

					Таблица 16.3

№	xi	yi	xi yi	xi2	yi2
1	0,9	-0,3	-0,27	0,81	0,09
2	1,22	0,1	0,122	1,4889	0,01
3	1,32	0,7	0,924	1,7424	0,49
4	0,77	-0,28	-0,2156	0,5929	0,0784
5	1,3	-0,25	-0,325	1,69	0,0625
6	1,2	0,02	0,024	1,44	0,0004

№	xi	yi	xi yi	xi2	yi2
7	1,32	0,37	0,4884	1,7424	0,1369
8	0,95	-0,7	-0,665	0,9025	0,49
9	1,45	0,55	0,7975	2,1025	0,3025
10	1,3	0,35	0,455	1,69	0,1225
11	1,2	0,32	0,384	1,44	0,1024
	12,93	0,88	1,7193	15,6411	1,8856

С учетом полученных значений:

	1 7193		12 93		0 88
xy	1 7193	0 1563 x	12 93	1 1754 y	0 88	0 08

	11		11		11
	11		11		11
			105

												15 6411


					x2		(x)2							1 17542	0 2

													11
													11

													1 8856


					y2		( y)2							0 082	0 406

													11
													11
вычислим выборочный коэффициент корреляции:

				xy			x			y			0 1563 1 1754 0 08			0 766


B														0 2 0 406
B		2				2			2				2
	x	2	(x)			2		y	2		( y)		2
	x		(x)					y			( y)

Отметим, что значение выборочного коэффициента корреляции близко к единице, что говорит о достаточно тесной линейной корреляционной связи между случайными величинами X и Y .

Для построения выборочного уравнения прямой линии регрессии Y на X воспользуемся формулой

y x

Тогда

0 406

y x 0 08

0 766

1 1754)

0 2

1 55x

1 74

y x

– выборочное уравнение прямой линии регрессии Y на X .

Аналогично

y x

( y

0 766

0 2

( y

0 08)

y 1 1754

0 406

0 38y

1 14

x y

– выборочное уравнение прямой линии регрессии

X на Y .

106

Вычислим коэффициент детерминации :

R2	2	0 58
	B

Полученный результат означает, что 58% рассеивания зависимой переменной Y объясняется линейной регрессией Y на X , а 42% рассеивания Y остались необъясненными. Они могут быть вызваны либо случайными ошибками эксперимента, либо тем, что линейная модель плохо согласуется с экспериментальными данным.

Для проверки соответствия линейной модели экспериментальным данным применим дисперсионный анализ. Для этого составим таблицу дисперсионного анализа (табл.16.4), предварительно найдем:

1) полную сумму квадратов:

	n	2
A	yi2 n y	2	1 8856 11 0 082 1 812

2)сумму квадратов регрессии:

B b12 xi2 nx 2 (1 55)2 (15 6411 11 1 17542 ) 1 056

3)остаточную сумму квадратов:

A B 1 81

1 06

0 756

Таблица 16.4

Источник изменчи-

Суммы квадратов

Число степеней сво-

Средние квадраты

вости

боды

Линейная регрессия

1,056

Остаток

0,756

M 2

0,084

Полная сумма

A=1,812

Проведем проверку гипотезы о том, что линейная модель согласуется с

экспериментальными данными, приняв уровень значимости

0 05. По табл.

П. 6 распределения Фишера находим

Fкр

F 1 n 2

F0 05 1 9

5 12 . Наблюдаемое

значение статистики равно

Fнабл

1 056

12 55 ,

так как

Fнабл

F 1 n

2 , ( 12 55 5 12 ),

0 084

то результаты измерений подтверждают гипотезу наличия линейной связи между переменными X и Y .

На рис. 16.1 изображено корреляционное поле и графики выборочных прямых регрессии X на Y и Y на X .

107

Рис. 16.1. Графики выборочных прямых регрессии

Следует отметить, что все вычисления можно проводить с помощью стандартных функций, встроенных в MS Excel. Поясним на предыдущем примере.

Введем значения xi , yi в ячейки А1-K1 и А2-K2 электронной таблицы Excel соответственно. Построим точки (xi yi ) , вызвав мастер диаграмм, выбираем тип диаграммы Точечная, нажимаем Далее и, поместив курсор в поле Диапазон, обводим курсором данные Y (ячейки А2-K2). Переходим на закладку Ряд и в поле Значения Х делаем ссылку на ячейки А1-K1, обводя их курсором. Нажимаем Готово.

Как видно из графика, точки группируются вокруг прямой, поэтому будем находить выборочное уравнение прямой линии регрессии y x b0 b1 x .

Для нахождения коэффициентов b0 и b1 уравнения регрессии служат функции НАКЛОН и ОТРЕЗОК категории Статистические. Найдем b1 : вводим в любую свободную ячейку функцию НАКЛОН, ставим курсор в поле Изв знач у задаем ссылку на ячейки А2-K2, обводя их мышью. Аналогично в поле Изв знач х даем ссылку на А1-K1. Результат ― значение b1 . Аналогично найдем теперь коэффициент b0 . Вводим в ячейку функцию ОТРЕЗОК с теми же параметрами, что и у функции НАКЛОН. Результат – значение b0 . Следовательно, выборочное уравнение прямой линии регрессии Y на X есть y x 1 55x 1 74 .

Выборочный коэффициент корреляции, коэффициент детерминации, а

108

также данные из табл. 16.4 дисперсионного анализа тоже можно находить с помощью функций, встроенных в MS Excel. Для этого вызываем функцию ЛИ-

НЕЙН, категории Статистические. В полях Изв знач у и Изв знач х даем ссылку на А2-K2 и А1-K1. В поле «Константа» указываем 1, в поле «Стат» должно стоять также 1, если нужно вывести полную статистику о регрессии. Функция возвращает массив размером 2 столбца на 5 строк. После ввода выделяем мышью ячейки размером 2 столбца и 5 строк, затем нажимаем F2 и Ctrl+Shift+Enter. В результате получаем таблицу значений (табл. 16.5).

Таблица 16.5

b1	b0
Средняя квадратическая ошибка коэффици-	Средняя квадратическая ошибка коэффици-
ента b1	ента b0

Коэффициент детерминации R2	Средняя квадратическая ошибка для оценки
	Y
Fнабл	Число степеней свободы n 2
Сумма квадратов регрессии B	Остаточная сумма квадратов C

Для примера 16.1 указанная таблица имеет вид табл. 16.6.

Таблица 16.6

b1	1,547892012	b0	1,739476701

0,435434656			0,519230619
R2	0,584041009		0,289645139
Fнабл	12,6367483		9
B1,060151239		C	0,755048761

Отметим, что результаты, полученные вручную и с помощью пакета MS Excel, практически одинаковы.

Для того, чтобы отобразить на одном графике точки корреляционного поля и график выборочной прямой регрессии Y на X , необходимо на уже имеющейся диаграмме, содержащей корреляционной поле, добавить линию тренда, указав в параметрах линии тренда значение линейная.

17. Дисперсионный анализ

17.1. Основные понятия

Методы дисперсионного анализа устанавливают наличие влияния определенных факторов на изучаемый процесс (случайную величину X ), который представлен совокупностью выборочных данных. Если изучается влияние только одного фактора, имеющего k уровней, то соответствующий критерий

109

называется однофакторным дисперсионным анализом, если нескольких – многофакторным дисперсионным анализом.

Например, если требуется установить, как влияет квалификация работника на его заработную плату, то фактор – это квалификация, а уровни фактора – степени квалификации (высшая, средняя, низкая).

Методы дисперсионного анализа являются одними из основных методов в самостоятельном направлении математической статистики – теории планирования эксперимента. С их помощью можно проверять, оказывают ли влияние на характеристики случайной величины некоторые факторы, которые можно изменять в ходе эксперимента. Выбирая наиболее важные, можно активно участвовать в планировании результатов эксперимента.

Основная идея дисперсионного анализа заключается в представлении общей дисперсии случайной величины X в виде суммы двух слагаемых – факторной дисперсии, порождаемой воздействием исследуемого фактора, и остаточной дисперсии, обусловленной случайными факторами. В результате сравнения факторной и остаточной дисперсий по критерию Фишера, если приходят к выводу о значимом различии, то говорят, что фактор оказывает существенное влияние на случайную величину X , в этом случае выборочные средние на каждом уровне различаются значимо.

Методы дисперсионного анализа основываются на следующих предпо-

ложениях: генеральные совокупности исследуемых случайных величин распределены нормально и имеют хотя и неизвестные, но одинаковые дисперсии.

17.2. Однофакторный дисперсионный анализ

Пусть исследуется влияние фактора F , имеющего k					уровней, на нормально
распределенную случайную величину			X . На каждом уровне Fi произведено n на-
блюдений. Следовательно, всего произведено				kn наблюдений. Эксперименталь-
ные данные представлены в виде табл. 17.1.
						Таблица 17.1

Номер на-	F1	F2		Fi			Fk
блюдения
1	x11	x21		xi1			xk1
2	x12	x22		xi 2			xk 2

j	x1 j	x2 j		xij			xkj

n	x1n	x2n		xin			xkn
			110

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 1411 12 13 14 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.05.20222.94 Mб5Учебное пособие 800457.pdf
#
01.05.20222.95 Mб6Учебное пособие 800458.pdf
#
01.05.20222.99 Mб8Учебное пособие 800459.pdf
#
01.05.2022355.58 Кб1Учебное пособие 80046.pdf
#
01.05.20223 Mб2Учебное пособие 800460.pdf
#
01.05.20223.01 Mб8Учебное пособие 800461.pdf
#
01.05.20223.03 Mб2Учебное пособие 800462.pdf
#
01.05.20223.04 Mб16Учебное пособие 800463.pdf
#
01.05.20223.05 Mб3Учебное пособие 800464.pdf
#
01.05.20223.06 Mб3Учебное пособие 800465.pdf
#
01.05.20223.08 Mб11Учебное пособие 800466.pdf