Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный физико-технический университет (МФТИ)

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Лекции - Раздел 1

.pdf

Скачиваний:

Добавлен:

03.06.2015

Размер:

933.51 Кб

Скачать

☆

<<< < Предыдущая 1 23 / 73 4 5 6 7 > Следующая >>>

Соответствующие этой прямой значения

и будем обозначать символами ˆ

ˆ . Поскольку

прямая

y x

проходит через точку

то тогда

так

что

y ˆ ˆ x

для

поиска

“наилучшей”

прямой

достаточно

определить

ее

угловой

коэффициент

;

значение

x . Изменяя значения

и следя за

находится как ˆ

мы можем, в принципе, найти искомое ˆ

изменением значений i

с любой наперед

i 1

заданной точностью. Заметим,

однако, что если во всех

наблюдениях переменная

принимает одно и то же значение, то

x1 xn

i yi

yi y

i 1

так

что

этом

одинакова для

любой прямой

случае сумма i

i 1

проходящей через точку

, и задача не имеет единственного решения.

Соотношение

y ˆ ˆ x

представляет

подобранную

(fitted)

модель линейной

связи, которая служит аппроксимацией для “истинной” модели

y x

линейной связи

между переменными x и y . В подобранной модели наблюдаемому значению xi

переменной

сопоставляется

прогнозное

значение

(fitted

value)

yˆi

ˆi ˆ xi

переменной

y .

Последнее обычно отличается от наблюдаемого значения yi

в i-м наблюдении. Разность

ˆ ˆ

называется остатком (residual) в i-м наблюдении. Для реальных данных, как правило, все остатки отличны от нуля, часть из них имеет положительный знак, а остальные – отрицательный.

Для наблюдаемых значений объясняемой переменной мы имеем, таким образом, два представления:

yi xi			i		(изпроцессапорожденияданных),
yi	ˆ ˆ	xi		ei	(из определения остатков).

Поскольку оценки для и отличаются от истинных значений этих параметров (за

исключением тривиальных случаев), то в общем случае ˆ ˆ xi xi , откуда вытекает,

что ei i , т.е. значение остатка в i-м наблюдении отличается от значения ошибки i в i-м

наблюдении.

Рис. 1.7

На рис. 1.7 остатки и ошибки имеют одинаковые знаки в первом, втором и четвертом наблюдениях и противоположные знаки – в третьем наблюдении.

Ту же самую “наилучшую” прямую y ˆ ˆ x можно получить, исходя из общего

принципа наименьших квадратов (least squares principle). Согласно этому принципу, среди

всех возможных значений , ,		претендующих на роль оценок параметров			и ,
следует выбирать такую пару ,		, для которой
n			n	xi )2.
(yi xi )2	min		(yi	xi )2.
i 1	,		i 1

Иначе говоря, выбирается такая пара , , для которой сумма квадратов расхождений оказывается наименьшей. Получаемые при этом оценки называются оценками наименьших квадратов (least squares estimates), или LS-оценками, и можно показать, что они совпадают с ранее определенными оценками ˆ и ˆ , так что

		ˆ,			ˆ
					.

Заметим, что при построении оценок наименьших квадратов заранее не требуется,

чтобы соответствующая прямая проходила через точку x, y ; этот факт является свойством оценок наименьших квадратов. Наличие такого свойства мы докажем чуть позднее (см.

Приложение П-1.2а в конце темы), а сейчас обратимся к вопросу о том, как практически

найти указанные оценки ˆ			и ˆ .
Было бы идеальным, если бы существовала возможность прямого вычисления
значений ˆ	и ˆ	по	какой-нибудь формуле на основании известных значений
xi , yi,i 1, ,n. В этой связи заметим, что функция
Q		n		xi )2
	, (yi
		i 1		описывает поверхность z Q , в трехмерном
как функция	двух	переменных

пространстве с прямоугольной системой координат , ,z, так что поиск пары ˆ , ˆ

сводится к известной математической задаче поиска точки минимума функции двух переменных.

Соответствующие выкладки приводятся в Приложении П-1.2а; здесь же мы укажем только конечное решение:

	n
ˆ	xi	x	yi			y
ˆ	i 1
							,
	n						,
	xi			x	2

i 1

ˆ y ˆ x .

Разумеется, такое решение может существовать и быть единственным только при выполнении условия

(xi x)2 0.

i 1

Последнее условие называется условием идентифицируемости и означает попросту, что не все значения x1, ,xn совпадают между собой5. При нарушении этого условия все точки xi, yi , i 1, ,n, лежат на одной вертикальной прямой x x .

Обратим еще раз внимание на полученное выражение для ˆ . Нетрудно видеть, что в это выражение входят уже знакомые нам суммы квадратов, участвовавшие ранее в

определении выборочной дисперсии Var(x) xi x 2 n 1 и выборочной ковариации

i 1

Cov(x, y) xi x yi y n 1 , так что, в этих терминах,

i 1

5 В дальнейшем мы всегда будем предполагать, что это условие выполнено.

ˆ Cov(x, y) .

Var(x)

Отсюда, в частности, видно, что знак ˆ совпадает со знаком ковариации Cov x, y ,

поскольку Var x 0, и что значения ˆ близки к нулю, если ковариация между наблюдаемыми значениями переменных x и y близка к нулю. Однако близость ˆ к нулю здесь следует понимать как относительную, с учетом реальных значений выборочной дисперсии Var x . Среди прочих примеров мы проанализируем в дальнейшем статистические данные о годовом потреблении свинины y на душу населения в США (в

фунтах) и оптовых ценах на свинину x (в долларах за фунт) за период с 1948 по 1961 год. (Соответствующие данные приведены в табл. 1.8 в конце раздела 1.) Если использовать для этих данных линейную модель связи, то коэффициент оценивается по этим данным как

ˆ 24.925. Если же оптовую цену на свинину указать не в долларах, а в центах, то получим значение ˆ 0.24925.

Таким образом, изменяя единицу измерения переменной x (или переменной y ), мы можем получать существенно различные значения ˆ , от сколь угодно малых до сколь угодно больших. Близость значений ˆ к нулю всегда должна интерпретироваться с оглядкой на используемые единицы измерения переменных x и y .

Отметим в связи с вышесказанным полезное представление ˆ в виде

ˆVar(y)

rxy Var(x) .

Действительно,

ˆ Cov(x, y) rxy Var(x)Var(y) ,

Var(x) Var(x)

откуда и вытекает указанное представление.

Имея в виду последнее представление, иногда оценивают модели со

сдандартизованными переменными (standardized variables). Стандартизованная

переменная – это безразмерная переменная, получающаяся из исходной переменной

делением всех значений последней на ее стандартное отклонение. Если xст и yст

–

стандартизованные варианты переменных x и y , то тогда

Var x

ст

Var

Var y

ст

Var

Var x

и при оценивании модели для стандартизованных переменных

yст,i xст,i i

получаем:

ˆ r	Var(y)	r .
ˆ r	Var(x)	r .
xy	Var(x)	xy
В модели со стандартизованными переменными оценка				ˆ	показывает, на сколько
стандартных отклонений изменяется в среднем переменная y				при изменении переменной x
на одно стандартное отклонение.


В нашем примере с уровнями безработицы переменная					x представляет уровень
безработицы среди цветного населения, а переменная			y	– уровень безработицы среди

белого населения. Применим метод наименьших квадратов для оценивания параметров модели линейной связи между этими переменными, исходя из модели наблюдений

yi xi i , i 1, ,n.

Вычисление ˆ и ˆ по приведенным выше формулам дает значения

ˆ 0.020415/0.162976 0.125,

ˆ y ˆ x 3.118 0.125 6.576 2.294.

Таким образом, “наилучшая” прямая имеет вид

y2.294 0.125x,

имы принимаем ее в качестве аппроксимации для “истинной” модели линейной связи между переменными x и y . Эта аппроксимация указывает на то, что при изменении переменной x

на 1 единицу (измерения x) переменная y изменяется “в среднем” на 0.125 единиц

(измерения y ). Если в этом же примере перейти к стандартизованным переменным, то получим: ˆ 0.461, ˆ 20.280 ; это указывает на то, что при изменении переменной x на одно стандартное отклонение переменная y изменяется “в среднем” на 0.461 ее стандартного отклонения.

Факт горизонтальности прямой y ˆ ˆ x								при ˆ 0 Cov x, y 0 и наличие у
этой прямой	наклона	при ˆ 0	Cov x, y 0					позволяют	произвести	некоторую
детализацию	структуры	остатков e	y	i	ˆ x		i	. Нанесем на	диаграмму	рассеяния,
		i		i	ˆ		i
изображенную ранее на рис. 1.3, график прямой						y 2.294 0.125 x			и рассмотрим на этой

диаграмме точку A = (7.1, 3.3), соответствующую данным о безработице в США в июне 1968

года (см. рис. 1.8). Опустим из этой точки перпендикуляр на ось абсцисс.

3.4
				A
3.2			C
3.2
BEL			B
BEL
3
2.8
5.5	6	6.5	7	7.5
		ZVET
		Рис. 1.8

Он пересекает прямую y x в точке B = (7.1, 3.118) и прямую y ˆ ˆ x в точке C = (7.1, 3.183), так что расстояние по вертикали от точки A до прямой y x , равное AB = 3.3 – 3.118 = 0.182, раскладывается в сумму

AB AC CB.

Отсюда находим, что расстояние по вертикали от точки A до прямой y ˆ ˆ x					равно
AC AB CB 0.182 3.183 3.118 0.117.
Вообще, для любой точки xi , yi на диаграмме рассеяния можно записать:
yi	y	yi yˆi yˆi	y	,
где yˆi ˆ ˆ xi – ордината точки “наилучшей” прямой, имеющей абсциссу					xi . Возведем

обе части последнего представления в квадрат и просуммируем левые и правые части полученных для каждого i равенств:

n			n			n	n
yi	y	2	yˆi	y	2	yi yˆi 2	2 yi yˆi yˆi	y	.
i 1			i 1			i 1	i 1

Можно показать (см. Приложение П-1.2б в конце настоящего раздела), что в полученном представлении третья сумма в правой части равна нулю, так что

n			n			n
yi	y	2	yˆi	y	2	yi yˆi 2.
i 1			i 1			i 1

При этом существенно, что мы оценивали здесь модель наблюдений с включением в нее

константы :

yi xi i , i 1, ,n.

Если вместо такой модели оценивать модель наблюдений без константы (модель пропорциональной связи – proportional relation)

yi xi i , i 1, ,n,

то соотношение не выполняется. Подробнее этот случай обсуждается при изложении

темы 1.3.

Сумму квадратов, стоящую в левой части последнего соотношения, мы будем называть полной суммой квадратов (total sum of squares) и использовать для ее обозначения

аббревиатуру TSS, так что

TSS yi y 2 .

i 1

Первую сумму квадратов в правой части будем называть суммой квадратов,

объясненной моделью (explained sum of squares), и будем использовать для ее обозначения аббревиатуру ESS, так что

ESS yˆi y 2 .

i 1

Вторая входящая в правую часть сумма

n	n
yi yˆi 2	ei2
i 1	i 1

чаще всего называется остаточной суммой квадратов (residual sum of squares) и имеет аббревиатуру RSS6.

Иначе говоря, равенство представляет собой разложение полной суммы квадратов на сумму квадратов, объясненную моделью, и остаточную сумму квадратов:

TSS ESS RSS .

Заметим, что если ˆ 0, то ˆ y и yˆi y . Следовательно, при ˆ 0

n	n
yi yˆi 2	yi	y	2,
i 1	i 1
т. е. RSS TSS и	ESS 0.

При ˆ 0, по самому определению прямой y ˆ ˆ x, имеем

n	n
yi yˆi 2	yi	y	2,
i 1	i 1

6 Такая аббревиатура используется, например, в учебнике [Доугерти (2004)]. Однако в литературе по эконометрике можно встретить и другие варианты: SSR, ESS (error sum of squares), ([Магнус, Катышев, Пересецкий (2005)]), SSE . Поэтому при чтении различных руководств по эконометрике следует обращать внимание на то, какие именно термины и обозначения используют авторы.

т. е. RSS TSS и ESS 0.

Если считать, что тенденция линейной связи между переменными x и y выражена в тем большей степени, чем меньшую долю составляет RSS по отношению к TSS , либо,

иначе, большую долю составляет ESS по отношению к TSS , то тогда естественно

предложить в качестве показателя, характеризующего степень выраженности линейной связи

между

переменными

и y ,

отношение

ESS TSS .

Этот

показатель

называется

коэффициентом детерминации (coefficient of determination) и имеет обозначение

R2 , так

что

ESS

yˆi

i 1

TSS

yi y

i 1

или, в силу ,

R2 1

RSS

yi yˆi 2

i 1

TSS

i 1

Коэффициент

детерминации возрастает с уменьшением доли

RSS

в TSS .

Минимальное значение коэффициента детерминации равно 0 и достигается при RSS TSS .

В этом случае тенденция линейной связи между переменными

x и

y не обнаруживается,

ˆ 0

и ESS 0 (“подобранная модель не объясняет наблюдаемую диаграмму рассеяния”).

Максимальное значение коэффициента детерминации равно 1 и достигается при

RSS 0. В этом случае тенденция линейной связи между переменными x

выражена в

наибольшей

степени:

все

точки

xi , yi , i = 1, 2,..., n, располагаются на

одной

прямой

y ˆ ˆ x .

При

этом

ESS TSS (“подобранная модель

полной

мере

объясняет

наблюдаемую диаграмму рассеяния”).

Таким образом, для коэффициента детерминации выполнено соотношение

0 R2 1.

Термины “полная” и “объясненная моделью” суммы квадратов имеют следующее

происхождение. Полная сумма квадратов соответствует значению RSS в ситуации, когда

ˆ 0

и “наилучшая” прямая имеет вид y

, отрицающий наличие линейной зависимости

y от

x. Вследствие этого привлечение информации о значениях переменной

не дает

ничего нового для объяснения изменений значений y от наблюдения к наблюдению.

Степень этой изменчивости мы уже характеризовали значением выборочной дисперсии

1		n	2	TSS
		yi y
Var(y)					;

	n 1i 1			n 1
при этом TSS RSS		и ESS 0.

Вситуации, когда ˆ 0, мы имеем нетривиальное представление TSS ESS RSS

сESS 0, и поэтому можно записать:

Var(y)

TSS

ESS

RSS

n 1

Но

ESS

i 1

=Var(yˆ),

n 1

где yˆ – переменная, принимающая в i -м наблюдении значение yˆi . (Здесь мы использовали

уже упомянутое выше соотношение ei

так что yi yˆi 0,

yˆi

yˆ

i 1

К тому же

RSS

yi yˆi 2

ei2

i 1

=Var(e),

n 1

где e – переменная, принимающая в i-м наблюдении значение ei . (Здесь мы использовали

тот факт, что e ei n 0.)

i 1

В итоге мы получаем разложение

Var(y) Var(yˆ) Var(e) ,

показывающее, что изменчивость переменной y (степень которой характеризуется значением Var(y)) частично объясняется изменчивостью переменной yˆ (степень которой характеризуется значением Var(yˆ)). Не объясненная переменной yˆ часть изменчивости переменной y соответствует изменчивости переменной e (степень которой характеризуется значением Var(e)). Последнее разложение для Var(y) часто называют дисперсионным анализом (analysis of variance – ANOVA).

Таким образом, вспомогательная переменная yˆ берет на себя объяснение некоторой части изменчивости значений переменной y, и эта объясненная часть будет тем большей,

чем выше значение коэффициента детерминации R2 , который мы теперь можем записать также в виде

R2 Var(yˆ) 1 Var(e) .

Var(y) Var(y)

Поскольку переменная yˆ получается линейным преобразованием переменной x, то изменчивость yˆ однозначно связана с изменчивостью x, так что, в конечном счете,

построенная модель объясняет часть изменчивости переменной y изменчивостью переменной x. В таком контексте о переменной y говорят как об объясняемой переменной

(explained variable), а о переменной x – как об объясняющей переменной (explanatory variable). При этом неявно подразумевается, что в действительности между этими переменными имеется определенная (нестрогая) причинная связь, направленная в сторону объясняемой переменной. Однако отсутствие причинной связи между переменными вовсе не исключает получения высоких значений коэффициента детерминации при подборе модели линейной связи между этими переменными7.

Вернемся опять к нашему примеру. В нем мы оценили параметры модели линейной связи, исходя из модели наблюдений

yi xi i , i 1, ,n,

так что объясняемой переменной здесь является уровень безработицы среди белого населения y , а объясняющей переменной – уровень безработицы среди цветного населения x . При

этом

ESS = 0.043474

RSS = 0.161231

TSS = 0.204705,

так что

Var(yˆ) = 0.043474/16 = 0.002717,

Var(e) = 0.161231/16 = 0.010077,

Var(y) = 0.012784,

R2 = 0.043474/0.204705 = 0.212374.

Значение коэффициента детерминации оказалось достаточно малым, и один из последующих вопросов будет состоять в том, сколь близким к нулю должно быть значение R2, чтобы мы могли говорить о практическом отсутствии линейной связи между переменными.

7 См. далее пример 1.3.4 (тема 1.3).

<<< < Предыдущая 1 23 / 73 4 5 6 7 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
18.11.2019494.59 Кб7КР ПОТОКОВАЯ ФПФЭ_2011.doc
#
20.08.20191.75 Mб16край.doc
#
03.06.201587.53 Кб13курсач лето.docx
#
16.08.2019171.52 Кб3Лабораторная работа Шматков И. Л..doc
#
03.06.2015845.46 Кб45Лебедев, Колоколов. ИГМФ.pdf
#
03.06.2015933.51 Кб9Лекции - Раздел 1.pdf
#
03.06.201514.11 Mб11Лекции по физкинетике.PDF
#
03.06.2015386.05 Кб36Лекции по философии (Семенов) 2006-2007.doc
#
03.06.20151.71 Mб19Лекции.pdf
#
03.06.201583.97 Кб40Лекция Потребности и мотивы.doc
#
03.06.20151.29 Mб27Лекция 1 - конспект.pdf