Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Лекции - Раздел 1

.pdf
Скачиваний:
9
Добавлен:
03.06.2015
Размер:
933.51 Кб
Скачать

 

 

Соответствующие этой прямой значения

и будем обозначать символами ˆ

и

ˆ . Поскольку

 

прямая

y x

проходит через точку

x

,

y

,

то тогда

y

 

x

,

так

что

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

 

x

,

 

 

 

 

 

 

 

 

 

 

 

 

y ˆ ˆ x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

и

для

поиска

“наилучшей”

 

прямой

 

достаточно

определить

ее

угловой

коэффициент

ˆ

;

значение

ˆ

 

 

 

 

 

 

 

y

ˆ

x . Изменяя значения

 

 

и следя за

 

 

 

 

 

находится как ˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

2

 

мы можем, в принципе, найти искомое ˆ

 

 

 

 

 

 

 

 

 

 

 

 

изменением значений i

,

с любой наперед

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

заданной точностью. Заметим,

однако, что если во всех

n

наблюдениях переменная

x

принимает одно и то же значение, то

x1 xn

 

x

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i yi

x

yi

y

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

2

 

n

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

yi y

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

так

что

в

 

этом

 

 

 

 

 

 

 

 

 

 

 

 

n

 

2

одинакова для

 

любой прямой

 

y

 

 

 

x,

 

случае сумма i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

проходящей через точку

x

,

y

, и задача не имеет единственного решения.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Соотношение

y ˆ ˆ x

представляет

подобранную

(fitted)

модель линейной

связи, которая служит аппроксимацией для “истинной” модели

y x

линейной связи

между переменными x и y . В подобранной модели наблюдаемому значению xi

переменной

x

сопоставляется

 

прогнозное

 

значение

(fitted

 

value)

 

yˆi

ˆi ˆ xi

 

переменной

 

y .

Последнее обычно отличается от наблюдаемого значения yi

в i-м наблюдении. Разность

 

 

 

 

ei

 

yi

 

ˆ

 

yi

ˆ ˆ

xi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

называется остатком (residual) в i-м наблюдении. Для реальных данных, как правило, все остатки отличны от нуля, часть из них имеет положительный знак, а остальные – отрицательный.

Для наблюдаемых значений объясняемой переменной мы имеем, таким образом, два представления:

yi xi

i

(изпроцессапорожденияданных),

yi

ˆ ˆ

xi

 

 

ei

(из определения остатков).

 

 

29

Поскольку оценки для и отличаются от истинных значений этих параметров (за

исключением тривиальных случаев), то в общем случае ˆ ˆ xi xi , откуда вытекает,

что ei i , т.е. значение остатка в i-м наблюдении отличается от значения ошибки i в i-м

наблюдении.

Рис. 1.7

На рис. 1.7 остатки и ошибки имеют одинаковые знаки в первом, втором и четвертом наблюдениях и противоположные знаки – в третьем наблюдении.

Ту же самую “наилучшую” прямую y ˆ ˆ x можно получить, исходя из общего

принципа наименьших квадратов (least squares principle). Согласно этому принципу, среди

всех возможных значений , ,

претендующих на роль оценок параметров

 

и ,

следует выбирать такую пару ,

, для которой

 

 

 

n

 

 

n

xi )2.

 

 

(yi xi )2

min

(yi

 

 

i 1

,

i 1

 

 

 

Иначе говоря, выбирается такая пара , , для которой сумма квадратов расхождений оказывается наименьшей. Получаемые при этом оценки называются оценками наименьших квадратов (least squares estimates), или LS-оценками, и можно показать, что они совпадают с ранее определенными оценками ˆ и ˆ , так что

 

 

ˆ,

 

 

ˆ

 

 

.

Заметим, что при построении оценок наименьших квадратов заранее не требуется,

чтобы соответствующая прямая проходила через точку x, y ; этот факт является свойством оценок наименьших квадратов. Наличие такого свойства мы докажем чуть позднее (см.

30

Приложение П-1.2а в конце темы), а сейчас обратимся к вопросу о том, как практически

найти указанные оценки ˆ

и ˆ .

 

Было бы идеальным, если бы существовала возможность прямого вычисления

значений ˆ

и ˆ

по

какой-нибудь формуле на основании известных значений

xi , yi,i 1, ,n. В этой связи заметим, что функция

Q

 

n

 

xi )2

, (yi

 

 

i 1

 

описывает поверхность z Q , в трехмерном

как функция

двух

переменных

пространстве с прямоугольной системой координат , ,z, так что поиск пары ˆ , ˆ

сводится к известной математической задаче поиска точки минимума функции двух переменных.

Соответствующие выкладки приводятся в Приложении П-1.2а; здесь же мы укажем только конечное решение:

 

n

 

 

 

 

 

 

 

 

 

ˆ

xi

 

x

yi

 

y

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

,

n

 

 

 

 

 

 

 

xi

x

2

i 1

ˆ y ˆ x .

Разумеется, такое решение может существовать и быть единственным только при выполнении условия

n

(xi x)2 0.

i 1

Последнее условие называется условием идентифицируемости и означает попросту, что не все значения x1, ,xn совпадают между собой5. При нарушении этого условия все точки xi, yi , i 1, ,n, лежат на одной вертикальной прямой x x .

Обратим еще раз внимание на полученное выражение для ˆ . Нетрудно видеть, что в это выражение входят уже знакомые нам суммы квадратов, участвовавшие ранее в

n

определении выборочной дисперсии Var(x) xi x 2 n 1 и выборочной ковариации

i 1

n

Cov(x, y) xi x yi y n 1 , так что, в этих терминах,

i 1

5 В дальнейшем мы всегда будем предполагать, что это условие выполнено.

31

ˆ Cov(x, y) .

Var(x)

Отсюда, в частности, видно, что знак ˆ совпадает со знаком ковариации Cov x, y ,

поскольку Var x 0, и что значения ˆ близки к нулю, если ковариация между наблюдаемыми значениями переменных x и y близка к нулю. Однако близость ˆ к нулю здесь следует понимать как относительную, с учетом реальных значений выборочной дисперсии Var x . Среди прочих примеров мы проанализируем в дальнейшем статистические данные о годовом потреблении свинины y на душу населения в США (в

фунтах) и оптовых ценах на свинину x (в долларах за фунт) за период с 1948 по 1961 год. (Соответствующие данные приведены в табл. 1.8 в конце раздела 1.) Если использовать для этих данных линейную модель связи, то коэффициент оценивается по этим данным как

ˆ 24.925. Если же оптовую цену на свинину указать не в долларах, а в центах, то получим значение ˆ 0.24925.

Таким образом, изменяя единицу измерения переменной x (или переменной y ), мы можем получать существенно различные значения ˆ , от сколь угодно малых до сколь угодно больших. Близость значений ˆ к нулю всегда должна интерпретироваться с оглядкой на используемые единицы измерения переменных x и y .

Отметим в связи с вышесказанным полезное представление ˆ в виде

ˆVar(y)

rxy Var(x) .

Действительно,

ˆ Cov(x, y) rxy Var(x)Var(y) ,

Var(x) Var(x)

откуда и вытекает указанное представление.

Имея в виду последнее представление, иногда оценивают модели со

сдандартизованными переменными (standardized variables). Стандартизованная

переменная – это безразмерная переменная, получающаяся из исходной переменной

делением всех значений последней на ее стандартное отклонение. Если xст и yст

стандартизованные варианты переменных x и y , то тогда

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

y

 

 

 

 

 

Var x

ст

Var

 

 

 

1,

Var y

ст

Var

 

 

 

 

1,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Var

 

 

 

 

 

 

 

 

Var x

 

 

 

 

y

 

 

32

и при оценивании модели для стандартизованных переменных

yст,i xст,i i

получаем:

ˆ r

Var(y)

r .

 

 

 

 

Var(x)

 

 

 

 

xy

xy

 

 

 

 

В модели со стандартизованными переменными оценка

ˆ

показывает, на сколько

стандартных отклонений изменяется в среднем переменная y

при изменении переменной x

на одно стандартное отклонение.

 

 

 

 

 

 

 

 

 

 

 

 

В нашем примере с уровнями безработицы переменная

x представляет уровень

безработицы среди цветного населения, а переменная

y

– уровень безработицы среди

белого населения. Применим метод наименьших квадратов для оценивания параметров модели линейной связи между этими переменными, исходя из модели наблюдений

yi xi i , i 1, ,n.

Вычисление ˆ и ˆ по приведенным выше формулам дает значения

ˆ 0.020415/0.162976 0.125,

ˆ y ˆ x 3.118 0.125 6.576 2.294.

Таким образом, “наилучшая” прямая имеет вид

y2.294 0.125x,

имы принимаем ее в качестве аппроксимации для “истинной” модели линейной связи между переменными x и y . Эта аппроксимация указывает на то, что при изменении переменной x

на 1 единицу (измерения x) переменная y изменяется “в среднем” на 0.125 единиц

(измерения y ). Если в этом же примере перейти к стандартизованным переменным, то получим: ˆ 0.461, ˆ 20.280 ; это указывает на то, что при изменении переменной x на одно стандартное отклонение переменная y изменяется “в среднем” на 0.461 ее стандартного отклонения.

Факт горизонтальности прямой y ˆ ˆ x

при ˆ 0 Cov x, y 0 и наличие у

этой прямой

наклона

при ˆ 0

Cov x, y 0

позволяют

произвести

некоторую

детализацию

структуры

остатков e

y

i

ˆ x

i

. Нанесем на

диаграмму

рассеяния,

 

 

i

 

ˆ

 

 

 

 

изображенную ранее на рис. 1.3, график прямой

y 2.294 0.125 x

и рассмотрим на этой

33

диаграмме точку A = (7.1, 3.3), соответствующую данным о безработице в США в июне 1968

года (см. рис. 1.8). Опустим из этой точки перпендикуляр на ось абсцисс.

3.4

 

 

 

 

 

 

 

 

A

3.2

 

 

C

 

 

 

 

 

BEL

 

 

B

 

 

 

 

 

3

 

 

 

 

2.8

 

 

 

 

5.5

6

6.5

7

7.5

 

 

ZVET

 

 

 

 

Рис. 1.8

 

 

Он пересекает прямую y x в точке B = (7.1, 3.118) и прямую y ˆ ˆ x в точке C = (7.1, 3.183), так что расстояние по вертикали от точки A до прямой y x , равное AB = 3.3 – 3.118 = 0.182, раскладывается в сумму

AB AC CB.

Отсюда находим, что расстояние по вертикали от точки A до прямой y ˆ ˆ x

равно

AC AB CB 0.182 3.183 3.118 0.117.

 

Вообще, для любой точки xi , yi на диаграмме рассеяния можно записать:

yi

y

yi yˆi yˆi

y

,

 

где yˆi ˆ ˆ xi – ордината точки “наилучшей” прямой, имеющей абсциссу

xi . Возведем

обе части последнего представления в квадрат и просуммируем левые и правые части полученных для каждого i равенств:

n

n

n

n

yi

y

2

yˆi

y

2

yi yˆi 2

2 yi yˆi yˆi

y

.

i 1

i 1

i 1

i 1

Можно показать (см. Приложение П-1.2б в конце настоящего раздела), что в полученном представлении третья сумма в правой части равна нулю, так что

 

n

n

n

 

yi

y

2

yˆi

y

2

yi yˆi 2.

 

i 1

i 1

i 1

При этом существенно, что мы оценивали здесь модель наблюдений с включением в нее

константы :

yi xi i , i 1, ,n.

34

Если вместо такой модели оценивать модель наблюдений без константы (модель пропорциональной связи – proportional relation)

yi xi i , i 1, ,n,

то соотношение не выполняется. Подробнее этот случай обсуждается при изложении

темы 1.3.

Сумму квадратов, стоящую в левой части последнего соотношения, мы будем называть полной суммой квадратов (total sum of squares) и использовать для ее обозначения

аббревиатуру TSS, так что

n

TSS yi y 2 .

i 1

Первую сумму квадратов в правой части будем называть суммой квадратов,

объясненной моделью (explained sum of squares), и будем использовать для ее обозначения аббревиатуру ESS, так что

n

ESS yˆi y 2 .

i 1

Вторая входящая в правую часть сумма

n

n

yi yˆi 2

ei2

i 1

i 1

чаще всего называется остаточной суммой квадратов (residual sum of squares) и имеет аббревиатуру RSS6.

Иначе говоря, равенство представляет собой разложение полной суммы квадратов на сумму квадратов, объясненную моделью, и остаточную сумму квадратов:

TSS ESS RSS .

Заметим, что если ˆ 0, то ˆ y и yˆi y . Следовательно, при ˆ 0

n

n

yi yˆi 2

yi

y

2,

i 1

i 1

т. е. RSS TSS и

ESS 0.

При ˆ 0, по самому определению прямой y ˆ ˆ x, имеем

n

n

yi yˆi 2

yi

y

2,

i 1

i 1

6 Такая аббревиатура используется, например, в учебнике [Доугерти (2004)]. Однако в литературе по эконометрике можно встретить и другие варианты: SSR, ESS (error sum of squares), ([Магнус, Катышев, Пересецкий (2005)]), SSE . Поэтому при чтении различных руководств по эконометрике следует обращать внимание на то, какие именно термины и обозначения используют авторы.

35

т. е. RSS TSS и ESS 0.

Если считать, что тенденция линейной связи между переменными x и y выражена в тем большей степени, чем меньшую долю составляет RSS по отношению к TSS , либо,

иначе, большую долю составляет ESS по отношению к TSS , то тогда естественно

предложить в качестве показателя, характеризующего степень выраженности линейной связи

между

переменными

x

 

и y ,

отношение

ESS TSS .

Этот

показатель

называется

коэффициентом детерминации (coefficient of determination) и имеет обозначение

R2 , так

что

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R2

ESS

 

yˆi

y

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

TSS

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yi y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

или, в силу ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R2 1

RSS

 

 

yi yˆi 2

 

 

 

 

 

 

 

 

 

1

i 1

 

.

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

TSS

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yi

y

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

Коэффициент

детерминации возрастает с уменьшением доли

 

RSS

в TSS .

Минимальное значение коэффициента детерминации равно 0 и достигается при RSS TSS .

В этом случае тенденция линейной связи между переменными

x и

y не обнаруживается,

ˆ 0

и ESS 0 (“подобранная модель не объясняет наблюдаемую диаграмму рассеяния”).

 

Максимальное значение коэффициента детерминации равно 1 и достигается при

RSS 0. В этом случае тенденция линейной связи между переменными x

и

y

выражена в

наибольшей

степени:

все

 

точки

xi , yi , i = 1, 2,..., n, располагаются на

одной

прямой

y ˆ ˆ x .

При

этом

ESS TSS (“подобранная модель

в

полной

мере

объясняет

наблюдаемую диаграмму рассеяния”).

 

 

 

 

 

 

 

 

 

Таким образом, для коэффициента детерминации выполнено соотношение

 

 

0 R2 1.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Термины “полная” и “объясненная моделью” суммы квадратов имеют следующее

происхождение. Полная сумма квадратов соответствует значению RSS в ситуации, когда

ˆ 0

и “наилучшая” прямая имеет вид y

y

, отрицающий наличие линейной зависимости

y от

x. Вследствие этого привлечение информации о значениях переменной

x

не дает

36

ничего нового для объяснения изменений значений y от наблюдения к наблюдению.

Степень этой изменчивости мы уже характеризовали значением выборочной дисперсии

1

n

 

 

2

 

TSS

yi y

 

Var(y)

 

 

 

 

;

 

 

 

 

n 1i 1

 

 

n 1

при этом TSS RSS

и ESS 0.

 

 

 

Вситуации, когда ˆ 0, мы имеем нетривиальное представление TSS ESS RSS

сESS 0, и поэтому можно записать:

Var(y)

TSS

=

 

ESS

+

RSS

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1

 

 

n 1

 

n 1

 

 

 

Но

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

2

 

 

n

 

 

 

2

 

 

ESS

 

 

ˆ

 

 

 

 

 

ˆ

 

ˆ

 

 

 

 

 

 

 

 

 

yi

 

 

y

yi

 

 

y

 

 

 

=

i 1

 

 

 

 

 

 

i 1

 

 

 

 

=Var(yˆ),

 

n 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1

 

 

 

 

 

 

n 1

 

 

 

где yˆ – переменная, принимающая в i -м наблюдении значение yˆi . (Здесь мы использовали

 

 

 

 

 

 

 

 

n

 

 

 

n

n

n

 

 

 

 

 

уже упомянутое выше соотношение ei

0,

так что yi yˆi 0,

yi

yˆi

и

 

 

 

.)

y

yˆ

 

 

 

 

 

 

 

 

i 1

 

 

 

i 1

i 1

i 1

 

 

 

 

 

К тому же

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

n

 

n

 

 

 

 

 

 

 

 

 

 

 

 

RSS

 

 

yi yˆi 2

 

ei2

 

ei

 

e

2

 

 

 

 

 

 

 

 

 

=

i 1

 

i 1

 

i 1

 

 

 

=Var(e),

 

 

 

 

 

 

 

 

n 1

n 1

n 1

n 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где e – переменная, принимающая в i-м наблюдении значение ei . (Здесь мы использовали

n

тот факт, что e ei n 0.)

i 1

В итоге мы получаем разложение

Var(y) Var(yˆ) Var(e) ,

показывающее, что изменчивость переменной y (степень которой характеризуется значением Var(y)) частично объясняется изменчивостью переменной yˆ (степень которой характеризуется значением Var(yˆ)). Не объясненная переменной yˆ часть изменчивости переменной y соответствует изменчивости переменной e (степень которой характеризуется значением Var(e)). Последнее разложение для Var(y) часто называют дисперсионным анализом (analysis of variance – ANOVA).

Таким образом, вспомогательная переменная yˆ берет на себя объяснение некоторой части изменчивости значений переменной y, и эта объясненная часть будет тем большей,

37

чем выше значение коэффициента детерминации R2 , который мы теперь можем записать также в виде

R2 Var(yˆ) 1 Var(e) .

Var(y) Var(y)

Поскольку переменная yˆ получается линейным преобразованием переменной x, то изменчивость yˆ однозначно связана с изменчивостью x, так что, в конечном счете,

построенная модель объясняет часть изменчивости переменной y изменчивостью переменной x. В таком контексте о переменной y говорят как об объясняемой переменной

(explained variable), а о переменной x – как об объясняющей переменной (explanatory variable). При этом неявно подразумевается, что в действительности между этими переменными имеется определенная (нестрогая) причинная связь, направленная в сторону объясняемой переменной. Однако отсутствие причинной связи между переменными вовсе не исключает получения высоких значений коэффициента детерминации при подборе модели линейной связи между этими переменными7.

Вернемся опять к нашему примеру. В нем мы оценили параметры модели линейной связи, исходя из модели наблюдений

yi xi i , i 1, ,n,

так что объясняемой переменной здесь является уровень безработицы среди белого населения y , а объясняющей переменной – уровень безработицы среди цветного населения x . При

этом

ESS = 0.043474

RSS = 0.161231

TSS = 0.204705,

так что

Var(yˆ) = 0.043474/16 = 0.002717,

Var(e) = 0.161231/16 = 0.010077,

Var(y) = 0.012784,

R2 = 0.043474/0.204705 = 0.212374.

Значение коэффициента детерминации оказалось достаточно малым, и один из последующих вопросов будет состоять в том, сколь близким к нулю должно быть значение R2, чтобы мы могли говорить о практическом отсутствии линейной связи между переменными.

7 См. далее пример 1.3.4 (тема 1.3).

38

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]