Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Лекции - Раздел 1

.pdf
Скачиваний:
9
Добавлен:
03.06.2015
Размер:
933.51 Кб
Скачать

а также выборочные дисперсии (sample variances)

 

 

 

1

n

 

 

 

 

1

n

 

 

 

 

 

 

Var(x)

xi

 

x

2 ,

Var(y)

yi

 

y

2 ,

 

 

 

 

 

n 1i 1

 

 

 

 

n 1i 1

 

 

 

 

характеризующие степень разброса значений x1, ,xn

( y1, , yn ) вокруг своего среднего

x

(или

y

соответственно),

или

вариабельность

 

(изменчивость – variability) этих

переменных на множестве наблюдений. Отсюда обозначение Var (variance). Впрочем, более естественным было бы измерение степени разброса значений переменных в тех же единицах,

в которых измеряется и сама переменная. Эту задачу решает показатель, называемый

стандартным отклонением2

(Std. Dev. – standard deviation) переменной x (переменной

y ), определяемый соотношением

Std.Dev.(x)

 

(Std.Dev.(y)

 

соответственно).

Var(x)

Var(y)

Определяя выборочную дисперсию, мы делим сумму квадратов отклонений наблюдаемых значений переменной от их среднего значения не на количество наблюдений

n, а на n 1. Именно такое определение используется в математической статистике по

следующей причине. Если предполагать, что x1, ,xn – случайная выборка из распределения

с математическим

ожиданием

 

 

и дисперсией

2 , то, как

известно из

курса

 

 

 

 

 

 

 

1

n

 

 

 

 

 

 

 

 

 

x

xi является

 

 

, а

математической статистики,

 

 

несмещенной

оценкой для

 

 

 

 

 

 

 

 

 

n i 1

 

 

 

 

1

n

 

 

 

 

 

 

 

 

 

 

Var(x)

xi

 

x

2 является несмещенной оценкой для 2 . На практических занятиях

 

 

n 1i 1

 

 

 

 

 

 

 

 

 

 

мы будем проводить эконометрический анализ данных, применяя специализированный пакет прикладных программ Econometric Views (EViews), и в этом пакете принято именно такое определение выборочной дисперсии.

Вычисления по указанным выше формулам приводят в нашем примере к значениям

x 6.576, Std.Dev.(x) 0.416, y 3.118, Std.Dev.(y) 0.113. Иными словами, средний

уровень безработицы среди цветного населения более чем в два раза превышает средний уровень безработицы среди белого населения. Стандартные отклонения соответственно

относятся приблизительно как 4:1, что указывает на гораздо более сильную изменчивость

(“вариабельность”) уровня безработицы среди цветного населения. Размахи колебаний уровней равны соответственно 7.3 5.7 1.6 и 3.3 3.1 0.2.

2 Здесь мы следуем терминологии словаря статистических терминов [The Oxford dictionary of statistical terms (2003)].

19

Удобным графическим средством анализа данных является уже упоминавшаяся ранее диаграмма рассеяния, на которой в прямоугольной системе координат располагаются точки xi , yi , i 1, ,n, где n – количество наблюдаемых пар значений переменных x и y

(иногда ее называют корреляционным полем – correlation diagram). В нашем примере диаграмма рассеяния имеет вид

3.4

 

 

 

 

3.2

 

 

 

 

BEL

 

 

 

 

3

 

 

 

 

2.8

 

 

 

 

5.5

6

6.5

7

7.5

 

 

ZVET

 

 

Рис. 1.3

Вытянутость облака точек на диаграмме рассеяния вдоль наклонной прямой позволяет

сделать предположение о том, что существует некоторая объективная3 тенденция линейной связи междузначениямипеременных x и y , выражаемая соотношением

y x, 0 .

В то же время такое соотношение выражает всего лишь тенденцию: реально наблюдаемые значения yi отличаются от значений xi на величину

i yi xi ,

так что

yi xi i , i 1, ,n .

Последнее соотношение определяет линейную модель наблюдений (linear observation

model), тогда как соотношение

y x

определяет линейную модель связи (linear relation) между рассматриваемыми переменными

(математическая модель –

mathematical

model, dependence model), в которой y

зависимая” (dependent) переменная, а x

независимая” (independent) переменная.

Заметим, однако, что

видимая степень проявления вытянутости облака точек на

диаграмме рассеяния существенно зависит от выбора единиц измерения переменных x и y.

3 Впрочем, достаточно хорошо выраженная вытянутость облака точек вдоль наклонной прямой может возникать и в случае так называемой ложной (паразитной) линейной связи, не имеющей содержательной экономической интерпретации, – см. далее пример 1.3.4 (тема 1.3).

20

Поэтому, во-первых, желательно при построении диаграммы выбирать масштабы и интервалы изменения переменных таким образом, чтобы окно диаграммы имело вид квадрата и чтобы на диаграмме имелись точки, достаточно близко расположенные к каждой из четырех границ этого квадрата, как сделано на рис. 1.3. Это пожелание автоматически реализуется при построении диаграмм рассеяния в пакете Econometric Views.

Во-вторых, желательно иметь какие-то числовые характеристики, которые отражали бы действительное наличие вытянутости облака точек вдоль некоторой наклонной прямой и не зависели от шкал, в которых представлены значения переменных.

Одна из возможных характеристик такого рода связана с разбиением диаграммы рассеяния горизонтальной и вертикальной прямыми на 4 прямоугольника (рис. 1.4).

3.4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3.2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BEL

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2.8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5.5

6

6.5

7

7.5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ZVET

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 1.4

 

 

 

 

 

 

 

 

 

 

 

 

Разбивающие диаграмму прямые (секущие)

проводятся через точку x, y , так что

если точка

xi , yi

 

лежит правее вертикальной секущей, то отклонение

xi

x имеет знак

плюс, а если левее, то знак

минус.

Аналогично, если

точка xi , yi

лежит выше

горизонтальной секущей, то отклонение

yi

y

имеет знак плюс, а если она расположена

ниже этой секущей, то знак минус.

 

 

 

 

 

 

 

В

нашем

 

 

примере

m 4,

m

4,

m 3

(точки,

соответствующие

наблюдениям с номерами

6 и

17 , имеют совпадающие координаты),

m 6 (точки,

соответствующие наблюдениям с номерами 9 и 10, имеют совпадающие координаты), так

что

количество

точек с совпадающими

знаками

отклонений xi

x

и yi

y

равно

m

m

10,

а количество точек, у

которых

знаки отклонений

различны,

равно

m m

7 .

 

 

 

 

 

 

 

 

 

 

 

 

Количество точек с совпадающими знаками отклонений от средних значений (для

таких точек произведение xi

x

yi

y

 

положительно) составляет 10/17=0.59, т. е. около

21

59% общего числа точек, и это служит некоторым указанием на наличие вытянутости облака точек в направлении прямой, имеющей положительный угловой коэффициент. Если бы большинство составляли точки с противоположными знаками отклонений от средних значений (для таких точек произведение xi x yi y отрицательно), то это служило бы некоторым указанием на наличие вытянутости облака точек в направлении прямой,

имеющей отрицательный угловой коэффициент. Последняя ситуация часто наблюдается при рассмотрении зависимости спроса на товар от его цены. В качестве примера приведем (рис. 1.5) диаграмму рассеяния для статистических данных о еженедельных закупках куриных яиц 7 домохозяйствами у одного и того же розничного продавца в течение 15 недель при общем снижении цен на этот продукт в течение этого времени (статистические данные приведены в табл. 1.7 в конце раздела 1; спрос измерялся в дюжинах, цена – в долларах):

15

 

Спрос

 

9

 

0.35

0.55

 

Цена

Рис. 1.5

Более распространенным является определение степени выраженности линейной

связи между произвольными переменными x и

y ,

принимающими значения

xi и yi ,

i 1, ,n,

посредством

выборочного

коэффициента корреляции (sample

correlation

coefficient)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

rxy

 

 

Cov(x, y)

 

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Var(x) Var(y)

 

 

 

 

 

 

 

 

учитывающего не только знаки произведений xi

x

yi

 

y

, но и абсолютную величину этих

произведений. Величина Cov(x, y),стоящая в числителе, определяется соотношением

 

 

 

 

 

1

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Cov(x, y)

 

xi

x

yi

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

и называется выборочной ковариацией

(sample

covariance) переменных x и

y ,

так что

формально

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Cov(x,x) Var(x),

Cov(y, y) Var(y) .

 

 

 

 

 

 

(Заметимтакже, что

Cov(x, y) Cov(y,x)

и rxy ryx .)

 

 

 

 

 

22

Свойства выборочной ковариации, выборочной дисперсии и выборочного

коэффициента корреляции

 

 

 

 

 

 

 

 

 

 

Пусть a – некоторая постоянная,

а x, y,z

переменные, принимающие в i-м

наблюдении значения

xi , yi ,zi , i 1, ,n (n – количество наблюдений). Тогда a можно

рассматривать как переменную, значение которой в i -м наблюдении равно ai a , и

Cov x, a n 1

n

n

 

 

 

 

 

xi x ai a n 1 xi x a a ,

1

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

i 1

 

 

 

 

 

так что

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Cov(x,a) 0.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Далее, очевидно, что

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Cov(x,a) Cov(a,x)

 

 

 

 

 

 

 

 

 

 

и что

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Cov(x,x) Var(x).

 

 

 

 

 

 

 

 

 

 

Кроме того,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

n

 

 

 

 

 

Cov(ax, y)

1

(axi a

x

)(yi

y

)

a

1

xi

 

x

yi

y

,

n 1

n 1

 

 

 

 

i 1

 

 

i 1

 

 

 

 

 

так что

Cov(a x,y) aCov(x, y).

Наконец,

n

Cov(x, y z) n11 (xi x)(yi zi (y z))

 

i 1

 

1

n

 

xi x (yi

y) (zi z)

n 1

 

i 1

 

nn

n11 xi x yi y + n1-1 xi x zi z ,

i 1 i 1

так что

Cov(x, y z) Cov(x, y) Cov(x, z).

На основе этих свойств находим, в частности, что

Var(a) 0,

 

 

Var(a x) a2Var(x),

Std.Dev.(a x)

a Std.Dev.(x)

(при изменении единицы измерения переменной в a 0 раз, во столько же раз изменяется и величина стандартного отклонения этой переменной),

23

Var(x a) Var(x)

(сдвиг начала отсчета не влияет на изменчивость переменной).

Наконец,

Var(x y) Cov(x y, x y) Cov(x,x) Cov(x, y) Cov(y,x) Cov(x, y),

т. е.

Var(x y) Var(x) Var(y) 2Cov(x, y)

(дисперсия суммы двух переменных отличается от суммы дисперсий этих переменных на величину, равную удвоенному значению ковариации между этими переменными).

Что касается выборочного коэффициента корреляции

rxy , то если изменяются

начало отсчета и

единица измерения, скажем, переменной x,

так что вместо значений

x1, ,xn мы получаем значения

 

 

 

 

 

 

 

 

 

 

 

 

~

 

 

 

, i 1, ,n,

(b 0)

 

 

 

 

 

 

 

 

xi a bxi

 

 

 

 

 

 

 

 

переменной

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x a bx, то тогда

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

 

 

 

 

Cov(a bx, y)

 

 

 

bCov(x, y)

~

 

 

Cov(x, y)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

rxy

 

~

 

 

 

 

Var(a bx) Var(y)

 

 

 

 

 

rxy .

 

 

Var

(x)

Var(y)

 

 

 

b2Var(x)

Var(y)

Иными словами, выборочный коэффициент корреляции rxy инвариантен

относительно выбора единиц измерения и начала отсчета переменных x и y.

Значения выборочного коэффициента корреляции не могут быть больше 1 по абсолютной величине, что непосредственно вытекает из применения известного неравенства

Коши – Буняковского в виде:

 

n

x

 

 

x

y

 

 

y

 

 

2

n

x

 

 

x

2 n y

 

 

y

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

i

 

i

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

i 1

 

 

 

 

Если линейная тенденция выражена на диаграмме рассеяния довольно ясно, то

значения rxy

 

будут по абсолютной величине близки к единице (значения rxy близки к +1,

если облако существенно вытянуто вдоль прямой, имеющей положительный угловой коэффициент, или к –1, если облако существенно вытянуто вдоль прямой, имеющей отрицательный угловой коэффициент). Значение rxy равно +1 тогда и только тогда, когда все точки x1, y1 , , xn,yn лежат на прямой, имеющей положительный угловой коэффициент.

Значение rxy равно 1 тогда и только тогда,

когда все точки

x1, y1 , , xn,yn лежат на

прямой, имеющей отрицательный угловой коэффициент.

 

В нашем примере Var x 0.1732,

Var y 0.0128,

Cov x,y 0.0217, откуда

находим:

 

 

24

rxy

0.0217 0.4608,

0.1732 0.0128

т.е. получаем положительное значение rxy , расположенное приблизительно посередине между 0 и 1.

В примере с закупками куриных яиц получаем отрицательное значение выборочного коэффициента корреляции: rxy 0.717. Соответственно, в первом случае часто говорят о

положительной корреляционной связи (positive correlation), а во втором – об

отрицательной корреляционной связи (negative correlation) между переменными.

Не надо только думать, что большое положительное или большое отрицательное значение коэффициента корреляции обязательно свидетельствует именно о линейном характере связи между переменными. Даже при достаточно большом по абсолютной величине значении выборочного коэффициента корреляции построенная по конкретным статистическим данным диаграмма рассеяния может указывать скорее на нелинейную связь между переменными. Обратимся, например, к статистическим данным об уровне безработицы UNJOB и темпах инфляции INF в США за период 1961 по 1969 год (эти данные приведены в табл. 1.23 и подробно анализируются при рассмотрении темы 1.4).

Значение выборочного коэффициента корреляции между этими переменными равно 0.848.

В то же время (см. рис. 1.6), соответствующая статистическим данным диаграмма рассеяния имеет вид,

INF

6

5

4

3

2

1

0

3 4 5 6 7

UNJOB

Рис. 1.6

который вряд ли может указывать на линейный характер связи между этими переменными.

С другой стороны, близость выборочного коэффициента корреляции нулю вовсе не

означает отсутствие какой-либо другой зависимости между рассматриваемыми

переменными, отличной от линейной зависимости. Рассмотрите самостоятельно пример, в

котором переменные y и x связаны квадратичной зависимостью y x2 , но значения y

25

наблюдаются только при значениях x 2, 1, 0, 1, 2 . Постройте для этих данных

диаграмму рассеяния и вычислите выборочный коэффициент корреляции.

Замечание 1.1.1

Мы определили Var и Cov, деля соответствующие суммы квадратов на n 1. Вместе с тем, например, в учебнике [Доугерти (2004)] соответствующие суммы квадратов делятся не на n 1, а на n. К счастью, Cov и Var будут играть у нас лишь вспомогательную роль, а

величина более существенного для нас коэффициента корреляции rxy не зависит от того, каким из двух способов мы будем определять Var и Cov, лишь бы только при определении обеих этих характеристик использовался один и тот же способ.

Замечание 1.1.2

Выборочный коэффициент корреляции, определенный указанным выше образом, более точно называется выборочным коэффициентом парной линейной корреляции Пирсона.

Контрольныевопросы

1.Почему наряду с теоретическими моделями связи между переменными приходится рассматривать модели наблюдений? Чем различаются эти типы моделей? В чем состоит особенность эконометрического подхода к исследованию связей между экономическими переменными?

2.Что понимается под процессом порождения данных? Что понимается под эконометрической (статистической) моделью? Чем отличается эконометрическая модель от процесса порождения данных?

3.Из каких основных элементов складывается эконометрический анализ?

4.В чем состоит принцип экономичности, используемый при подборе модели?

5.В чем состоит принцип охвата, используемый при подборе модели?

6.В чем заключается метод “от общего к частному”, используемый при подборе

модели?

3.Может ли совпадать подобранная модель связи с теоретической?

7.Какое графическое средство полезно использовать для выяснения характера теоретической (усредненной) связи между двумя экономическими показателями?

8.Какая числовая характеристика измеряет степень выраженности линейной связи между двумя экономическими показателями в имеющихся наблюдениях?

26

9.В каких случаях говорят о положительной (отрицательной) корреляционной связи между экономическими переменными?

10.Инвариантна ли выборочная ковариация Cov(x, y) относительно выбора единиц

измерения и начала отсчета переменных x и y?

11. Инвариантен ли выборочный коэффициент корреляции rxy относительно выбора единиц измерения и начала отсчета переменных x и y?

12. Всегда ли высокое значение коэффициента корреляции указывает на линейный характер связи между экономическими переменными?

Тема1.2. Методнаименьшихквадратов. Прямолинейныйхарактер связи междудвумя экономическимифакторами

План лекции

1. Оценивание линейной модели: метод наименьших квадратов, “наилучшая” аппроксимирующая прямая, остатки.

2.Формулы для оценок наименьших квадратов.

3.Полная, объясненная моделью и остаточная суммы квадратов. Дисперсионный анализ. Объясняемая и объясняющая переменные.

4.Коэффициент детерминации.

5.Геометрическая интерпретация основных соотношений метода наименьших

квадратов.

Текстовыйматериаллекции

Теперь мы обсудим вопрос о том, каким образом по имеющимся наблюдениям можно (хотя бы приблизительно) восстановить гипотетическую линейную связь между переменными, если таковая действительно существует. Как мы уже говорили, проблема состоит в том, что даже при действительном существовании линейной связи между двумя переменными истинные значения параметров и такой связи обычно остаются неизвестными, и мы можем судить об их истинных значениях лишь приближенно, оценивая значения и на основании ограниченного количества имеющихся в распоряжении данных наблюдений (статистических таблиц).

Мы уже отмечали ранее, что если между переменными x и y существует теоретическая (усредненная) линейная связь в виде

y x,

27

то наблюдаемые значения xi , yi , i 1, ,n, этих переменных связаны линейной моделью наблюдений

yi xi i , i 1, ,n .

 

 

Если и – “истинные” значения параметров линейной модели связи, то величина

 

i yi xi

 

 

представляет собой ошибку в i-м наблюдении (error, или

disturbance). Заметим, что

в

англоязычной литературе параметру соответствует термин

intercept, а параметру

термин slope.

 

 

Если в качестве эконометрической модели выбрана линейная модель, то поиск подходящих оценок для и можно осуществлять, например, путем поиска на диаграмме

рассеяния прямой, проходящей через

точку

x

,

y

– “центр” системы точек

x1, y1 , , xn, yn и “наилучшим образом

выражающей направление вытянутости этой

системы (облака) точек. Пусть прямая

 

 

 

 

 

y x

 

 

 

 

 

рассматривается в числе прочих в процессе такого поиска (так что x y ). Для i-го наблюдения мы будем иметь тогда расхождение

i yi xi ,

 

могут

быть как положительными, так и отрицательными. При

причем значения i

изменении значений

и

будут изменяться и расхождения 1 , , n . Конечно, хотелось

бы подобрать значения

 

и

 

 

 

 

 

 

таким образом, чтобы 1

n 0. Однако это

невозможно, если точки x1, y1 , , xn ,yn

не лежат на одной прямой. Поэтому приходится

останавливать свой выбор на значениях и , минимизирующих какой-то подходящий показатель, характеризующий совокупность расхождений “в целом”.

В качестве такого показателя можно взять, например, сумму квадратов расхождений

n

 

2

и тогда остановить свой выбор на прямой y

 

 

 

x, для которой эта сумма

 

i

 

 

 

i 1

 

 

 

 

 

 

 

минимальна4.

4 Такой выбор удобен с точки зрения простоты вычислений и простоты математических выводов. Однако можно использовать и другие показатели, характеризующие совокупность расхождений в целом, например, сумму абсолютных величин расхождений.

28

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]