книги / Эконометрика. Начальный курс
.pdf3.5. Проверка гипотез |
81 |
Вкачестве примера рассмотрим следующие матрицы Н , г для
к= 3, g = 2 :
Это условие соответствует системе двух линейных ограничений:
{А =2,
\P i ~ P з = 0 .
Из (3.4), (3.7), (3 8) видно, что вектор P O L S имеет нормальное распределение со средним Р и матрицей ковариаций <т2( Х ' Х ) ~ 1.
POLS ~ Н(р, а2( Х ' Х у 1).
>■4, |
|
~ |
__ |
_ |
— |
Отсюда получаем, что H P —г |
N ( H P —г, Е), где Е |
||||
q х q матрица и Е = V(H/3 - |
г) |
= |
V(Нр) = H V{ p )H ' |
= |
|
о2Н { Х ' Х ) - ' Н ' . Итак, |
|
|
|
|
|
Н р - г ~ М(Я/3 - |
г,<т2Н ( Х ' Х ) ~ 1Н'). |
(3.37) |
|||
По лемме (приложение МС, п. 4, N9) из (3.37) при условии |
|||||
справедливости гипотезы Но: Н Р = г, получаем: |
|
|
|||
1 ( н З - г П Щ Х ' Х Г ' Н ' у Ч н р - г) - хЧя). |
(3.38) |
||||
|
|
|
*•4 |
|
|
Из (3.21) и (3.38), используя независимость Р и е, получаем: |
|
||||
(нр- гу(н(х'хугн'у\нр - r)/g |
(3.39) |
||||
F = |
|
|
• F(q,n —к). |
||
е'е/(п —к) |
|
|
|
|
|
Бели справедлива гипотеза Но: Н р —г = О, то статистика F в (3.39) не должна принимать слишком больших значений, а именно, с вероятностью 1 - а имеем F < Fa(q,n—k), где Fa(q,n—k) есть 100а%-ная точка распределения Фишера F(q,n —к).
Из (3.21), (3.37), снова используя независимость /3 и е, полу
чаем |
|
|
(р - Р ) ' Н ' ( Н ( Х ' Х У 1Н ' У ' Н ( Р - р)/д |
~ F ( q , n - k ) . |
|
е'е/(п —к) |
||
(3.40) |
||
|
82 |
Гл. 3. Модель множественной регрессии |
Условие F < Fa( q , n - к) задает 100(1 - а)%-ную доверитель ную область для коэффициентов 0 .
Так как в числителе (3.40) стоит неотрицательно определенная квадратичная форма от 0 *, то эта доверительная область является выпуклым множеством.
В случае Н = I статистика F в (3.40) выглядит следующим образом:
ф - Р У ( Х ' Х ) ф - Р ) / к efe/{n - к)
В этом случае доверительная область является эллипсоидом в fc-мерном пространстве коэффициентов /3.
Но: Pk-q+1 = Pk—q+2 - • • • = Pk = 0. Гипотеза является, ко нечно, частным случаем общей линейной гипотезы JFf/З = г. Эту гипотезу приходится проверять наиболее часто, и она представ ляет самостоятельный интерес.
Разобьем все матрицы с размером по одной из сторон к на
блоки со сторонами (к - q) и q: |
|
|
||
н = [ о i q] , 3 = 0 1 |
, 0 = [ ^ ] . |
Х = [ Х , х |
2], |
|
|
0 2 |
|||
Н 3 = [ 0 Iq] |
01 |
= 0 2 , Х 0 = Х 13 1 + Х 202, |
|
|
|
0 2 |
|
|
|
здесь Х \ - п х (к - q ), |
X 2 - n x g , 0i, 3 i — ( * - ? ) * |
1. 02, |
||
0 2 —q x 1 матрицы. Введем обозначения: |
|
|
||
|
|
Х \ Х 2\ _ [Q u |
Q 12I |
|
|
|
^ |
2j " l Q 2i Q n Y |
В этих обозначениях числитель дроби в выражении (3.40) для F при условии, что верна нулевая гипотеза Но: 0 2 = О, имеет вид
3.5 Проверка гипотез |
|
|
83 |
|
(с точностью до множителя 1/q) |
|
|||
([0 |
1,1 |
'[о |
/,] 0 - / 3 ) |
|
— @2(Q22) |
*02 = р 2 ^2 2 —Q2\Q\\Q\2)&2 |
|||
= 3 i( * 2 * 2 |
- |
X'2X i { X \ X X) - ' X \ X 2 ) 0 2 |
||
= 0 2 X ,2{ I - X , { X ,lX fr |
lX \ ) X 2h |
= f a x ' t M x X i 3 2. |
||
|
|
|
|
(3.41) |
Здесь через M \ обозначена матрица ортогонального проектиро вания на TTJ- — ортогональное дополнение к подпространству 7гj в Rn (порожденному к - q столбцами матрицы X]). При выво де (3.41) мы использовали формулу (ЛА.18): (Q 22)-1 = Q 22 —
Q2lQnQ\2-
Докажем теперь, что (3.41) равно е*'е* —е'е, где е* — остатки «короткой» регрессии (только на X i), а е — остатки «длинной» регрессии (на X = [Xi Х 2]). В самом деле,
е* = М \у = Mi(Xi/3i + Х 2/32 + е)
= М гХ Д + М 1Х 2З 2 + M ie = М хХ 23 2 + е
(здесь слагаемое М \ Х ф х равно нулю, т.к. |
М \ — проектор на |
||
подпространство, ортогональное X i, |
и М хе |
= е, т.к. е ортого |
|
нально Х \ и Х 2). Отсюда |
|
|
|
е*'е* = (е + М 1Х 23 2),(е + М хХ 23 |
2) |
|
|
= е'е + 0 2Х'2М 1Х2р2 + е 'М хХ 23 2 + 3 2X'2M ie , |
(3.42) |
||
два последних слагаемых в (3.42) равны нулю, т.к. М хе |
= е, а |
Х 2е = О (остатки ортогональны регрессорам). Таким образом,
e * V - e ' e = 3 2X ,2M 1X 23 |
2. |
(3.43) |
|
Полученное выражение совпадает с (3.41), поэтому статистику |
|||
F из (3.40) в нашем случае можно записать как |
|
||
(е*'е* - е'е)/д _ |
(ESSR - ESSUR)/g ~ |
F(q,n - к). |
(3.44) |
е 'е / (п —к) |
ESSUR/ (л —к) |
|
|
84 |
Гл. 3- Модель множественной регрессии |
Здесь ESSR — сумма квадратов остатков «короткой» (restric ted) регрессии; ESSUR — сумма квадратов остатков «длинной»
(unrestricted) регрессии.
Как и ранее (см. (2.32)), F -статистику (3.44) можно выразить через коэффициенты детерминации R2 для «короткой» и «длин ной» регрессий:
Р |
(^l)R R R )/Q |
р/ |
t\ |
in |
F |
(1 - Щ т ) / ( п - к ) |
F(g’ |
к) |
(345) |
(при выводе (3.45) используется определение R2 (3.27) и то, что |
||||
TSSUR = TSSR ). |
|
|
|
|
Важ ное замечание. Можно доказать, |
что представления |
|||
F -статистики в формах (3.44), (3.45) справедливы и в общем |
||||
случае произвольного линейного ограничения JFf/З = |
г. |
|||
В этом случае «длинной» регрессией является регрессия без |
||||
ограничений на параметры /3, а «короткой» |
— регрессия с огра |
ничениями Н(3 = г. МНК при этом состоит в минимизации функ ции ESS (3.2) при условии Н(3 = г.
Упражнение. Докажите, что представления (3.44), (3.45) для F- статистики справедливы в общем случае произвольного линейно го ограничения Н(3 = г. (Указание: линейной заменой регрессо ров сведите общий случай к рассмотренному выше случаю огра ничения вида Afc-,+i = Pk-q+2 = ••• = & - 0 .)
Но: d/3 = 0 ,c — к х 1 вектор. Эта гипотеза также является част ным случаем общей линейной гипотезы Н/3 = г для 1хк матрицы Н = с'. Соответственно для проверки гипотезы можно использо вать F -статистику (3.39), которая в данном случае распределена по закону Фишера F ( l,n - к).
Эту гипотезу можно проверять, используя также t-статистику, аналогичную (3.34). Заметим, что d(3 ~ N(dfi,cr^ ) , как линей ная комбинация совмесгно нормально распределенных случай ных величин. Дисперсия d В равна <r^,- = V (dfi) = dV(B)c =
cr2d ( X ' X ) ~ ic, оценка дисперсии = d2d ( X ' X ) ~ 1c.
3.5. Проверка гипотез |
|
|
85 |
Из рассуждений, совершенно аналогичных рассуждениям при |
|||
выводе t-статистики для гипотезы |
= /%о, получаем |
|
|
t = d p - d p |
d p - d p |
t(n —к) |
(3.46) |
|
y/$2d ( X ' X ) ~ 1c |
|
|
или, если справедлива гипотеза Но: d p — в, |
|
||
t = |
d p - в |
t(n — к). |
(3.47) |
|
y / J d i X ' X y ' c
Конечно, в данном случае t-статистика эквивалентна F -стати- стике.
Но: Р' = Р"; а' = <т" (т ест Чоу (Chow)). Предположим, у нас есть две выборки данных. По каждой выборке мы строим регрессионную модель. Вопрос, который нас интересует: верно ли, что эти две модели совпадают? Рассмотрим модели:
Vt = |
+ 02ха |
+ • • *+ PkXtk + e't, |
t = 1,..., n, |
(3.48a) |
Vt = |
P"xt\ + |
+ • • • + P^Xth + d{, |
t = n + 1, . . . ,n + m, |
(3.486) |
в первой выборке n наблюдений и т наблюдений во второй. На пример, у — заработная плата, Х{ — регрессоры (возраст, стаж, уровень образования и т. п.), и пусть первая выборка относится к женщинам, вторая — к мужчинам. Вопрос: следует ли из оцен ки моделей (3.48а), (3.486), что модель зависимости зарплаты от регрессоров одна и та же для мужчин и женщин?
Сведем эту ситуацию к общей схеме проверки линейных ограничений на параметры модели. Регрессией без ограничений здесь является объединение двух регрессий (3.48а), (3.486), т. е. ESSUR = ESSi + ESS2, число степеней свободы при этом равно (п — к) + (т — к) = п + т — 2к. Предположим теперь, что верна нулевая гипотеза. Тогда регрессия с ограничениями записывается одним уравнением
yt = PiXti + PiXt2 + • “ + PkXtk + |
t *2 1,...,П + ТП; (3.49) |
86 |
Гл. 3. Модель множественной регрессии |
Оценивая (3.49), получаем ESSR. Тогда, учитывая, что нало жено к ограничений иа параметры модели, получаем (ср. (3.44))
(ESSR —ESSUR)/A: »v F(k,n + т —2к). |
(3.50) |
ESSUR/(« + т — 2к) |
|
Если F -статистика (3.50) больше критического значении Fc = Fa(k,п + т - 2к), то нулевая гипотеза отвергается иа уровне зна чимости а. В этом случае мы не можем объединить две выборки в одну.
Рассмотрим пример исследования, использующего модель множественной регрессии.
Пример. Рынок квартир в М оскве (см. Каргин, Онацкий, 1996). Данные для этого исследования собраны студентами РЭШ в 1994 и 1996 гг.
После проведенного анализа была выбрана логарифмическая форма модели, как более соответствующая данным:
LOGPRICE = Д, + j9|LOGLIVSP + &LOGPLAN
+&LOGKITSP + &LOGDIST + &FLOOR + AJBRICK
+(JyTiALi + /EfeLIFT + /JjRl + /?ioR2 + /3nR3 + /I12R4 + £. (*)
Здесь LOGPRICE — логарифм цены квартиры (в долл. США), LOGLIVSP — логарифм жилой площади (в кв. м), LOGPLAN — логарифм площади нежилых помещений (в кв.м), LOGKITSP — логарифм площади кухни (в кв. м), LOGDIST — логарифм рассто яния от центра Москвы (в км). Включены также бинарные, «фик тивные» переменные (см. п. 4.2), принимающие значения 0 или 1: FLOOR — принимает значение 1 , если квартира расположена на первом или на последнем этаже, BRICK —принимает значение 1 , если квартира находится в кирпичном доме, BAL — принимает значение 1 , если в квартире есть балкон, LIFT — принимает зна чение 1 , если в доме есть лифт, R1 —принимает значение 1 для однокомнатных квартир и 0 для всех остальных, R2, R3, R4 —ана логичные переменные для двух-, трех- и четырехкомнатных квар тир.
Результаты оценивания уравнения (*) для 464 наблюдений, от носящихся к 1996 г., приведены в таблице 3.1.
3.5. Проверка гипотез |
|
|
87 |
|
|
|
|
|
Таблица 3.1 |
Переменная |
Коэффи |
Стандарт |
t-стати Р-значе- |
|
CONST |
циент |
ная ошибка |
стика |
НИС |
7.106 |
0.290 |
24.5 |
0.0000 |
|
LOGLIVSP |
0.670 |
0.069 |
9.65 |
0.0000 |
LOGPLAN |
0.431 |
0.049 |
8.71 |
0 . 0 0 0 0 |
LOGKITSP |
0.147 |
0.060 |
2.45 |
0.0148 |
LOGDIST |
-0.114 |
0.016 |
-7.11 |
0.0000 |
BRICK |
0.134 |
0.024 |
5.67 |
0.0000 |
FLOOR |
-0.0686 |
0 . 0 2 1 |
-3.21 |
0.0014 |
LIFT |
0.114 |
0.024 |
4.79 |
0.0000 |
BAL |
0.042 |
0 . 0 2 0 |
2.08 |
0.0385 |
R1 |
0.214 |
0.109 |
1.957 |
0.0510 |
R2 |
0.140 |
0.080 |
1.75 |
0.0809 |
R3 |
0.164 |
0.060 |
2.74 |
0.0065 |
R4 |
0.169 |
0.054 |
3.11 |
0 . 0 0 2 0 |
Я2=0.8921, |
=0.8892, стандартная ошибка регрессии 0.2013 |
Из анализа t-статистик видно, что все коэффициенты, кро ме коэффициентов при R1 и R2, значимы иа 5%-ном уровне (см. (3.34)).
Коэффициент при LOGLFVSP, равный 0.67, означает, что уве личение жилой площади квартиры на 1 % увеличивает ее цену на 0.67%. Иначе говоря, эластичность цены квартиры по жилой пло щади равна 0.67.
Несколько сложнее объяснить значение коэффициентов при LOGPLAN и LOGKITSP. Для их объяснения мы решили исполь зовать следующий пример. Предположим, что есть две квартиры с одинаковой кухней, скажем 9 кв. м, но разными по площади осталь ными вспомогательными помещениями. Например, в первой квар тире эта площадь равна 1 1 кв. м, а во второй 1 2 кв. м. Таким об разом, во второй квартире общая площадь вспомогательных поме щений (21 кв.м) на 5% больше, чем в первой. Такое увеличение площади, с фиксированной площадью кухни, в соответствии с на шей моделью должно привести к увеличению цены второй квар тиры по сравнению с первой на 5 • 0.431 = 2.15%. Теперь предста вим себе, что имеется третья квартира с кухней 1 0 кв. м и пло щадью остальных вспомогательных помещений 1 1 кв.м. Общая площадь вспомогательных помещений в такой квартире, как и в предыдущем случае, 21 кв. м. Однако теперь мы ожидаем увели чение цены третьей квартиры по сравнению с первой квартирой на
88 Гл. 3. Модель множественной регрессии
5 ■0.431 + 5-0.147 = 2.89%, то есть увеличение площади вспомо гательных помещений за счет кухни приводит к большему увели чению цены квартиры, чем такое же увеличение за счет, скажем, коридора.
Отрицательное значение коэффициента при LOGDIST (-0.114) означает, что увеличение расстояния от центра города иа 1 %умень шает цену квартиры на 0.11%. Эксперты считают, что в действи тельности цена квартиры зависит также от «качества» района, в котором она расположена, а не только от ее расстояния от центра, однако влияние фактора «качества» не рассматривалось в данном исследовании.
Ниже (п. 4.2) мы вернемся к этому примеру для интерпретации коэффициентов при «фиктивных» переменных.
Существует мнение экспертов, что рынок квартир достаточно отчетливо делится на три сектора, рынок однокомнатных квартир, рынок квартир среднего размера (от 2 до 4 комнат) и рынок боль ших квартир. Для проверки этого утверждения тестируем с помо щью Р-статистики (3.39) гипотезу Но, что коэффициенты при R2,
R3, R4 равны: 0ю = 0 п \ 0 и - |
012- Получаем следующий резуль |
тат: |
|
Р-статистика 0.22315 |
Р-значение 0.8001, |
который показывает, что мы не можем отвергнуть гипотезу, что для квартир с числом комнат 2-4 формулы (*) расчета цены сов падают. Однако тестирование гипотезы Но: 0д = /Зю о совпадении формул для одно- и двухкомнатных квартир дает следующее зна чение Р-статистики:
Р-статистика 3.03188 Р-значение 0.0823,
С вероятностью ошибиться, меньшей 10%, можно отвергнуть гипотезу о совпадении формул (*) для одно- и двухкомнатных квартир.
Упражнения
3.1. Рассмотрим уравнения:
In1ft = 01 + 02 lnttft + 03St + et, |
t —l,..., n. |
ln(iftM ) = 71 + ТаIntot + T3«t + £«* |
Упражнения |
89 |
где yt — годовой доход t-го индивидуума, wt — число его рабочих недель в году, st — полное число лет, потраченных им иа образование.
а) Покажите, что для соответствующих МНК-оценок выполнены со отношения: 7 1 = 0 и 7 3 = /3j, 72 = 02 — 1.
б) Покажите, что остатки этих регрессий совпадают.
в) При каких условиях коэффициент детерминации R 2 в первой ре грессии будет больше коэффициента детерминации второй ре грессии? Что при этом можно сказать о качестве подгонки?
3.2. Покажите, что в регрессии на прогнозные значения у* и констан ту свободный член равен 0 , а угловой коэффициент равен 1 .
3.3. Дано регрессионное уравнение yt = 0xt + et, t = 1 ,... ,Т. Ошиб ки et — независимые одинаково распределенные нормальные величи ны. Мы хотим проверить гипотезу, что после наблюдения с номером п значение параметра 0 изменилось. Сумма квадратов остатков с ограни чением ESSR получается из регрессии у на * по всем Т наблюдениям. Для нахождения ESSUR используются две разные процедуры: 1 ) оцени ваем суммы квадратов остатков регрессий по двум подпериодам ESSi и ESS2, затем их складываем: ESSUR = ESSi + ESS2; 2 ) переписываем уравнение в виде
yt — 0i%tdti + thxtdtz + fit)
где
t — 1.,... yn, |
_ |o , |
t = 1 ,... ,n, |
t = n + l , . . . , T , |
t2 ~ \ l , |
t = n + l , . . . , T . |
Далее мы получаем ESSUR как сумму квадратов остатков этой ре грессии по всем Т наблюдениям.
Докажите, что эти две процедуры дают одинаковые значения F- статистик.
Покажите также, что тот же результат может быть получен, если регрессия без ограничений записана в виде yt = 0 \x t + Sxtdt2+ et, где
6= 02-(h-
3.4.Регрессия зависимой переменной у на три независимые переменные на основе п = 30 наблюдений дала следующие результаты:
У |
= |
25.1 |
+ 1 .2 *i |
+ |
1 |
0 * 2 |
- 0.50*3 |
||
|
(2 .1 ) |
(1.5) |
|
. |
- |
|
|||
Стандартные ошибки |
|
|
(1.3) |
(0.060) |
|||||
2-значения |
|
(11.9) |
( |
) |
|
( |
) |
( |
) |
96%‘ные доверительные границы |
|
(±4.3) |
( |
) |
|
( |
) |
( |
) |
90 |
Гл. 3 Модель множественной регрессии |
а) Заполните пропуски
б ) Истинны или ложны следующие утверждения (если ложны, ис правьте их):
1 ) Оценка коэффициента при xi есть 1.2. Другие исследовате ли могут собрать другие данные и построить другие оценки этого коэффициента. Распределение этих оценок сосредото чено вокруг истинного значения 1.2. Поэтому оценка назы вается несмещенной.
2)Если есть априорная уверенность в том, что xi не влияет на у, то представляется разумным отвергнуть нулевую гипоте зу Но: Pi = 0 на 5%-ном уровне значимости.
3)Если есть априорная уверенность в том, что хг влияет на у, то представляется более разумным использовать оценку 1 .0 , чем принимать нулевую гипотезу HQ: Рт. — 0 .
3.5.Бюджетное обследование пяти случайно выбранных семей дало следующие результаты (в тыс. руб.):
Семья |
Накопления, S |
Доход, У |
Имущество, W |
1 |
3.0 |
40 |
60 |
2 |
6 . 0 |
55 |
36 |
3 |
5.0 |
45 |
36 |
4 |
3.5 |
30 |
15 |
5 |
1.5 |
30 |
90 |
а) Оцените регрессию 5 на У и W .
б) Спрогнозируйте накопления семьи, имеющей доход 40 тыс. руб. и имущество стоимостью 25 тыс. руб.
к) Предположим, что доход семьи возрос на 10 тмс. руб., в то время как стоимость имущества не изменилась. Оцените, как возрастут ее накопления.
г) Оцените, как возрастут накопления семьи, если ее доход вырос на 5 тыс. руб., а стоимость имущества увеличилась на 15 тыс.руб.
д) Найдите сумму квадратов остатков и постройте оценку дисперсии регрессии.
3.6. Рассмотрим регрессию S = 0\ + ДгУ + P^W + е из предыдущего упражнения 3.5.