книги / Эконометрика. Начальный курс
.pdf2.6. Анализ вариации зависимой переменной в регрессии |
51 |
распределенная по закону t(n - 2), принимает значение по абсо
лютной величине большее, чем |t| = Ь
2.6.Анализ вариации зависимой переменной в регрессии. Коэффициент детерминации R 2
Анализ вариации зависимой переменной в регрессии
Рассмотрим вариацию (разброс) —F )2 значений Yt вокруг среднего значения. Разобьем эту вариацию на две части: объяс ненную регрессионным уравнением и не объясненную (т.е. свя
занную с ошибками £*). |
^ |
|
Обозначим через Yt = a+bXt предсказанное значение Yt, тогда |
||
Yt - 7 = (Yt - Yt) + {Yt - |
Y) (см. рис.2.5) и вариация Yt представ |
|
ляется в виде трех слагаемых: |
|
|
£ ( у , - У? = £ ( у, - у,)2 + £ ( ? , - |
У ? |
|
|
+ 2 £ ( К - У , ) ( Й - 7 ) . |
(2.25) |
Третье слагаемое в (2.25) равно нулю, так как у — у = е, - вектор остатков регрессии, ортогонален константе г и вектору х (см. самом^деле, ^ е £(Кг - У) = £ е £(а + bXt - Y) = (о + Ш - Y) 23 et + b53 etXt = 0. Поэтому верно равенство
Е (У « -Г )2 = |
Е № - у«)2 + |
Е (У,-У)2- |
, , 2В) |
TSS |
ESS |
RSS |
' |
Замечание. Вектор остатков регрессии ортогонален константе, т.е. г'е = £ е £ = 0, вообще говоря, только в том случае, когда константа включена в число объясняющих параметров регрес сии. Поэтому (2.26) справедливо, вообще говоря, только в слу чае, когда константа включена в число объясняющих параметров регрессии.
52 |
Гл. 2. Модель парной регрессии |
Рис. 2.5
Обозначим левую часть в (2.26) через TSS (toted sum of squares) — вся дисперсия, первое слагаемое в правой части, со ответствующее не объясненной дисперсии, через ESS (error sum of squares), второе слагаемое в правой части — RSS (regression sum of squares) -- объясненная часть всей дисперсии1.
Статистика R2 — коэффициент детерминации
Определение. Коэффициентом детерминации, или долей объяс ненной дисперсии, называется
ESS RSS
(2.27)
TSS “ TSS’
Заметим, что второе равенство в (2.27) верно лишь в том слу чае, если верно (2.26), т.е. когда константа включена в уравнение регрессии. Только в этом случае имеет смысл рассматривать ста тистику R2.
В силу определения R2 принимает значения между 0 и 1, О ^ R2 < 1. Если R2 = 0, то это означает, что регрессия ничего не дает, т. е. Xt не улучшает качество предсказания У( по сравне нию с тривиальным предсказанием Yt = 7 .
'К сожалению, эти обозначения не унифицированы. В некоторых книгах (см, например, Johnston, DiNardo, 1997) первое слагаемое в правой части (2.26) обозначается RSS (residual sum o f squares), а второе — ESS
sum
2.6. Анализ вариации зависимой переменной в регрессии |
53 |
Другой крайний случай Д2 = 1 означает точную подгонку: все точки наблюдений лежат на регрессионной прямой (все е* = 0).
Чем ближе к 1 значение Д2, тем лучше качество подгонки, у более точно аппроксимирует у. Ниже в главе 3, посвященной мно жественной регрессии, мы более подробно остановимся на вопросе о значении Д2 при оценке качества регрессии.
Геометрическая интерпретация коэффициента Л2
Вернемся к геометрической интерпретации регрессии из разде ла 2.2. Вектор 7 г является ортогональной проекцией вектора у на вектор г. Вектор у есть ортогональная проекция вектора у на плоскость (t,x) (см. рис. 2.6). По теореме о трех перпендику лярах ортогональная проекция вектора у на вектор г совпада ет с F t. Равенство (2.26) является теоремой Пифагора для пря
моугольного треугольника со сторонами у —F t, у — 7 г, |
е, т.е. |
|
||у - F t ||2 = ||е||2 + ||у - F t||2. Поэтому |
Д2 = RSS/TSS = |
cos2 у», |
где <р— угол между векторами (у - F t) |
и (у —Yt). |
|
Рис. 2.6
Упражнение. Покажите, что Д2 равен квадрату выборочного коэффициента корреляции между Yt и Р£.
54 |
Гл. 2. Модель парной регрессии |
F-статистика
Снова предположим, что мм находимся в рамках нормальной ли нейной регрессионной модели. Из (2.17), (2.21) получаем
<«•«» |
«И*, |
6 - 6 _ |
6 - 6 |
|
~ N (o ,i); |
( п - у |
Е « ? |
<72 |
<72 ~ Х 2 ( « - 2 ) . |
Ранее мы показали, что s2 и 6 — независимые случайные величи ны, поэтому по определению распределений Фишера и квадрат (приложение МС, п. 3 (7,8)) получаем
( Ь - Ь \ 21 |
! |
|
F = |
— |
Р(1, „ _ 2). |
1 > ? 1 |
Е <=?/("-2) _ > _ х2 („ _ 2 ) |
|
п —2 |
п —2 |
|
(2.28) Полученную F -статистику можно использовать для проверки нулевой гипотезы Но: 6 - 6о = 0. При этой гипотезе статистика
(2.28) выглядит следующим образом:
F = '£ e $ n - V ~ F(1’ n - 2>- (М #)
Если нулевая гипотеза справедлива, то значение F в (2.29) ма ло. Таким образом, мы отвергаем нулевую гипотезу, если F пре восходит критическое значение Fa (l, п - 2 ) распределения Фишерас параметрами (1, п - 2) для выбранного уровня значимости а.
Статистика (2.29) особенно просто выглядит для гипотезы Но: 6 = 0 (случай отсутствия линейной функциональной связи между X и Y). Преобразуя числитель следующим образом:
|
(Е X,y,f |
|
Е*< |
= |
= £ ( й ) ! = S i» .. |
2.7. Оценка максимального правдоподобия коэффициентов регрессии |
55 |
получим (в векторных обозначениях для отклонений) |
|
у'*у* |
|
F = е'е/(п - 2) ‘ |
(2.30) |
Замечание. Сравнивая (2.23) и (2.29), мы видим что F = t2, т. е. проверка гипотезы Но, используя t- и F -статистики, дает в данном случае (для одномерной регрессионной модели) тождественные результаты.
Нетрудно заметить, что, переписывая определение /^-стати
стики (2.27) в отклонениях, получаем
•Л»/
R2 = У.У. |
У*У* |
(2.31) |
У'.У. |
е'е + у*у* |
|
Используя (2.30) и (2.31), получаем следующее соотношение, связывающее R 2 и F -статистики:
F = ( n - 2 ) T^ . |
(2.32) |
Не удивительно, что малым значениям F (отсутствие значимой функциональной связи X и Y) соответствуют малые значения R2 (плохая аппроксимация данных).
2.7.Оценка максимального правдоподобия коэффициентов регрессии
О ц ен ка м акси м альн ого п равд оп одоби я
Наряду с методом наименьших квадратов (МНК) возможен и дру гой подход к оцениванию параметров линейного регрессионного уравнения по данным наблюдений — метод максимального прав доподобия. Этот метод будет рассмотрен детально в главе 10. В данном разделе мы рассмотрим его применение к оцениванию па раметров парной регрессии.
Предположим, что мы ищем параметры нормальной линейной регрессионной модели
Vf = о + ЬХ( + St. |
(2.33) |
56 |
Гл. 2. Модель парной регрессии |
Ошибки р егр есси и e t независимы и распределены по нормальному закону:
е4~АГ(0,<г2), |
(2.34) |
илы, что является эквивалентной записью,
Yt ~ N { a + bXu а2).
Имея набор наблюдений (Xt,Yt), t = 1,... ,п, мы можем по пытаться ответить на вопрос: при каких значениях параметров а, Ь, о2 модели (2.33)-(2.34) вероятность получить этот набор наблюдений наибольшая? Другими словами, каковы наиболее ве роятные значения параметров модели для данного набора наблю дений?
Чтобы ответить на этот вопрос, составим функцию правдопо добия (приложение МС, п. 7), равную произведению плотностей вероятности отдельных наблюдений (мы считаем все е* независи мыми):
а д , . . . , Г п,а ,6,о2)=р(У1,...,Г п |Л:1, ...,Х п,в ,6,о 2)= П р (Г <)
1=1
= (2 * )-"/V )-"/2 ® ф ( - ^ 5 £ < К - * - WC,)2) , (2.35)
где р обозначает плотность вероятности, зависящую от X t, Yt и параметров а, 5, а2. Для того чтобы найти наиболее правдоподоб ные значения параметров, нам необходимо найти такие их зна чения, при которых функция правдоподобия L (2.35) достигает своего максимума. Так как функции L и In L одновременно дости гают своего максимума, достаточно искать максимум логарифма функции правдоподобия
1пЬ(У'1,...,У„,о,6,<т) = - |ln (2 ir)- ||ц(<г2)
< 2 ' 3 6 >
Необходимые условия экстремума функции In L имеют вид:
dlnL |
о, |
(2.37а) |
|
да |
|||
|
|
2.7. Оценка максимального правдоподобия коэффициентов регрессии |
57 |
Решением системы уравнений (2.37а)-(2.37в) являются оценки
максимального правдоподобия
Отметим, что оценки максимального правдоподобия парамет ров а, Ь совпадают j: оценками метода наименьших квадратов <*ML = SOLS, &ML — bobsЭто легко видеть из того, что уравне ния (2.37а) и (2.376) совпадают с соответствующими уравнениями метода наименьших квадратов (2.2). Оценка максимального прав доподобия для о1 не совпадает с OQLS = YL е*/ (п—2), которая, как мы знаем (см. (2.15)), является несмещенной оценкой дисперсии ошибок. Таким образом, ~ ((п —2)/п)3£>1с является смещен ной, но тем не менее состоятельной оценкой <г .
Пример. Доходы семьи. В этом примере используются данные RLMS2. Пусть Inс обозначает реальный доход семьи, Expend — ее реальные расходы. Для того чтобы исследовать зависимость рас ходов от доходов, оценим коэффициенты регрессии Expend на Inc и константу.
Для всех типов семей (количество наблюдений 3594)
Expend = 4663.3 + |
0.686 Inc, |
R2 = 0.21, s = 11307. |
(233 6) |
(0 0223) |
|
В скобках приведены стандартные ошибки коэффициентов регрес сии. Соответствующие t-статистикн равны 19.96 и 30.81, т. е. коэф фициенты статистически достоверно отличаются от нуля. Однако значение коэффициента детерминации R2 невелико. Это объясня ется, конечно, разнородностью семей как по составу, так и по дру гим факторам, таким, как место проживания, структура расходов,
*RLMS, Hound VI — обследование 3781 семьи в Российской Федерации, произведенное осенью 1995 г. совместно Госкомстатом РФ, Институтом со циологии РАН, Институтом питания РАМН и Университетом Северной Ка ролины (Чапел Хилл, США), данные можно найти по адресу: https/Artrtf.срс.une.«du/prоjacts/rim*/гlms„home.html
58 |
Гл. 2. Модель парной регрессии |
состав семьи и т. и. Таким образом, для более однородной выбор ки семей мы оправе ожидать увеличения значения коэффициента детерминации.
Для семей, состоящих из одного человека (количество наблю дений 509):
Expend = 3229.2 + |
0.355 Inc, |
Я2 = 0.39, s = 4567. |
(182 О) |
(0 0162) |
|
Как и раньше, коэффициенты являются значимыми — t-ста- тистики равны соответственно 17.74 и 20.70. Как мы и ожидали, качество подгонки улучшилось —коэффициент Я3 возрос с 0.21 до 0.39, а оценка стандартного отклонения остатков 8 уменьшилась с 11307 до 4567. Так как в семьях из одного человека нет расходов на содержание неработающих членов семьи (дети, престарелые), то на потребление тратится меныная часть прироста дохода. Склоч ность к потреблению, определяемая как dExpend/dlnс, для семьи из одного человека равна 0.355, в то время как в среднем по всей выборке 0.686.
Обозначим через N f количество членю в семье. Оценим регрес сию среднею расхода на члена семьи на средний доход члена семьи (количество наблюдений 3594):
Expend/ N f = 2387.2 + |
0.447 Inc/N f, Я3 = 0.24, s = 4202. |
(76 8) |
(0 0133) |
Значение Я2 увеличилось по сравнению с первой регрессией. Пере ход к удельным данным приводит к уменьшению дисперсии оши бок модели.
Упражнения
2.1. Наблюдения 16 nap (X, У) дали следующие результаты:
£ У 3 = 526, |
£ Х 3 = 657, £ |
ХУ = 492, |
£ У = 64, |
£ Х = 96. |
|
Оцените регрессию Yt = а + (3Xt + £i и проверьте гипотезу, что коэф фициент 0 равен 1.0.
2.2. Покажите, что 0 = — , где rXY —выборочный коэффициент
корреляции между X и У, a sx , sY — стандартные отклонения X и У, соответственно
Упражнения |
59 |
2.3. Пусть 0 —оценка коэффициента наклона в регрессии У на X, а 7 —оценка коэффициента наклона в регрессии X на У. Покажите, что
л |
* |
0 = 1 /7 тогда и только тогда, когда Яг = 1.
2.4.Рассмотрим модель У = а+ 0Х ?+е(, где ошибки являются незави симыми одинаково распределенными нормальными случайными вели чинами. Почему для оценивания параметров нельзя применять метод наименьших квадратов? Выведите уравнение для оценок максимально го правдоподобия.
2.5.Могут ли следующие уравнения быть преобразованы в уравнения, линейные по параметрам?
аУ Yi = a- cxp(pXi) • г<,
б) Yi = а ■exp(—(3Xi) + eit
в) Yt = ехр(а + 0Xi + г<),
г) У = а / (/?-*<)+ п.
2.6. Зависимая переменная в регрессии У = a+0Xi+£i разбивается на две компоненты: У = Yu + Уг«- Рассмотрим две регрессии для компо нент: Уп = oi + PiXi+ец и = <*2 +(hXi +£2i- Докажите следующие соотношения для МНК-оценок параметров трех регрессий: й = Si + йг;
0 = 01+ 02-
2.7. Уравнение У = а +• 0Xi + е* оценивается методом наименьших квадратов. Остатки регрессии равны е*, yt = у —У, = Xi — X , у, = У - F —отклонения от средних. Докажите, что следующие меры качества подгонки совпадают:
а) ( £ *i»i) / ( £ * < £ У?) • |
б) 0 ( S **») / ( 2 У»?) > |
в) (Е ft»)*/(Е ^ £»?) * |
г>1"Е ei/S |
2.8. Выведите непосредственно формулу для оценки коэффициента на клона в регрессии без свободного члена, т. е. найдите оценку параметра 0 в регрессии У = 0Xt+£t минимизацией суммы квадратов отклонений
60 |
Гл. 2. Модель парной регрессии |
2.9. Для наблюдений
УX
70 |
5 |
65 |
11 |
55 |
15 |
60 |
17 |
50 |
20 |
35 |
22 |
40 |
25 |
30 |
27 |
25 |
30 |
32 |
35 |
вычислите следующие величины:
а) коэффициент детерминации Я2 в регрессии У( на X t при наличии свободного члена;
б) коэффициент детерминации Я2 в регрессии У< на X t при отсут ствии свободного члена;
в) коэффициент детерминации Я2 в регрессии у* на x t при наличии свободного члена, где yt и x t — отклонения переменных Yt и X t от их средних значений;
г) коэффициент детерминации Я2 в регрессии yt на x t при отсут ствии свободного члена.
2.10. Предположим, что модель
У = or+ 0 X t 4- £ti t —
удовлетворяет условиям классической регрессии. Рассматривается сле дующая оценка коэффициента 0:
Yt - Y x t - T
а) Является ли оцеика 0 несмещенной? Является ли она линейной?
б) Вычислите дисперсию оценки 0.
в) Проверьте теорему Гаусса-Маркова, сравнив полученную диспер сию оценки 0 с дисперсией МНК-оценки <т2/ ^ " =1(Xt - X )2.