книги / Эконометрика. Начальный курс
.pdf12.1. Модели бинарного и множественного выбора |
333 |
/32 —/Зх, .... 0 т - 01Поэтому для идентифицируемости моде ли (12.14) обычно используют нормировку 0 ! = 0:
(12.15)
Нетрудно видеть, что при m = 2 модель (12.15) — это обычная /одй-модель бинарного выбора (12.3). Модель (12.13) при т = 2 тоже сводится к обычной /oytf-модели, если в качестве независи мых переменных рассматривать x t2 —xti ■
Существенным ограничением, лежащим в основе logit-модели множественного выбора, является предположение о статистиче ской независимости полезностей иу по j. Оно выглядит нереали стичным, если среди альтернатив есть достаточно близкие. Клас сический пример такой ситуации, содержащийся во многих кни гах по эконометрике, дает анализ того, каким образом индивиду ум попадает из дома на работу (пешком, метро, автобус, личный автомобиль). Предположим, что в городе существуют две конку рирующие транспортные компании, предоставляющие примерно одинаковые по качеству услуги («красный автобус» и «синий ав тобус»). Следует ожидать, что полезности этих двух альтернатив достаточно близки, что вступает в противоречие с их независимо стью.
На эту же проблему можно посмотреть немного иначе. Из (12.12) следует, что
р Ы = з) = e x p ( u t j ) P ( y t = к) e x p ( u tjk)
при любых j, к = 1,..., т , т. е. отношение вероятностей двух аль тернатив не зависит от остальных возможностей. Это свойство получило название «независимость от посторонних альтернатив»
(independence of irrelevant alternatives). Бели в нашем примере считать, что первая альтернатива — это личный автомобиль, а
334 Гл. 12. Дискретные зависимые переменные и цензурированные выборки
вторая — «красный автобус», то отношение P(yt = 1)/P(yt = 2) должно быть одно и то же, независимо от того, является третьей альтернативой «синий автобус» или метро, что выглядит весьма нереалистично.
Более подробно о /оуit-модели множественного выбора можно прочесть в книге (Greene, 1997).
Порядковые зависимые переменные
Если альтернативы упорядочены, то, используя скрытую (латент ную) переменную, можно построить естественное обобщение моде ли (12.4), (12.5). Поясним на примере. Предположим, что у семьи есть три возможности провести отпуск:
1 — отдыхать на даче;
2 — отдыхать в Крыму;
3 — отдыхать в Испании.
Выбор места отдыха, описываемый переменной у, зависит от текущих накоплений у* следующим образом:
у= 1, если у* ^ ci,
у= 2, если ci < у* ^ С2,
у= 3, если у * > С2,
где ci,C2 — некоторые фиксированные уровни. Предполагая, что величина у* удовлетворяет уравнению (12.4), и считая для про стоты, что дисперсия ошибок <7 = 1, имеем:
P(l/t = l) = F ( c i - x 't /3),
P(yt = 2) = F ( C2 - *J /3) - F(ci - x't /3), |
(12.16) |
P(yt = 3) = 1 - F(C2 - ®|/3).
Выбирая в качестве функции F(-) функцию нормального или ло гистического распределения, будем получать порядковые probit- или Zoyif-модели.
Функция правдоподобия имеет следующий вид (ср. (12.8)):
L = J j F ( ci-x 't /3) II(F (c 2-* 't /3)-F(ci-®'t /3)) J J ( l - F ( c 2-* 't /3)).
12.1. Модели бинарного и множественного выбора |
335 |
Уровни сх, С2 могут быть априорно заданы, а могут быть неизвест ны. В любом случае на основании этой формулы для порядковых probit- или /<ф#-моделей можно строить оценки максимального правдоподобия параметров /3 и, если необходимо, сх,C2.
В общем случае модель упорядоченного множественного выбо ра с т альтернативами кратко описывается следующим образом. Пусть -ОО = Со < Сх < • • • < Cm—1 < Сщ = оо — точки на число вой прямой, и (скрытая) переменная у* удовлетворяет уравнению (12.4):
Уt = *{/3 + St-
Тогда
P (j/t — j ) — P ( c j _ i < j/f ^ Cj), j — 1,. . . ,тп. |
(12.17) |
Таким образом,
P(yt = j) = F{cj - x ' t p ) - F(cj-i - ®'t /3), j = 1 , . . . , m, (12.18)
где F(-) — функция распределения ошибки et. Предполагая неза висимость ошибок, получаем следующее выражение для функции правдоподобия:
i=ft П
J=1
Максимизируя эту функцию, получаем оценки параметров /3 и Cj, j = l , . . . , m - 1.
Пример. Анализ рейтингов российских банков. Этот при мер основан на работе (Пересецкий, Карминский, ван Сует, 2003). Одной из важнейших характеристик банка является его надеж ность. Различные организации (журналы, аналитические центры и т.п.) регулярно публикуют рейтинги надежности банков. Часто методики, по которым эти рейтинги строятся, являются закрыты ми и, как правило, используют экспертные оценки. Возникает есте ственный вопрос, можно ли связать рейтинг банка с показателями его деятельности. В работе (Пересецкий, Карминский, ван Сует,
336 Гл. 12. Дискретные зависимые переменные и цензурированные выборки
2003), в частности, построена модель упорядоченного множествен ного выбора (12.17), (12.18), использующая данные Информацион ного центра (ИЦ) «Рейтинг». В этих данных содержится инфор мация о рейтингах 115 российских банков, ранжированных по 6 группам надежности (п = 115, тп = 6). В качестве объясняющих переменных х были выбраны следующие показатели:
BP/SK —прибыльность капитала;
DOSTKAP —достаточность капитала (Норматив Hi ЦБ РФ); DKE/VB —доля долгосрочных кредитов экономике в валюте
байка;
MGLIK —мгновенная ликвидность (Норматив Н2 ЦБ РФ); SK —собственный капитал.
Оценивание модели (12.17), (12.18) дало результаты, представ ленные в таблице 12.2.
Переменная |
Таблица 12.2 |
Коэффициент |
|
BP/SK |
-0.132 |
DOSTKAP |
0.054 |
DKE/VB |
2.904 |
MGLIK |
-0.019 |
SK |
-7.63 • Ю~07 |
При этом вес коэффициенты, за исключением коэффициента мри DKE/VB, оказались значимыми на 1%-ном уровне, а коэффи циент при DKE/VB значим на 5%-иом уровне. Знаки коэффициен тов согласуются со здравым смыслом и экономической интуицией. Отмстим, что в этой модели уменьшение зависимой переменной соответствует повышению рейтинга, поэтому отрицательный знак коэффициента означает, что увеличение соответствующего факто ра (при прочих равных) способствует повышению надежности.
Для оценки качества модели для некоторой группы банков бы ли построены рейтинги, предписываемые моделью (модельные рей тинги) и проведено сравнение с рейтингами ИЦ «Рейтинг» (реаль ные рейтинги). Коэффициент Спирмэна между этими рейтингами оказался равным 0.76, для 80% банков модельные рейтинги совпа ли с реальными, идля всехбанковотклонение модельного рейтинга от реального не превышало 1 (о ту или другую сторону). Эти фак ты свидетельствуют о достаточно высоком качестве построенной модели.
12.2. Модели с урезанными и цензурированными выборками |
337 |
12 .2 . М о д ел и с ур езан н ы м и и ц ен зур и р о в ан н ы м и в ы бор к ам и
Урезанные выборки
Если выборка производится не из всей возможной совокупности наблюдений, а лишь из тех, что удовлетворяют каким-то априор ным ограничениям, то такую выборку называют урезанной. Как правило, урезание приводит к смещенности МНК-оценок, поэто му для урезанных выборок используют в основном метод макси мального правдоподобия (глава 10). В этом разделе мы рассмот рим случай, когда урезание осуществляется пороговым значением для зависимой переменной, т. е. исключаются все те наблюдения, у которых значение зависимой переменной меньше некоторой за данной величины.
Пусть случайная величина Z имеет плотность распределения p(z). Нетрудно проверить, что для любого числа а условная плот ность p(z | Z > а) задается равенством
(12.19)
где F(-) — функция распределения Z.
Условное среднее случайной величины Z при условии Z > а
есть |
|
Е (Z | Z > а) = |
zp(z | Z > a)dz. |
Аналогично определяется условная дисперсия V(Z \ Z > а). Можно показать, что если Z ~ ЛГ(т,<т2), то
E(Z | Z > а) = тп+а\(с), V(Z \ Z > а) = <т2(1—у(с)), (12.20)
где
с = (а - тп)/<т, А(с) = t ^ ф " , 7(c) = А(с)(А(с) - с),
а Ф(-) и ф(-) — соответственно функция и плотность стандартного нормального распределения. Заметим, что 7 (c) < 1 при любом с.
338 Гл. 12. Дискретные зависимые переменные и цензурированные выборки
Предположим, что имеется нормальная линейная регрессион ная модель (см. п. 3.1)
yt = x't p + et, et ~ N ( 0, а 2), |
(12.21) |
и пусть выбираются только те наблюдения, для которых yt > а. Тогда согласно (12.20) имеем:
Е(у4 |
| yt > о) = x't P + <T\(ct), |
(12.22) |
V(yt |
| Vt>a) = <т2(1 - 7 (ct)), |
(12.23) |
где ct = (а —x't (3)/a. Найдем предельный эффект объясняющих факторов. Дифференцируя (12.22), опуская нижний индекс t и пользуясь легко проверяемым равенством ф'(и) = —иф(и), полу чаем:
дЕ{у | у > а) |
d \ дс |
(12.24) |
дх |
= (3 + <Tt e d i = 0 (1 -7(c)). |
Поскольку 0 < 7 (c) < 1 при любом с, то предельный эффект каждого фактора меньше соответствующего коэффициента.
Бели для урезанной выборки записать регрессионное уравне
ние
Vt = x'i/Э + щ, |
(12.25) |
то в силу (12.22) ошибка щ имеет среднее значение <rA(ct) и дис персию (12.23). Это означает, что, применяя к модели метод наи меньших квадратов, мы будем получать смещенные и несостоя тельные оценки параметров /3.
Как и раньше, для построения состоятельных оценок можно воспользоваться методом максимального правдоподобия. Соглас но (12.19) плотность распределения случайной величины yt в уре занной выборке есть
1 ф((у —Xi0)/a)
а 1 -Ф((а-х[(3)/<т)'
12.2. Модели с урезанными и цензурированными выборками |
339 |
откуда следует, что логарифмическая функция правдоподобия за дается равенством
1 = -^(Ь(2тг) + 1п<т2) - |
- x't 0)2 |
(12.26)
Проделав необходимые вычисления, можио показать, что (вектор ное) уравнение правдоподобия выглядит так:
т_ |
y t - x ' t P |
A(ct)\ |
Л |
|
(12.27) |
||
д(3 |
— |
------------— ) х , = 0, |
|
||||
|
|
|
|
|
|
||
Э1 |
__L |
. ( y t ~ x tP)2 _ ctA(ct)~ |
= 0, |
(12.28) |
|||
да2 |
|||||||
2а2 |
|
2а4 |
Ча2 |
|
|
||
где, как и ранее, |
|
|
|
|
|
||
|
a - x ' t P |
|
</>(<%) |
|
|
||
|
<к = |
_ |
1 А ( с е ) = |
1 - Ф (с 4)' |
|
Исследование достаточности условий (12.27), (12.28) для макси мизации функции правдоподобия (12.26) является весьма слож ной задачей и выходит за рамки нашей книги.
Совершенно аналогично можно рассматривать модели, в ко торых урезание происходит с помощью условий yt < а или а < Vt < Ь.
Метод максимального правдоподобия для оценивания моде лей с урезанными выборками реализован во многих современных эконометрических компьютерных пакетах.
Цензурированные выборки. Tobit-модель
Начало систематическому изучению в эконометрике моделей с цензурированными выборками положила работа Дж . Тобина (To bin, 1958), в которой исследовались расходы семей на автомоби ли. Для некоторых семей эти расходы равнялись нулю (отказ от
340 Гл. 12. Дискретные зависимые переменные и цензурированные выборки
покупки). Дж. Тобин заметил, что если в такой ситуации осуще ствить регрессию логарифма расходов на логарифм доходов, то оценка эластичности спроса на автомобили по доходам окажется смещенной и несостоятельной, и предложил методы состоятель ного оценивания. Суть моделей с цензурированием состоит в том, что для части наблюдений известно не «истинное» значение зави симой переменной, а ее усеченное значение, определяемое уровнем цензурирования.
Модель с цензурированием может быть получена с помощью небольшой модификации модели (12.4), (12.5). Пусть ненаблюда емая величина у* удовлетворяет регрессионному уравнению
Vt =x't (3 + £t, |
(12.29) |
||
а наблюдается величина |
|
|
|
у4*, |
если у? > О, |
(12.30) |
|
{О, |
если yt* < 0. |
||
|
Модель (12.29), (12.30) называют tobit-моделью, соединяя в ее на звании имя Tobin и термины probit, logit.
Найдем Б(у(), предполагая, что ошибка et в (12.29) имеег нормальиое распределение с нулевым средним и дисперсией о2. Имеем:
Е М = Е(у, I у; < 0)Р(у? 0 ) + E(yt I уГ > 0)P(yt* > 0)
= 0 • Р(у* ^ о) + Р(«ч > —®'t/3)(x't /3 + E(et I et > - x [ /3))
= Ф |
/3 + оф |
, |
(12.31) |
что в общем случае не равно х[ (3. В последнем равенстве мы вос пользовались первым равенством из (12.20). Если теперь провести регрессию у на х
yt = x't 0 + щ,
то метод наименьших квадратов даст смещенные и несостоятель ные оценки параметров /3, так как E(ut) Ф 0 в силу (12.31), откуда следует смещенность и несостоятельность МНК-оценок (п. 3.2).