Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Эконометрика. Начальный курс

.pdf
Скачиваний:
15
Добавлен:
20.11.2023
Размер:
21.93 Mб
Скачать

12.1. Модели бинарного и множественного выбора

331

тую переменную можно интерпретировать как разность полезно­ стей альтернатив 1 и 0).

Итак, предположим, что имеется т альтернатив. Будем счи­ тать, что для индивидуума t альтернатива j имеет полезность Utj = гttj + £tj, где utj — неслучайная составляющая, a etj ~ слу­ чайная составляющая полезности. Тогда индивидуум t выберет альтернативу j, если Utj > Utk для любого к ф j. Иными слова­ ми,

P(2/t = 3) = Р(«у + £tj > Щк + etk V*: ф j, к = 1, ... тп). (12.11)

В общем случае для нахождения этой вероятности требуется вы­ числять многомерные интегралы по соответствующим областям от плотности совместного распределения ошибок £tj- Как правило (в частности, для нормально распределенных ошибок etj), эти ин­ тегралы невозможно выразить аналитически, а можно лишь най­ ти численно, что, в конечном итоге, делает модель не применимой на практике. Есть, однако, некоторое специальное распределение, для которого вероятность Р (j/t = j) в (12.11) допускает достаточ­ но простое представление. Предположим, что ошибки £tj незави­ симы и имеют функцию распределения F(x) = ехр(—е~х) (такое распределение возникает при изучении максимума независимых случайных величин, поэтому его часто называют распределением экстремальных значений). Тогда можно доказать, что

Р(* = j) =

,

(12.12)

'J exp(uti ) + - + e x p ( u tm)

Предполагая, что полезность utj зависит от наблюдаемых экзо­ генных характеристик x tj и неизвестных параметров /3:

Utj =

получаем модель

ехр(ху/З)

(12.13)

Р(У‘ ” ^ ” ехр(а^0) + • • • + exp(*,tm/3) ’

332 Гл. 12. Дискретные зависимые переменные и цензурированные выборки

которая называется logit-моделью множественного выбора (multi­ nomial logit model)1.

Среди экзогенных переменных xtJмогут быть характеристи­ ки, зависящие только от индивидуума и не зависящие от альтер­ нативы. Если, например, анализируется проблема выбора профес­ сии, то естественно включить в хц такие факторы, как возраст, уровень образования, социальный статус и т. п., которые не за­ висят от профессии. Выделим такие переменные: x'tj =

и соответствующим образом разобьем вектор неизвестных пара­ метров на две компоненты: 0 = [7 ', 5']. Тогда числитель и знаме­ натель правой части формулы (12.13) будут содержать общий со­ множитель exp(z*6 ), а это означает, что вектор параметров д оце­ нить невозможно (неидентифицируемость). Следовательно, если необходимо учесть индивидуальные эффекты, logit-иоделъ мно­ жественного выбора должна быть модифицирована. Например, можно считать, что коэффициенты 6 могут зависеть от альтер­ нативы, т.е. utj = y'tj 7 + z'tSj. В примере с выбором профессии подобное предположение выглядит реалистичным: при одном и том же уровне образования полезность разных профессий разная (при прочих равных).

Часто в литературе рассматривается модель, когда*

**у =

т. е. когда экзогенные переменные не зависят от альтернативы, а коэффициенты могут от нее зависеть. В этом случае

P(yt = j) =

________ ехр(х«/3,)________

(12.14)

exp(х{/Зх) + • • + exp{x't/3m)

и эту модель также называют logit-моделъю множественного вы­ бора. Заметим, что модель (12.14) неидентифицируема, посколь­ ку правая часть формулы (12.14) зависит только от разностей

‘Иногда (см , например, (Greene, 1997)) эту модель называют условной

lo g ii- м о д е л ы о ( c o n d itio n a l lo g it m o d e l) .

12.1. Модели бинарного и множественного выбора

333

/32 —/Зх, .... 0 т - 01Поэтому для идентифицируемости моде­ ли (12.14) обычно используют нормировку 0 ! = 0:

(12.15)

Нетрудно видеть, что при m = 2 модель (12.15) — это обычная /одй-модель бинарного выбора (12.3). Модель (12.13) при т = 2 тоже сводится к обычной /oytf-модели, если в качестве независи­ мых переменных рассматривать x t2 —xti ■

Существенным ограничением, лежащим в основе logit-модели множественного выбора, является предположение о статистиче­ ской независимости полезностей иу по j. Оно выглядит нереали­ стичным, если среди альтернатив есть достаточно близкие. Клас­ сический пример такой ситуации, содержащийся во многих кни­ гах по эконометрике, дает анализ того, каким образом индивиду­ ум попадает из дома на работу (пешком, метро, автобус, личный автомобиль). Предположим, что в городе существуют две конку­ рирующие транспортные компании, предоставляющие примерно одинаковые по качеству услуги («красный автобус» и «синий ав­ тобус»). Следует ожидать, что полезности этих двух альтернатив достаточно близки, что вступает в противоречие с их независимо­ стью.

На эту же проблему можно посмотреть немного иначе. Из (12.12) следует, что

р Ы = з) = e x p ( u t j ) P ( y t = к) e x p ( u tjk)

при любых j, к = 1,..., т , т. е. отношение вероятностей двух аль­ тернатив не зависит от остальных возможностей. Это свойство получило название «независимость от посторонних альтернатив»

(independence of irrelevant alternatives). Бели в нашем примере считать, что первая альтернатива — это личный автомобиль, а

334 Гл. 12. Дискретные зависимые переменные и цензурированные выборки

вторая — «красный автобус», то отношение P(yt = 1)/P(yt = 2) должно быть одно и то же, независимо от того, является третьей альтернативой «синий автобус» или метро, что выглядит весьма нереалистично.

Более подробно о /оуit-модели множественного выбора можно прочесть в книге (Greene, 1997).

Порядковые зависимые переменные

Если альтернативы упорядочены, то, используя скрытую (латент­ ную) переменную, можно построить естественное обобщение моде­ ли (12.4), (12.5). Поясним на примере. Предположим, что у семьи есть три возможности провести отпуск:

1 — отдыхать на даче;

2 — отдыхать в Крыму;

3 — отдыхать в Испании.

Выбор места отдыха, описываемый переменной у, зависит от текущих накоплений у* следующим образом:

у= 1, если у* ^ ci,

у= 2, если ci < у* ^ С2,

у= 3, если у * > С2,

где ci,C2 — некоторые фиксированные уровни. Предполагая, что величина у* удовлетворяет уравнению (12.4), и считая для про­ стоты, что дисперсия ошибок <7 = 1, имеем:

P(l/t = l) = F ( c i - x 't /3),

P(yt = 2) = F ( C2 - *J /3) - F(ci - x't /3),

(12.16)

P(yt = 3) = 1 - F(C2 - ®|/3).

Выбирая в качестве функции F(-) функцию нормального или ло­ гистического распределения, будем получать порядковые probit- или Zoyif-модели.

Функция правдоподобия имеет следующий вид (ср. (12.8)):

L = J j F ( ci-x 't /3) II(F (c 2-* 't /3)-F(ci-®'t /3)) J J ( l - F ( c 2-* 't /3)).

12.1. Модели бинарного и множественного выбора

335

Уровни сх, С2 могут быть априорно заданы, а могут быть неизвест­ ны. В любом случае на основании этой формулы для порядковых probit- или /<ф#-моделей можно строить оценки максимального правдоподобия параметров /3 и, если необходимо, сх,C2.

В общем случае модель упорядоченного множественного выбо­ ра с т альтернативами кратко описывается следующим образом. Пусть -ОО = Со < Сх < • • • < Cm—1 < Сщ = оо — точки на число­ вой прямой, и (скрытая) переменная у* удовлетворяет уравнению (12.4):

Уt = *{/3 + St-

Тогда

P (j/t — j ) — P ( c j _ i < j/f ^ Cj), j 1,. . . ,тп.

(12.17)

Таким образом,

P(yt = j) = F{cj - x ' t p ) - F(cj-i - ®'t /3), j = 1 , . . . , m, (12.18)

где F(-) — функция распределения ошибки et. Предполагая неза­ висимость ошибок, получаем следующее выражение для функции правдоподобия:

i=ft П

J=1

Максимизируя эту функцию, получаем оценки параметров /3 и Cj, j = l , . . . , m - 1.

Пример. Анализ рейтингов российских банков. Этот при­ мер основан на работе (Пересецкий, Карминский, ван Сует, 2003). Одной из важнейших характеристик банка является его надеж­ ность. Различные организации (журналы, аналитические центры и т.п.) регулярно публикуют рейтинги надежности банков. Часто методики, по которым эти рейтинги строятся, являются закрыты­ ми и, как правило, используют экспертные оценки. Возникает есте­ ственный вопрос, можно ли связать рейтинг банка с показателями его деятельности. В работе (Пересецкий, Карминский, ван Сует,

336 Гл. 12. Дискретные зависимые переменные и цензурированные выборки

2003), в частности, построена модель упорядоченного множествен­ ного выбора (12.17), (12.18), использующая данные Информацион­ ного центра (ИЦ) «Рейтинг». В этих данных содержится инфор­ мация о рейтингах 115 российских банков, ранжированных по 6 группам надежности (п = 115, тп = 6). В качестве объясняющих переменных х были выбраны следующие показатели:

BP/SK —прибыльность капитала;

DOSTKAP —достаточность капитала (Норматив Hi ЦБ РФ); DKE/VB —доля долгосрочных кредитов экономике в валюте

байка;

MGLIK —мгновенная ликвидность (Норматив Н2 ЦБ РФ); SK —собственный капитал.

Оценивание модели (12.17), (12.18) дало результаты, представ­ ленные в таблице 12.2.

Переменная

Таблица 12.2

Коэффициент

BP/SK

-0.132

DOSTKAP

0.054

DKE/VB

2.904

MGLIK

-0.019

SK

-7.63 • Ю~07

При этом вес коэффициенты, за исключением коэффициента мри DKE/VB, оказались значимыми на 1%-ном уровне, а коэффи­ циент при DKE/VB значим на 5%-иом уровне. Знаки коэффициен­ тов согласуются со здравым смыслом и экономической интуицией. Отмстим, что в этой модели уменьшение зависимой переменной соответствует повышению рейтинга, поэтому отрицательный знак коэффициента означает, что увеличение соответствующего факто­ ра (при прочих равных) способствует повышению надежности.

Для оценки качества модели для некоторой группы банков бы­ ли построены рейтинги, предписываемые моделью (модельные рей­ тинги) и проведено сравнение с рейтингами ИЦ «Рейтинг» (реаль­ ные рейтинги). Коэффициент Спирмэна между этими рейтингами оказался равным 0.76, для 80% банков модельные рейтинги совпа­ ли с реальными, идля всехбанковотклонение модельного рейтинга от реального не превышало 1 (о ту или другую сторону). Эти фак­ ты свидетельствуют о достаточно высоком качестве построенной модели.

12.2. Модели с урезанными и цензурированными выборками

337

12 .2 . М о д ел и с ур езан н ы м и и ц ен зур и р о в ан н ы м и в ы бор к ам и

Урезанные выборки

Если выборка производится не из всей возможной совокупности наблюдений, а лишь из тех, что удовлетворяют каким-то априор­ ным ограничениям, то такую выборку называют урезанной. Как правило, урезание приводит к смещенности МНК-оценок, поэто­ му для урезанных выборок используют в основном метод макси­ мального правдоподобия (глава 10). В этом разделе мы рассмот­ рим случай, когда урезание осуществляется пороговым значением для зависимой переменной, т. е. исключаются все те наблюдения, у которых значение зависимой переменной меньше некоторой за­ данной величины.

Пусть случайная величина Z имеет плотность распределения p(z). Нетрудно проверить, что для любого числа а условная плот­ ность p(z | Z > а) задается равенством

(12.19)

где F(-) — функция распределения Z.

Условное среднее случайной величины Z при условии Z > а

есть

 

Е (Z | Z > а) =

zp(z | Z > a)dz.

Аналогично определяется условная дисперсия V(Z \ Z > а). Можно показать, что если Z ~ ЛГ(т,<т2), то

E(Z | Z > а) = тп+а\(с), V(Z \ Z > а) = <т2(1—у(с)), (12.20)

где

с = (а - тп)/<т, А(с) = t ^ ф " , 7(c) = А(с)(А(с) - с),

а Ф(-) и ф(-) — соответственно функция и плотность стандартного нормального распределения. Заметим, что 7 (c) < 1 при любом с.

338 Гл. 12. Дискретные зависимые переменные и цензурированные выборки

Предположим, что имеется нормальная линейная регрессион­ ная модель (см. п. 3.1)

yt = x't p + et, et ~ N ( 0, а 2),

(12.21)

и пусть выбираются только те наблюдения, для которых yt > а. Тогда согласно (12.20) имеем:

Е(у4

| yt > о) = x't P + <T\(ct),

(12.22)

V(yt

| Vt>a) = <т2(1 - 7 (ct)),

(12.23)

где ct = (а —x't (3)/a. Найдем предельный эффект объясняющих факторов. Дифференцируя (12.22), опуская нижний индекс t и пользуясь легко проверяемым равенством ф'(и) = —иф(и), полу­ чаем:

дЕ{у | у > а)

d \ дс

(12.24)

дх

= (3 + <Tt e d i = 0 (1 -7(c)).

Поскольку 0 < 7 (c) < 1 при любом с, то предельный эффект каждого фактора меньше соответствующего коэффициента.

Бели для урезанной выборки записать регрессионное уравне­

ние

Vt = x'i/Э + щ,

(12.25)

то в силу (12.22) ошибка щ имеет среднее значение <rA(ct) и дис­ персию (12.23). Это означает, что, применяя к модели метод наи­ меньших квадратов, мы будем получать смещенные и несостоя­ тельные оценки параметров /3.

Как и раньше, для построения состоятельных оценок можно воспользоваться методом максимального правдоподобия. Соглас­ но (12.19) плотность распределения случайной величины yt в уре­ занной выборке есть

1 ф((у Xi0)/a)

а 1 -Ф((а-х[(3)/<т)'

12.2. Модели с урезанными и цензурированными выборками

339

откуда следует, что логарифмическая функция правдоподобия за­ дается равенством

1 = -^(Ь(2тг) + 1п<т2) -

- x't 0)2

(12.26)

Проделав необходимые вычисления, можио показать, что (вектор­ ное) уравнение правдоподобия выглядит так:

т_

y t - x ' t P

A(ct)\

Л

 

(12.27)

д(3

------------ ) х , = 0,

 

 

 

 

 

 

 

Э1

__L

. ( y t ~ x tP)2 _ ctA(ct)~

= 0,

(12.28)

да2

2а2

 

2а4

Ча2

 

 

где, как и ранее,

 

 

 

 

 

 

a - x ' t P

 

</>(<%)

 

 

 

<к =

_

1 А ( с е ) =

1 - Ф (с 4)'

 

Исследование достаточности условий (12.27), (12.28) для макси­ мизации функции правдоподобия (12.26) является весьма слож­ ной задачей и выходит за рамки нашей книги.

Совершенно аналогично можно рассматривать модели, в ко­ торых урезание происходит с помощью условий yt < а или а < Vt < Ь.

Метод максимального правдоподобия для оценивания моде­ лей с урезанными выборками реализован во многих современных эконометрических компьютерных пакетах.

Цензурированные выборки. Tobit-модель

Начало систематическому изучению в эконометрике моделей с цензурированными выборками положила работа Дж . Тобина (To­ bin, 1958), в которой исследовались расходы семей на автомоби­ ли. Для некоторых семей эти расходы равнялись нулю (отказ от

340 Гл. 12. Дискретные зависимые переменные и цензурированные выборки

покупки). Дж. Тобин заметил, что если в такой ситуации осуще­ ствить регрессию логарифма расходов на логарифм доходов, то оценка эластичности спроса на автомобили по доходам окажется смещенной и несостоятельной, и предложил методы состоятель­ ного оценивания. Суть моделей с цензурированием состоит в том, что для части наблюдений известно не «истинное» значение зави­ симой переменной, а ее усеченное значение, определяемое уровнем цензурирования.

Модель с цензурированием может быть получена с помощью небольшой модификации модели (12.4), (12.5). Пусть ненаблюда­ емая величина у* удовлетворяет регрессионному уравнению

Vt =x't (3 + £t,

(12.29)

а наблюдается величина

 

 

у4*,

если у? > О,

(12.30)

{О,

если yt* < 0.

 

Модель (12.29), (12.30) называют tobit-моделью, соединяя в ее на­ звании имя Tobin и термины probit, logit.

Найдем Б(у(), предполагая, что ошибка et в (12.29) имеег нормальиое распределение с нулевым средним и дисперсией о2. Имеем:

Е М = Е(у, I у; < 0)Р(у? 0 ) + E(yt I уГ > 0)P(yt* > 0)

= 0 • Р(у* ^ о) + Р(«ч > —®'t/3)(x't /3 + E(et I et > - x [ /3))

= Ф

/3 + оф

,

(12.31)

что в общем случае не равно х[ (3. В последнем равенстве мы вос­ пользовались первым равенством из (12.20). Если теперь провести регрессию у на х

yt = x't 0 + щ,

то метод наименьших квадратов даст смещенные и несостоятель­ ные оценки параметров /3, так как E(ut) Ф 0 в силу (12.31), откуда следует смещенность и несостоятельность МНК-оценок (п. 3.2).