Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Эконометрика-методичка для заочников.doc
Скачиваний:
76
Добавлен:
18.11.2019
Размер:
5.91 Mб
Скачать

3.3. Мультиколлинеарность

Мультиколлинеарность – это статистический термин для обозначения проблемы, которая является типичной в техническом анализе. Проблема заключается в том, что бессознательно используется один и тот же тип информации много раз. Технические аналитики должны быть осторожны, и не использовать технические индикаторы, которые отражают один и тот же тип информации.

Вопрос мультиколлинеарности является серьезной проблемой в техническом анализе, когда ваши деньги находятся под угрозой. Это действительно проблема, потому что коллинеарные переменные вносят избыточную информацию и могут заставить другие переменные, казаться менее важными, чем они есть на самом деле. Одна из реальных проблем заключается в том, что иногда мультиколлинеарность трудно определить.

Мультиколлинеарность в строгом смысле (или полная Мультиколлинеарность) определяется условием нарушения одного из требований КЛММР, а именно, требования к рангу матрицы X: говорят, что объясняющие переменные модели (х(1) , х(2) ,... ,x(p)) характеризуются свойством полной мультиколлинеарности, если ранг матрицы их наблюденных значений меньше (р+1). При нарушении этого условия между анализируемыми объясняющими переменными существует линейная функциональная связь (т. е. значения по меньшей мере одной из них могут быть выражены в виде линейной комбинации наблюденных значений остальных переменных), а матрица XTX оказывается вырожденной, т.е. ее определитель равен нулю (а значит не существует обратная матрица (ХТХ)-1 участвующая в основных соотношениях метода наименьших квадратов). В практике статистических исследований полная мультиколлинеарность встречается достаточно редко, так как ее несложно избежать уже на предварительной стадии анализа и отбора множества объясняющих переменных.

Реальная (или частичная) мультиколлинеарность возникает в случаях существования достаточно тесных линейных статистических связей между объясняющими переменными. Точных количественных критериев для определения наличия/отсутствия реальной мультиколлинеарности не существует. Тем не менее, существуют некоторые эвристические рекомендации по выявлению мультиколлинеарности.

1) В первую очередь анализируют матрицу R парных коэффициентов корреляции, точнее, ту ее часть, которая относится к объясняющим переменным. Считается, что наличие значений коэффициентов корреляции, по абсолютной величине превосходящих 0,75-0,80, свидетельствует о присутствии мультиколлинеарности.

2) Существование тесных линейных статистических связей между объясняющими переменными приводит к так называемой слабой обусловленности матрицы XTX, т. е. к близости к нулю ее определителя. Поэтому, если значение det (XTX) оказывается близким к нулю (скажем, одного порядка с накапливающимися ошибками вычислений), то это тоже свидетельствует о наличии мультиколлинеарности.

3) Важную роль в анализе мультиколлинеарности играет и минимальное собственное число lmin матрицы XTX. Это объясняется двумя обстоятельствами. Во-первых, из близости к нулю lmin следует близость к нулю величины det(XTX), и наоборот. Во-вторых, можно показать, что среднеквадратическая ошибка оценки j.MHK обратно пропорциональна величине lmin. Поэтому, наряду с величиной det (XTX) (или вместо нее), вычисляют и сравнивают с накапливающимися ошибками от округлений значение lmin, т.е. минимальный корень уравнения

4) Анализ корреляционной матрицы R позволяет лишь в первом приближении (и относительно поверхностно) судить о наличии/отсутствии мультиколлинеарности. Более внимательное изучение этого вопроса достигается с помощью расчета значений коэффициентов детерминации 2x(j).X(j) каждой из объясняющих переменных х(j) по всем остальным предикторам X(j) – (1) , х(j-1), x(j+1) ,...,x(p))T . Это объясняется, в частности, тем, что среднеквадратические ошибки sj оценок jHK связаны с величиной R2x(j).X(j) соотношением s2j=s2/n(1– R2x(j).X(j)).

5) Наконец, о присутствии явления мультиколлинеарности сигнализируют некоторые внешние признаки построенной модели, являющиеся его следствиями.

Влияние мультиколлинеарности на R2

Чем меньше разброс значений остатков около линии регрессии по отношению к общему разбросу значений, тем, очевидно, лучше прогноз. Например, если связь между переменными X и Y отсутствует, то отношение остаточной изменчивости переменной Y к исходной дисперсии равно 1.0. Если X и Y жестко связаны, то остаточная изменчивость отсутствует, и отношение дисперсий будет равно 0.0. В большинстве случаев отношение будет лежать где-то между этими экстремальными значениями, т.е. между 0.0 и 1.0. 1.0 минус это отношение называется R-квадратом или коэффициентом детерминации. Это значение непосредственно интерпретируется следующим образом. Если имеется R-квадрат равный 0.4, то изменчивость значений переменной Y около линии регрессии составляет 1-0.4 от исходной дисперсии; другими словами, 40% от исходной изменчивости могут быть объяснены, а 60% остаточной изменчивости остаются необъясненными. В идеале желательно иметь объяснение если не для всей, то хотя бы для большей части исходной изменчивости. Значение R-квадрата является индикатором степени подгонки модели к данным (значение R-квадрата близкое к 1.0 показывает, что модель объясняет почти всю изменчивость соответствующих переменных).

Проблема мультиколлинеарности является общей для многих методов корреляционного анализа. Представим, что имеется два предиктора (переменные X) для роста субъекта: (1) вес в фунтах и (2) вес в унциях. Очевидно, что иметь оба предиктора совершенно излишне; вес является одной и той же переменной, измеряется он в фунтах или унциях. Попытка определить, какая из двух мер является лучшим предиктором, выглядит довольно глупо; однако, в точности это происходит при попытке выполнить множественный регрессионный анализ с ростом в качестве зависимой переменной (Y) и двумя мерами веса, как независимыми переменными (X). Если в анализ включено много переменных, то часто не сразу очевидно существование этой проблемы, и она может возникнуть только после того, как некоторые переменные будут уже включены в регрессионное уравнение. Тем не менее, если такая проблема возникает, это означает, что, по крайней мере, одна из независимых переменных (предикторов) является совершенно лишней при наличии остальных предикторов. Существует довольно много статистических индикаторов избыточности (толерантность, получастное R и др.), а также немало средств для борьбы с избыточностью.