Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
5502.pdf
Скачиваний:
10
Добавлен:
13.11.2022
Размер:
1.63 Mб
Скачать

2

Министерство образования и науки Российской Федерации

Федеральное агентство по образованию Государственное образовательное учреждение высшего

профессионального образования

«Хабаровская государственная академия экономики и права»

П.Я. Бушин

Эконометрика

Рекомендовано Дальневосточным региональным учебно-методическим центром (ДВ РУМЦ) в качестве учебного пособия

для студентов экономических специальностей вузов региона

Хабаровск 2005

3

ББК В Б 94

Бушин П. Я. Эконометрика. Практикум по решению и анализу задач : учеб. пособ. – Хабаровск : РИЦ ХГАЭП, 2005. – 88 с.

Содержание учебного пособия соответствует государственному образовательному стандарту дисциплины «Эконометрика».

В учебном пособии рассмотрены корреляционно-регрессионный анализ и особенности его использования при нарушении предпосылок метода наименьших квадратов. Кроме того, рассмотрены методы анализа и прогнозирования стационарных и нестационарных временных рядов и оценивание параметров совместных систем эконометрических уравнений. По всем рассматриваемым разделам приведены задачи, решенные с использованием того или иного статистического пакета прикладных программ (ППП), но основное внимание уделяется анализу полученных результатов с точки зрения выполнения необходимых условий для решения задачи и интерпретации полученных решений.

Предполагается, что все предлагаемые к решению задачи могут быть решены с помощью стандартных статистических ППП и в пособии они решены с помощью тех или иных ППП, например, таких, как Statgraphics Plus, STATISTICA, MINITAB. Выбор того или иного ППП для решения конкретных задач обосновывается только наличием в нем необходимых статистических процедур и удобством отражения результатов.

В конце каждой главы рассмотрены примеры решения и анализа задач по рассматриваемой в главе теме и приведены задания для выполнения самостоятельной. Предполагается, что читатель может и не иметь в своем распоряжении необходимого программного обеспечения, поэтому часть заданий для самостоятельной работы приведены с уже готовыми результатами их решения в виде отчетов на основе того или иного статистического ППП. Читателю остается только проанализировать эти отчеты и сделать соответствующие выводы. Подобранные примеры к тому же помогут определиться читателю в круге задач, решаемых на основе эконометрических методов.

Пособие предназначено для студентов экономических специальностей всех форм обучения, кроме того, оно может быть полезным и специалистам, принимающим участие в выработке управленческих решений на основе статистических методов.

Рецензенты: В. А. Кузнецов, зав. каф. математических методов и информационных технологий ДВАГС, канд.физ.-мат.наук., доцент и С. А. Ланец, канд. физ. - мат. наук., с. н. с. ИЭИ ДВО РАН

Бушин П. Я., 2005.

Хабаровская государственная академия экономики и права, 2005

Введение

4

Работа современного экономиста невозможна без постоянного совершенствования в области экономических знаний, без чтения современной экономической литературы, без обсуждения проблем экономики на различных уровнях принятия решений. А это, в свою очередь, невозможно без применения современных методов работы, знания достижений мировой экономической мысли, понимания научного языка.

Общепринято, что фундаментом современного экономического образования являются макроэкономика, микроэкономика и эконометрика. Без знаний этих дисциплин невозможно ни исследование и теоретическое обобщение эмпирических зависимостей в экономической практике, ни построение моделей прогноза экономических явлений. А центральной проблемой эконометрики является построение эконометрических моделей и определение возможностей их использования для описания, анализа и прогнозирования конкретных экономических явлений и процессов.

Эконометрика – это наука, разрабатывающая методы количественного анализа качественных взаимосвязей в социально-экономических процессах и явлениях с помощью математических и статистических методов и моделей.

Переход высшего экономического образования в России на мировые стандарты вызвал необходимость включения этой дисциплины в учебные планы обучения будущих специалистов в области экономики и менеджмента.

Изучение курса эконометрики основывается на знаниях в области высшей математики, теории вероятностей и математической статистики, а также экономической теории в объеме программы высшей школы для экономистов.

Настоящее учебное пособие соответствует государственным образовательным стандартам по экономическим дисциплинам.

Основное внимание в пособии уделено проблемам использования экономикостатистических методов для решения конкретных задач из различных областей социально-экономического анализа.

Основные эконометрические методы рассмотрены сначала на примерах простой (парной) регрессии, а затем эти методы распространены на случай множественного корреляционно-регрессионного анализа.

Кроме того, в учебном пособии рассмотрены вопросы анализа временных рядов и анализа систем одновременных эконометрических уравнений.

Все рассмотренные методы проиллюстрированы на разнообразных примерах, в которых подробно рассмотрены методы решения тех или иных проблем, возникающих при использовании эконометрических методов.

Глава 1. Парная линейная регрессия и корреляция

5

Значения социально-экономических показателей формируются под влиянием многих факторов, главных и второстепенных, взаимосвязанных между собой и действующих нередко в разных направлениях, в том числе и под влиянием ошибок наблюдений. Поэтому, кроме локального изучения таких показателей (их уровней, характера изменчивости, распределения и т.д.), важной задачей при выработке решений является изучение связей между различными показателями.

Важнейшими методами изучения таких взаимосвязей в эконометрике является корреляционный и регрессионный анализы.

Корреляционным анализом называется совокупность статистических приемов, с помощью которых исследуются и обобщаются взаимосвязи корреляционно связанных величин. В отличие от естественных наук, где взаимосвязи в основном функциональные, в социально-экономическом анализе взаимосвязи проявляются лишь в общем и среднем, при рассмотрении совокупности явлений в целом, а не отдельных

ееэлементов, а потому изучаются и анализируются на основе статистических методов. Как известно, функциональная зависимость между двумя переменными означает,

что каждому значению одной переменной соответствует вполне определенное значение другой. Статистическая зависимость заключается в изменении вида распределения значений одной величины при изменении значений другой. Если зависимость между двумя величинами такова, что каждому значению одной из них соответствует определенное среднее значение другой, то такая зависимость называется

корреляционной.

Корреляционная зависимость между двумя переменными – это функциональная зависимость между одной переменной и ожидаемым (условным средним) значением другой. Уравнение такой зависимости между двумя переменными называется уравнением регрессии. В случае если переменных две (одна зависимая и одна независимая), то регрессия называется простой, а если их более двух, то множественная. Если зависимость между переменными линейная, то регрессия называется линейной, в противном случае – нелинейной.

Рассмотрим подробно простую линейную регрессию. Модель такой зависимости может быть представлена в виде:

y = α + βx + ε,

(1.1)

где у – зависимая переменная (результативный признак); х – независимая переменная (факторный признак); α – свободный член уравнения регрессии; β – коэффициент уравнения регрессии;

ε – случайная величина, характеризующая отклонения фактических значений зависимой переменной у от модельных или теоретических значений, рассчитанных по уравнению регрессии.

При этом предполагается, что объясняющая переменная х – величина неслучайная, а y – случайная.

1.1. Обычный метод наименьших квадратов (МНК) и его предпосылки

Параметры модели регрессии α и β оцениваются на основе выборочных данных. На основе этих же выборочных данных оценивается дисперсия ε. Одним из методов получения этих оценок является обычный метод наименьших квадратов (МНК). Суть

МНК состоит в минимизации суммы квадратов отклонений фактических значений

~

зависимой переменной у от их условных математических ожиданий y , определяемых

по уравнению регрессии: ~ = α + βx (здесь математическое ожидание y обозначено y

~

через y ).

6

Итак, пусть для оценки параметров модели (1.1) организована выборка, содержащая

n пар значений переменных (xi,yi), где i принимает значения от 1 до n (i=1, n ). Тогда реализация МНК приведет к минимизации функции Q:

Q = ( y

i

yˆ

i

)2

=

( y (

x ))2 .

 

 

 

 

i

i

i

 

 

 

 

 

i

 

Приравнивая частные производные функции Q по α и β к нулю получим систему нормальных уравнений для вычисления оценок параметров α и β. Обозначим эти оценки соответственно через а и b.

Приведем один из вариантов формул для вычисления таких оценок:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a =

 

– b

 

, b =

 

xy

 

x y

.

(1.2)

y

x

 

 

 

 

 

 

 

 

 

sx

2

 

 

 

 

 

Известно также, что несмещенной оценкой дисперсии случайных отклонений является остаточная дисперсия, вычисляемая из соотношения

S 2

 

( y

yˆ)2

=

 

 

.

 

 

ст

 

n

2

 

 

 

 

Итак, оцененная модель линейной парной регрессии имеет вид:

y = a + bx + e,

(1.3)

где е – отклонения фактических значений зависимой переменной у от расчетных yˆ . Последние рассчитываются из соотношения yˆ = a + bx.

Различие между ε и е состоит в том, что ε – это случайная величина и предсказать ее значения не представляется возможным, в то время как е – это оцененные по выборке значения отклонений (е = у yˆ ), и эти отклонения можно считать случайной

выборкой из совокупности значений остатков регрессии и анализировать с использованием статистических методов.

Как было отмечено, МНК определяет оценки коэффициентов уравнения регрессии на основе минимизации суммы квадратов отклонений или остатков ε, поэтому важно знать их свойства. Для получения «хороших» МНК-оценок необходимо, чтобы выполнялись следующие основные предпосылки МНК, а следовательно, и регрессионного анализа.

1.В модели (1.1) остатки ε (в том числе и зависимая переменная y) являются случайными величинами, а независимая переменная x – величина неслучайная.

2.Математическое ожидание ε равно нулю, т.е. М(ε) = 0.

3.Остатки гомоскедастичны, что означает постоянство их дисперсии,

(независимость дисперсии от номера значений переменной х), т. е. D(ε) = D(y) = 2.

4.Значения ε не зависят друг от друга или, говорят, что в остатках должна отсутствовать автокорреляция.

5.Остатки подчиняются нормальному закону распределения.

Для получения несмещенных, эффективных и состоятельных оценок параметров уравнения регрессии достаточно выполнения предпосылок 1 – 4. Предпосылка о неслучайности (детерминированности) независимой переменной влечет ее независимость (некоррелированность) с остатками. Пятая предпосылка необходима для правомерности использования оценок точности уравнения регрессии и его параметров.

В дальнейшем уравнение yˆ = a + bx будем называть выборочным уравнением

регрессии или просто уравнением регрессии, а его коэффициенты, соответственно, свободным членом и коэффициентом уравнения регрессии.

Свободный член уравнения регрессии обычно не интерпретируется. Можно интерпретировать лишь его знак. Так, если а < 0, а х и у положительны, то

7

относительное изменение зависимой переменной y происходит более интенсивно, чем относительное изменение независимой переменной x, и наоборот.

Коэффициент регрессии (b) показывает, на сколько в среднем изменится зависимая переменная (в своих единицах измерения) при изменении независимой переменной на единицу своего измерения.

При этом необходимо иметь в виду, что рассматриваемые коэффициенты являются

~

оценками параметров уравнения регрессии y = α + βx со всеми вытекающими отсюда

последствиями, в том числе и необходимостью получения оценок точности уравнения регрессии и его параметров.

Рассмотрим некоторые из них.

1.2. Оценки точности уравнения регрессии и его параметров

1.2.1. Стандартная ошибка оценки по регрессии

Обозначается как Sy,x и вычисляется по формуле

Sy,x =

( y

yˆ)2

.

n

2

 

 

Стандартная ошибка оценки по регрессии показывает, на сколько в среднем мы ошибаемся, оценивая значение зависимой переменной по найденному уравнению регрессии при фиксированном значении независимой переменной.

Квадрат стандартной ошибки по регрессии является несмещенной оценкой дисперсии 2, т.е.

ˆ 2 = S 2

 

( y

yˆ)2

=

 

 

.

 

 

y , x

 

n

2

 

 

 

 

Дисперсия ошибок характеризует воздействие в модели (1.1) неучтенных факторов и ошибок.

1.2.2. Оценка значимости уравнения регрессии (дисперсионный анализ регрессии)

Для оценки значимости уравнения регрессии устанавливают, соответствует ли выбранная модель анализируемым данным. Для этого используется дисперсионный анализ регрессии. Основная его посылка – это разложение общей суммы квадратов

отклонений

( y

 

)2 на составляющие. Известно, что такое разложение имеет вид

y

 

 

 

( y

 

)2 = ( yˆ y)2 + ( y yˆ)2 .

 

 

 

y

Второе слагаемое в правой части разложения – это часть общей суммы квадратов отклонений, объясняемая действием случайных и неучтенных факторов. Первое слагаемое этого разложения – это часть общей суммы квадратов отклонений, объясняемая регрессионной зависимостью. Следовательно, если регрессионная зависимость между у и х отсутствует, то общая сумма квадратов отклонений

объясняется

действием только случайных факторов

 

или

ошибок, т.е.

( y

 

)2 =

( y yˆ)2 . В случае функциональной зависимости между у и х действие

y

случайных факторов и ошибок отсутствует и тогда

( y

 

)2 =

( yˆ y)2 . Будучи

y

отнесенными к соответствующему числу степеней свободы, эти суммы называются

средними квадратами отклонений и служат оценками дисперсии

2 в

разных

предположениях.

 

 

 

MSE = ( ( y yˆ)2 )/(n–2) – остаточная дисперсия, которая является оценкой

2 в

предположении отсутствия регрессионной зависимости, а MSR = (

( yˆ

y)2

)/1 –

аналогичная оценка без этого предположения. Следовательно, если регрессионная зависимость отсутствует, то эти оценки должны быть близкими. Сравниваются они на основе критерия Фишера: F = MSR/ MSE.

Sb),

8

Расчетное значение этого критерия сравнивается с критическим значением F(с числом степеней свободы числителя, равным 1, числом степеней свободы знаменателя, равным n–2, и фиксированным уровнем значимости ). Если F < F, то гипотеза о не

значимости уравнения регрессии не отклоняется, т. е. признается, что уравнение регрессии незначимо. В этом случае надо либо изменить вид зависимости, либо пересмотреть набор исходных данных.

При компьютерных расчетах оценка значимости уравнения регрессии осуществляется на основе дисперсионного анализа регрессии в таблицах вида:

 

 

 

 

Таблица 1.1

 

 

Дисперсионный анализ регрессии

 

 

Источник

Суммы

Степени

Средние

F-отношение

p-value

вариации

квадратов

свободы

квадраты

 

 

Модель

SSR

1

MSR

MSR/ MSE

Уровень

Ошибки

SSE

n–2

MSE

 

значимости

общая

SST

n–1

 

 

 

Здесь p-value – это вероятность выполнения неравенства F< F , т. е. того, что

расчетное значение F-статистики попало в область принятия гипотезы. Если эта вероятность мала (меньше ), то нулевая гипотеза отклоняется.

1.2.3. Интервальные оценки параметров уравнения регрессии

При использовании параметров уравнения регрессии в анализе и прогнозировании для них необходимо уметь строить интервальные оценки.

Доверительный интервал для коэффициента регрессии определяется как (b t / 2 где Sb – стандартная ошибка оценки коэффициента регрессии. Известно, что

Sb=

 

Sy, x

 

 

 

.

 

 

 

 

 

(x

 

 

 

 

)2

 

 

 

 

x

Доверительный интервал для свободного члена уравнения регрессии определяется как (а t / 2 Sа), где Sа – стандартная ошибка оценки свободного члена уравнения регрессии. Известно, что

 

 

 

 

 

 

Sy2, x

 

x2

 

 

 

 

 

 

 

 

Sа=

 

 

 

 

 

 

.

 

 

 

 

 

 

 

 

n

(x

 

 

)2

 

 

 

 

 

 

 

 

 

x

 

 

 

 

Интервальная

оценка

расчетных

значений

yˆ

или, по-другому, доверительная

область линии регрессии определяется доверительной областью:

yˆ t / 2 Syˆ

,

где Syˆ

стандартная ошибка,

характеризующая положение линии

 

[

 

[

 

 

 

 

 

 

 

 

 

 

 

 

регрессии и определяемая из соотношения

 

 

 

 

 

 

 

 

 

 

 

 

 

S 2 yˆ[ =S2 (

1

 

 

(x

 

x)2

 

).

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

n

 

 

 

(x

 

 

 

 

 

 

 

 

 

 

x)

 

 

Интервальная оценка прогнозных значений определяется из подобного же соотношения, только в стандартную ошибку добавляется еще стандартное отклонение, характеризующее рассеяние прогнозных значений зависимой переменной вокруг линии регрессии.

1.2.4. Проверка значимости параметров уравнения регрессии

Кроме проверки значимости уравнения регрессии в целом, необходимо уметь проверять значимость каждого параметра уравнения регрессии в отдельности. Осуществляется это на основе соответствующих t-статистик. Значения этих t-статистик рассчитываются из соотношений ta= a/Sa, tb= b/Sb. Для этих статистик определяются

9

критические значения или расчетные уровни значимости (p-value), на основе которых и принимаются решения о значимости или незначимости соответствующих оценок.

В случае парной линейной регрессии проверка значимости уравнения регрессии в целом и проверка значимости коэффициента уравнения регрессии, по сути дела, одно и то же, т. к. в том и другом случае проверяется одна и та же гипотеза о том, что коэффициент уравнения регрессии равен нулю. Кроме того, можно показать, что для

парной линейной регрессии F = tb2 .

Уравнение простой регрессии в компьютерных расчетах обычно выдается в виде следующей таблицы.

 

 

 

Таблица 1.2

Парамет

Оце

Ст.

t-

р-

 

р

нка

ошибка

статистика

value

 

Пересече

а

Sa

ta=a/Sa

 

 

ние

 

 

 

 

 

Наклон

b

Sb

tb =b/Sb

 

 

Пересечение и наклон – это другое название свободного члена уравнения регрессии и его коэффициента, основанное на геометрическом смысле этих величин, если рассматривать уравнение регрессии как уравнение прямой линии или линии регрессии. Смысл остальных столбцов понятен из их названия.

Кроме уже рассмотренных показателей точности уравнения регрессии, обычно еще используются такие, как коэффициент корреляции и коэффициент детерминации. Рассмотрим их.

1.2.5. Коэффициент парной линейной корреляции или коэффициент корреляции Пирсона служит мерой тесноты линейной корреляционной связи двух случайных величин. Для случайных величин x и y выборочный коэффициент корреляции определяется из соотношения

 

 

 

 

 

 

 

 

 

 

 

 

 

 

rxy

 

(x x)(y

 

y)

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(x x)2

(y y)2

 

 

 

 

где x и y – выборочные средние для значений переменных x и y, а суммирование

ведется по всем элементам выборки. В дальнейшем слово «выборочные» для простоты изложения будем опускать.

Другие формы записи для коэффициента парной корреляции:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

cov(x, y)

 

Sx. y

 

r

 

 

 

 

 

xy

 

 

x

 

y

 

 

 

=

=

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xy

x

2

 

(x)

2

 

y

2

 

 

( y)

2

 

 

sx sy

 

sx sy

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где xy – среднее значение произведений случайных величин x и y;

x2 и y2 – соответственно, среднее квадратов значений величин x и y; s x и s y – соответственно, стандартные отклонения переменных x и y;

Sx,y = cov(x,y) – коэффициент ковариации или просто ковариация переменных x и y. Известно, что –1 rxy 1.

При rxy > 0 имеем прямую корреляционную связь, т. е. с ростом значения одной

переменной растет среднее значение другой, а при rxy < 0 – обратную –

с ростом

значения одной переменной среднее значение другой убывает. Если rxy =

0, то это

означает отсутствие линейной корреляционной связи, а если rxy =

1, то это означает

наличие между переменными линейной, функциональной связи

вида y = a + bx

(прямой – в случае rxy = +1 и обратной – в случае rxy = –1).

10

Как видно из приведенных формул, связь между коэффициентами уравнения регрессии и корреляции следующая:

rxy = b·sx /sy.

Оценивая значение коэффициента корреляции по выборочным данным, мы должны указывать надежность такой оценки. Обычно это осуществляется с помощью проверки различных гипотез о параметрах генеральной совокупности. Например, гипотезу о

равенстве нулю коэффициента корреляции (Ho : xy 0 ) проверяют

на

основе t-

 

 

 

 

 

 

 

 

 

статистики, вычисляемой на основе выборочных данных по формуле

tr

r n

2

.

 

 

 

 

 

 

 

 

 

 

 

1

r2

Известно, что эта случайная величина при верности нулевой гипотезы следует распределению Стьюдента с n–2 степенями свободы.

Как уже отмечалось, в случае простой регрессии проверка значимости уравнения регрессии в целом и проверка значимости коэффициента уравнения регрессии равнозначны. Аналогично, проверка значимости коэффициента уравнения регрессии и проверка значимости коэффициента корреляции – одно и то же, т. к. можно показать,

что tb2 tr2 F . Следовательно, в случае простой регрессии проверка гипотезы о

значимости коэффициента регрессии и коэффициента корреляции равносильна проверке гипотезы о значимости уравнения регрессии в целом.

При компьютерных расчетах вместе с оценками коэффициентов корреляции рассчитываются обычно и выборочные уровни значимости статистик Стьюдента (p- value). Если расчетное значение уровня значимости или р-величина для коэффициента корреляции окажется больше фиксированного уровня значимости, то нулевая гипотеза о равенстве нулю коэффициента корреляции не отклоняется, и в этом случае говорят, что отличие коэффициента корреляции от нуля незначимо и, следовательно, линейная корреляционная связь между соответствующими переменными отсутствует. В противном случае говорят, что коэффициент корреляции значимо отличен от нуля, что означает наличие линейной корреляционной связи между соответствующими переменными.

Для качественной интерпретации значений коэффициентов парной линейной корреляции (в случае их значимого отличия от нуля) используют шкалу Чеддока:

Величина коэфф.

0,1–0,3

0,3–0,5

0,5–0,7

0,7–0,9

0,9–0,99

Характеристика

слабая

Умерен

заметная

высокая

весьма

силы связи

 

ная

 

 

высокая

1.2.6. Коэффициент детерминации является удобной оценкой точности уравнения регрессии. Выясним его смысл. Коэффициент детерминации определяется из

соотношения

 

 

 

 

 

 

 

R2 = 1–

SSE

=

1

SSE

=

SSR

.

 

 

 

 

 

SST

 

 

SST

 

SST

Отсюда следует, что коэффициент детерминации характеризует долю вариации зависимой переменной, обусловленную вариацией независимой переменной. Обычно он выражается в процентах, поэтому, например, если R2 = 75 %, то это значит, что 75 % вариации зависимой переменной у объясняется вариацией независимой переменной х, а остальные 25 % изменения у объясняются либо ошибками наблюдений, либо действием неучтенных факторов, либо тем и другим.

Можно показать, что в случае парной линейной регрессии коэффициент детерминации равен квадрату коэффициента корреляции, т.е. R2 = r2.

1.2.7. Коэффициент ранговой корреляции Спирмена

11

Как известно, вычисление коэффициента линейной корреляции Пирсона осуществляется в предположении действия нормального закона распределения. При этом используются точные количественные значения переменных. В случае, если закон распределения неизвестен или известно, что он отличен от нормального (в том числе и для нелинейных зависимостей), а также для данных, измеренных в ранговой шкале, для определения тесноты связи между изучаемыми переменными рекомендуется использовать ранговую корреляцию. Теснота ранговой корреляции измеряется с помощью коэффициента ранговой корреляции Спирмена (rs).

Вычисляется такой коэффициент из соотношения

6

d 2

 

rs = 1 –

 

i

,

n(n 2

1)

где di = xi – yi, а xi и yi – ранги наблюдений.

Коэффициент ранговой корреляции Спирмена имеет те же свойства, что и коэффициент парной корреляции Пирсона, но он устойчив по отношению к неравномерности информации. С его помощью можно изучать взаимосвязь не только между значениями переменных, но и между их рангами. Например, зависимость между сортностью продукции, ее сроком службы и производственными затратами. Для этого элементы изучаемой совокупности располагаются в определенном порядке и каждому элементу упорядоченного ряда присваивают ранг или номер и затем изучается теснота связи между рангами.

Как и коэффициент парной корреляции Пирсона, коэффициент ранговой корреляции rs 1. Если rs = 1, то это означает, что каждый элемент последовательности рангов занимает одно и то же место в обоих рядах и мы имеем полную положительную корреляцию рангов. В случае, когда rs = –1, элементы двух последовательностей расположены в обратном порядке и между рангами наблюдается полная рассогласованность. Если rs = 0, имеем полное отсутствие корреляции между рангами.

Значимость коэффициента ранговой корреляции Спирмена определяется по

 

z = rs/s r

 

 

 

 

 

 

 

статистике

s

= rs n 1 . Расчетное значение

статистики

z сравнивается

с

 

 

 

 

 

 

 

 

табличным z

/2 (при фиксированном уровне значимости

), и, если,

например, z z

/2,

делаем вывод о том, что коэффициент корреляции не равен нулю. При компьютерных расчетах с помощью статистических ППП, как и в случае коэффициента корреляции Пирсона, для определения значимости rs достаточно воспользоваться р-величиной.

Коэффициент ранговой корреляции используется также в случаях, когда изучаются взаимосвязи между явлениями, которые не поддаются количественной оценке. К подобным исследованиям, например, относится изучение взаимосвязей между такими переменными, как интегральный показатель эффективности функционирования социально-экономической системы (специалиста, предприятия, научнопроизводственного объединения и т. п.), качество (мера оптимальности) структуры потребительского бюджета семьи, степень прогрессивности предполагаемого проекта решения социально-экономической, технической или другой проблемы и т.п. В этих случаях каждому объекту ставится в соответствие некоторая условная числовая метка, обозначающая место этого объекта в ряду из всех анализируемых объектов, упорядоченных по убыванию степени проявления в них изучаемого свойства. Такие

переменные называются порядковыми или ранговыми и

используются для

ранжирования (сравнительной оценки) рассматриваемых объектов.

 

Кроме того, порядковые переменные используются в социологических исследованиях при составлении анкет и их обработке.

12

В заключение отметим, что в отличие от коэффициента корреляции Пирсона ранговый коэффициент корреляции Спирмена не чувствителен к асимметрии и выбросам.

Пример. Анализ функции потребления

Рассмотрим условный пример, в котором необходимо проанализировать зависимость расходов от доходов, используя простую регрессию и корреляцию, а также спрогнозировать расходы семей, чьи доходы равны соответственно: 4, 6, 8 и 9,5.

Пусть имеются данные о доходах (х) и расходах (у) у 21 семьи за определенный

промежуток времени:

 

 

 

 

 

 

 

 

 

 

 

Таблица исходных данных для примера

 

 

Таблица 1.3

х

4,2

2,9

 

7,1

4,9

6,4

2,1

 

3,5

7,5

5,0

2,4

у

4,3

3,6

 

6,0

4,6

7,1

2,3

 

3,9

9,1

5,1

3,6

7,9

4,9

2,5

 

6,1

3,2

9,2

4,2

 

5,5

3,6

5,2

8,5

8,2

4,7

4,0

 

6,0

4,2

7,5

5,2

 

5,6

4,4

5,0

10,5

Просчитаем уравнение парной линейной регрессии, используя ППП Statgraphics Plus со всеми показателями точности уравнения регрессии, приняв за зависимую переменную расходы семьи, а за независимую – доходы. Отчет о регрессии приведен ниже (см. рис.1).

Рис. 1. Отчет о регрессии на основе ППП Statgraphics Plus 5.1 Итак, уравнение регрессии имеет вид: yˆ = 1,19 + 0,85 х.

Здесь – Intercept (пересечение) = 1,19, Slope (наклон) = 0,85 (эти значения взяты из столбца Estimate – оценка).

При этом статистика Фишера F = 87 (см. на рис. 1 таблицу дисперсионного анализа (Analysis of Variance)), а расчетный уровень ее значимости равен нулю (p-Value = 0,0). Это означает, что уравнение регрессии значимо.

Как уже отмечалось, проверка значимости коэффициента парной регрессии аналогична проверке значимости уравнения регрессии в целом и статистика Стьюдента

13

для этой проверки равна корню квадратному из статистики Фишера (или t2 = F), что легко проверить (9,332 = 87,05) (небольшое расхождение за счет округления).

Итак, коэффициент регрессии значимо отличен от нуля. Известно, что подобного рода зависимость расходов от доходов в эконометрике называется функцией потребления. Коэффициент регрессии в этом случае показывает, на сколько изменится расход при дополнительном увеличении дохода на 1 тыс. рублей, и характеризует склонность к потреблению. В нашем примере из каждой тысячи рублей дохода на потребление расходуется 850 руб., а 150 руб. откладывается на будущее (инвестируется).

Показатель, характеризующий склонность к потреблению, используется для расчета мультипликатора, который в нашем случае равен 1/(1–b) = 6,67. Это означает, что при дополнительном инвестировании 1 тыс. руб. на отдаленную перспективу, получим дополнительный доход в размере 6,67 тыс. руб. Явно завышенный результат здесь получился потому, что данный показатель (склонность к потреблению) эффективен при подобных расчетах в случае его малости.

Свободный член уравнения регрессии положителен (равен 1,19). Это означает, что в нашем примере расходы изменяются более интенсивно, чем доходы. Это подтверждается и расчетами коэффициентов вариации для этих показателей. Для расходов и доходов они соответственно равны 41 % и 35,5 % (рассчитать самостоятельно, если известно, что х =5,01, y =5,51, Sx=2,1, Sy=1,95).

Коэффициент регрессии используется также при расчете коэффициента средней эластичности, который равен э = (в * х / y ), и показывает, на сколько процентов в

среднем изменится значение зависимой переменной при изменении независимой переменной на 1 %. В нашем случае э = (0,85*5,01/5,51) = 0,77. Это означает, что при изменении доходов на 1 % расходы изменятся в среднем на 0,77 %.

Теснота линейной корреляционной связи между изучаемыми показателями оценивается коэффициентом корреляции, который равен 0,906, и в соответствии со шкалой Чеддока можно сказать, что теснота этой связи весьма высокая.

Рассчитайте статистику Стьюдента для проверки гипотезы о том, что коэффициент корреляции равен нулю, и убедитесь, что в случае парной регрессии она совпадет со статистикой Стьюдента для проверки гипотезы о равенстве нулю коэффициента регрессии, а ее квадрат равен значению критерия Фишера для проверки гипотезы о значимости уравнения регрессии в целом.

Коэффициент детерминации (R-squared) равен 82,1 %, следовательно, в нашем примере изменение расходов на 82,1 % зависит от изменения доходов, а остальные 17,9

%изменения доходов зависят от неучтенных факторов, в том числе и от случайных. Стандартная ошибка оценки по регрессии (Standard Error of Est.) равна 0,85, и это

означает, что, оценивая расходы по известной величине доходов по данному уравнению регрессии, мы в среднем ошибаемся на эту величину.

Приведем графический отчет о полученной регрессии (рис. 2 и рис. 3).

14

Рис. 2. График подобранной линии регрессии (ППП Statgraphics Plus)

Рис. 3 График остатков подобранной линии регрессии (ППП Statgraphics Plus) Расположение линии регрессии среди точек подтверждает правильность выбора

линейной зависимости между изучаемыми показателями. Штриховые линии вокруг линии регрессии показывают доверительную область линии регрессии и прогнозных значений. Приведем прогнозные расчеты расходов семей для указанных в условии примера доходов. Расчеты проведем с помощью процедуры Forecasts, имеющейся среди табличных опций простой регрессии в ППП Statgraphics (рис. 4):

Рис. 4 Окно отчета о прогнозе по уравнению регрессии Кроме точечных прогнозов здесь указаны и интервальные прогнозы для расчетных

и прогнозных значений расходов. Если на рис. 2 провести вертикальные линии через абсциссы с указанными значениями доходов, то каждая из таких линий пересечет график в 5 точках, которые и отражены в отчете на рис. 4. Так, например, если доходы семьи будут равны 6 у. е., то в соответствии с найденным уравнением расходы такой семьи будут равны 6,5755 (точечный прогноз – это точка пересечения линии регрессии с прямой х = 6), а интервальных прогноза два: (5,95;7,28) для расчетного значения расходов и (4,81;8,34) для прогнозных расходов. На рис. 2 эти интервалы получатся при

15

пересечении линии х = 6 с двумя доверительными областями линии регрессии: для самой линии и для прогнозных значений зависимой переменной.

1.3. Спецификация уравнения регрессии

Под спецификацией уравнения регрессии понимают выбор объясняющих переменных и установление вида связи между изучаемыми явлениями. В случае парной регрессии эта задача сводится к выбору независимой переменной и вида связи. Решение этих вопросов должна давать теория, описывающая взаимосвязи изучаемых процессов.

К ошибкам спецификации в случае парной регрессии можно отнести неправильный выбор доминирующего фактора, влияющего на изменение изучаемого показателя, или неправильный выбор вида зависимости между изучаемыми показателями. И в том и в другом случае будут нарушены предпосылки МНК, особенно 3-я и 4-я, т.е. остатки регрессии будут гетероскедастичны и автокоррелированы.

Гетероскедастичность может сказаться на эффективности оценок, полученных на основе МНК и на смещенности оценки их дисперсии. Поэтому интервальные оценки и статистические выводы о значимости оценок в этом случае могут быть ненадежными.

Разработаны специальные статистические методы проверки остатков на гомоскедастичность. Рассмотрим один из них, наиболее просто реализуемый в вычислительном плане и наиболее простой в понимании.

1.3.1. Проверка остатков регрессии на гетероскедастичность (тест Голдфелда

Квандта)

Этот тест применяется в предположении нормально распределенных остатков и в предположении их пропорциональности величинам объясняющей переменной х. Для применения рассматриваемого теста пары наблюдений упорядочиваются в порядке роста значений независимой переменной х. Затем выбираются первые и последние наблюдения в количестве не менее n/3. По выбранным наблюдениям строятся уравнения регрессии (отдельно по каждому набору) и сравниваются их остаточные суммы квадратов. Гипотеза о гомоскедастичности в этом случае будет равносильна гипотезе о том, что остатки в этих уравнениях представляют собой выборочные наблюдения нормально распределенных случайных величин с одинаковыми дисперсиями. Сравнивая эти дисперсии по критерию Фишера (число степеней свободы числителя и знаменателя здесь совпадают, т. к. слева и справа берется одинаковое число наблюдений) принимаем или отклоняем гипотезу о гомоскедастичности остатков.

Одним из методов, позволяющих обойти гетероскедастичность остатков, является использование обобщенного МНК, суть которого заключается в переходе от исходных величин к преобразованным данным. Так, например, если ошибки пропорциональны значениям независимой переменной, то от гетероскедастичности можно избавиться, используя взвешенный МНК, выбрав в качестве весов величины, обратные значениям независимой переменной. Этого можно добиться, если вместо х и у рассмотреть переменные 1/х и у/х. Только надо иметь в виду, что в таком виде обобщенный МНК изменяет и смысл переменных, и смысл уравнения регрессии.

При анализе остатков на автокорреляцию надо иметь в виду, что последовательную зависимость остатков друг от друга необходимо рассматривать не для случайного набора пар наблюдений, а для случая пар наблюдений упорядоченных по величине значений независимой переменной. И только в этом случае поведение остатков будет соответствовать ситуации, проверяемой по описываемому ниже критерию.

1.3.2. Проверка остатков регрессии на автокорреляцию (тест Дарбина

Уотсона)

16

Проверка остатков регрессии на автокорреляцию чаще всего осуществляется на основе критерия Дарбина – Уотсона. Этот критерий основан на гипотезе о существовании автокорреляции между соседними членами ряда остатков и использует статистику

 

n

 

 

 

 

 

 

 

 

 

 

 

i

е

 

)2

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

d

i 2

 

 

 

 

 

.

 

 

 

 

 

n

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

еi

 

 

 

 

 

 

 

 

i

 

1

 

 

 

 

 

 

 

 

ˆ

 

 

d

 

2 1

еi еi

1

.

 

 

 

 

 

 

Здесь ei = yi yi . Можно показать, что

 

 

 

еi

2

 

 

 

 

 

 

 

 

 

 

 

Вычитаемая из единицы дробь равна коэффициенту автокорреляции первого порядка (для остатков еi). Ясно, что d-статистика равна нулю, если автокорреляция

отсутствует (тогда d

2), и равна

1 при полной автокорреляции (тогда d 0 при

положительной автокорреляции и d

4 – при отрицательной).

Для d-статистики

найдены критические границы (du – верхняя и dl – нижняя), на

основе которых можно определить области, позволяющие принять или отклонить нулевую гипотезу об отсутствии автокорреляции при фиксированном уровне

значимости

, известном числе независимых переменных m и объеме выборки n.

Схема принятия решения следующая (см рис. 5).

 

 

 

 

 

 

 

Автокорре-

 

Область

 

Автокорреля-

 

 

Область

 

Автокорре-

 

 

ляция есть

 

неопределен-

 

ция отсутствует

 

неопределен-

 

ляция есть

 

 

 

 

 

ности

 

 

 

 

ности

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

dl

du

4-du

4-dl

4

 

Рис. 5.

Механизм проверки гипотезы об автокорреляции в остатках по критерию

Дарбина – Уотсона

Если вычисленное значение d-статистики попало в область неопределенности критерия, то это означает, что нет статистических оснований ни принять, ни отклонить нулевую гипотезу об отсутствии автокорреляции в остатках. В этом случае нужно использовать какой-либо иной критерий или для большей точности увеличить объем выборки. Учитывая наличие области неопределенности, в литературе по эконометрике можно встретить такую рекомендацию: считать, что автокорреляции в остатках нет, если значение критерия находится в интервале (1,5 – 2,5), в противном случае наличие автокорреляции признается. В последних версиях статистических ППП при проверке гипотезы об отсутствии автокорреляции в остатках для коэффициента автокорреляции рассчитывается р-величина, как это показано на примере ППП Statgrapics Plus 5.1 (проверяется гипотеза о наличии автокорреляции остатков, так что, если р-величина критерия больше принятого уровня значимости, то гипотеза о наличии автокорреляции не отклоняется).

Если с помощью критерия Дарбина – Уотсона обнаружена существенная автокорреляция остатков, то необходимо признать наличие проблемы в спецификации уравнения и либо вернуться к выбору объясняющей переменной либо к форме регрессионной зависимости, либо попытаться избавиться от автокорреляции другим методом, о чем речь ниже.

Последствия автокорреляции остатков в основном те же, что и последствия их гетероскедастичности.

Пример. Анализ остатков на гомоскедастичность и автокорреляцию

Продолжим рассмотрение примера, анализируя функцию потребления. Анализ графика остатков (рис. 3) приводит к выводу, что они скорее всего гетероскедастичны,

17

поскольку с увеличением значений независимой переменной х отклонения ei увеличиваются. На рис. 5 этот же график показан с доверительной областью нуля, и на нем видно, что значения некоторых остатков вышли за пределы этой доверительной области.

Для функции потребления такое поведение остатков скорее закономерность, чем случайность. Для семей с малыми доходами меньше возможностей значительной вариации расходов, чем для семей со значительными доходами.

Рис. 5. График остатков ei в зависимости от х (ППП STATISTICA) Проиллюстрируем работу теста Голдфелда – Квандта на рассматриваемом примере.

В нашем случае объем выборки равен 21. Упорядочим наблюдения в порядке возрастания переменной х и выберем слева и справа по 8 наблюдений. Рассчитаем уравнения регрессии по каждому из этих наборов. Процедуры упорядочения значений переменных по величине и расчет по отдельным частям выборки предусмотрены во всех статистических ППП. Реализуя их, получим для первого набора (с меньшими значениями переменных) SSE = 0,4786, для второго набора SSE = 10,8031. Число степеней свободы для обеих сумм равно 7. Отношение дисперсий равно 22,5735, критическое значение критерия равно 3,79 (при уровне значимости 0,05). Поскольку расчетное значение критерия больше критического – гипотеза о равенстве дисперсий отклоняется, т. е. признается наличие гетероскедастичности остатков.

Проверим теперь остатки на автокорреляцию. Для нашего примера значение статистики Дарбина – Уотсона, рассчитанное для пар наблюдений в том же порядке, что и в исходных данных, равно 2,234, а для данных, записанных в порядке возрастания факторной переменной, – 2,42. Табличные значения равны: dl = 1,22, du = 1,42 (см. приложение).

Имеем:

_______ dl _____ du _____4-du ______4-dl _________. 0 1,22 1,42 2,58 2,78 4

Итак, в обоих случаях вычисленное значение статистики Дарбина – Уотсона попало в область между du и 4 – du, что означает отсутствие автокорреляции в остатках. Следовательно, в нашем примере остатки являются случайными величинами, как того и требует МНК.

Тот же самый вывод вытекает из р-величины для данного коэффициента. Тот факт, что р-величина равна 0,3177 (что больше 0,05), означает, что гипотеза об отсутствии автокорреляции не отклоняется.

Надо иметь в виду, что возможны случаи, когда расчетные значения критерия Дарбина – Уотсона существенно различаются в зависимости от того, как они рассчитаны: для случайного порядка расположения пар наблюдений или при упорядочении их по значениям независимой переменной. Как уже отмечалось, для

18

обнаружения ошибки спецификации (неправильного выбора вида зависимости) при вычислении критерия Дарбина – Уотсона пары наблюдений необходимо упорядочивать по величинам независимой переменной.

1.4. Нелинейная корреляция и регрессия

До сих пор рассматривалась только линейная регрессия и корреляция, но в социально-экономических исследованиях иногда появляется необходимость рассмотреть и нелинейные зависимости. Остановимся здесь на этом кратко.

1.4.1. Линеаризация (преобразование Бокса Кокса)

 

Нелинейную зависимость можно разделить на два

типа: нелинейную по

переменным и по параметрам.

 

Проще, когда речь идет о нелинейной зависимости по переменным. Такие зависимости преобразовываются к линейным простой заменой переменных. Например,

зависимость вида у = а + в х сводится к линейной заменой переменной х1 = х . Имеем линейную функцию у = а + вх1. Или зависимость вида 1/у = а + вх сводится к линейной заменой у1 = 1/у. Получим у1 = а + вх и т.д.

Оценка параметров таких уравнений осуществляется обычным МНК, примененным к преобразованным данным. Однако надо иметь в виду, что ситуации разнятся, если при линеаризации преобразованию подвергаются независимые или зависимые переменные. Так, если преобразованию подвергаются независимые переменные, то осложнений в применении МНК не возникает. Сложнее, когда преобразованию подвергаются зависимые переменные. В этом случае МНК минимизирует не сумму квадратов отклонений зависимой переменной, а сумму квадратов отклонений преобразованной зависимой переменной. Например, в последнем рассмотренном выше

варианте

вместо

минимизации

выражения

( y yˆ)2

min будем

иметь

(1/ y 1/ yˆ)2

min , что не одно и то же. В связи с этим оценки параметров

таких уравнений могут быть смещенными.

При зависимостях, нелинейных по параметрам, процедура линеаризации, если таковая возможна, осуществляется, как правило, путем преобразования зависимой переменной. Сложности в этом случае возникают и при сравнении альтернативных

моделей.

Например, меньшая сумма

квадратов отклонений для выражения

(ln y

ln yˆ)2 , чем для выражения

( y yˆ)2 , совсем не означает, что в первом

случае уравнение будет лучше (как известно, логарифмы меньше своих аргументов). Приведем вариант универсального преобразования для описания нелинейной

зависимости, когда преобразованию подвергается зависимая переменная. Вместо переменной y в регрессии рассматривается функция (y –1)/ . Параметр выбирается по минимальной ошибке аппроксимации путем расчета регрессии для различных возможных значений этого параметра. Такое преобразование носит название преобразованием Бокса – Кокса (по имени его авторов), введено в некоторые статистические ППП, и подбор параметра в нем осуществляется в автоматическом режиме.

Пример. Подбор наилучшего уравнения регрессии

Рассмотрим пример использования при анализе этой же информации нелинейных зависимостей. В социально-экономическом анализе наиболее часто используются экспоненциальная (y = aebx) и мультипликативная (степенная) (y = axb) зависимости (рис.7 и рис.8). Экспоненциальная функция описывает процесс с постоянным темпом прироста изучаемого показателя (величина b в соотношении y = aebx), а мультипликативная – с постоянной эластичностью (величина b в соотношении y = axb).

Обе эти функции приводятся к линейной в результате логарифмирования: lny = lna + bx для экспоненциальной и lny = lna + blnx – для мультипликативной. Как видим,

19

заменой переменных эти зависимости сводятся к линейными. К ним можно применять обычный МНК, получая тем самым оценки параметров исходных уравнений.

Здесь, как и в предыдущем случае, надо иметь в виду, что МНК применяется не к исходным зависимым переменным, а к преобразованным (к их логарифмам) и в силу этого оценки могут получиться смещенными. В этом случае минимизируется сумма

квадратов отклонений в логарифмах:

(ln y ln yˆ)2

min , а не

( y yˆ)2

min . А

поскольку

(ln y ln yˆ)2

( y yˆ)2 , то оценки могут получиться смещенными.

Многие ППП имеют процедуры подбора лучшей кривой регрессии. Воспользуемся такой процедурой из ППП Statgraphics. Для нашего примера имеем (рис.6)

Рис. 6. Сравнительный анализ моделей По информации из рис. 6 можно сравнивать альтернативные модели по

коэффициентам корреляции или детерминации.

 

 

 

Перечень моделей следующий:

вид зависимости

Reсiprocal – Y – обратная к Y

1/y = a + bx или y = 1/(a + bx);

Exponential – экспоненциальная

y = e(a + bx);

Square root – Y – корень квадратный из Y

y = (a + bx)2;

Multiplicative – мультипликативная или показательная

y = axb;

Double reciprocal – двойная обратная 1/y = a + b/x или

y = 1/(a + b/x);

Linear – линейная

y = a + bx;

 

 

 

 

Square root – X – корень квадратный из X

y = a + b x ;

S – curve S-образная кривая

y = e(a + b/x);

Logarithmic – X – логарифм Х

y = a + blnx;

Reсiprocal –X – обратная к Х

y = a + b/x.

Как видим, линейная модель здесь не самая точная (по точности стоит на 6-м месте).

Приведем оценку параметров двух рассмотренных моделей по исходным данным примера без подробной оценки их точности: экспоненциальной (рис. 7) с r2 = 88,25 % и мультипликативной (рис. 8) с r2 = 84,98 %.

20

Рис. 7. Экспоненциальная модель

Рис. 8. Мультипликативная модель

Intercept и Slope – это значения а и b оценок параметров соответствующих моделей. На основе экспоненциальной зависимости имеем: yˆ =e(0.91+0.15x), а на основе

мультипликативной модели имеем: yˆ =0,58х0,69.

Из последнего уравнения регрессии получили, что постоянный коэффициент эластичности равен 0,69 % (b = 0,69). Рассчитанный аналогичный коэффициент по линейной модели был равен 0,77 %. Полученное различие объясняется разными предпосылками зависимости между изучаемыми показателями.

Из приведенных трех моделей более точной является экспоненциальная: для нее коэффициент детерминации наибольший.

1.4.2. Индекс корреляции

Как уже отмечалось, мерой тесноты линейной корреляционной связи является коэффициент парной корреляции Пирсона. Мерой же тесноты нелинейной корреляционной связи является индекс корреляции, определяемый из соотношения

R = 1

( y

yˆ)2

,

( y

 

)2

y

где yˆ расчетные значения зависимой переменной по нелинейной регрессии.

Величина индекса корреляции находится в пределах от нуля до единицы, и чем ближе его значение к 1, тем теснее рассматриваемая связь.

Известно, что линейный коэффициент корреляции и индекс корреляции в случае линейной зависимости совпадают. Совпадают эти коэффициенты и в случае линеаризации зависимостей путем преобразования независимой переменной, т.е. индекс корреляции между у и х совпадет с линейным коэффициент корреляции между у и преобразованным х.

21

Иное дело, когда линеаризация уравнения связана с преобразованием зависимой переменной у. В этом случае линейный коэффициент корреляции между преобразованными переменными дает лишь приближенную оценку тесноты связи и численно не совпадает с индексом корреляции.

Значимость индекса корреляции проверяется так же, как и коэффициента корреляции.

Задания для самостоятельной работы Задание 1

Пусть имеются данные, аналогичные рассмотренным в тренировочном примере (n = 21, y – потребление, х – доходы).

х

4,2

2,9

7,1

4,9

6,4

2,1

3,5

7,5

5

2,4

у

4,3

3,6

5,1

4,6

7,1

3,1

3,9

6,1

5,1

3,6

7,

4,9

2,5

6,1

3,2

9,2

4,5

5,5

3,6

5,2

8,5

9

 

 

 

 

 

 

 

 

 

 

8,

4,7

4

4,6

3,1

7,5

5,2

6,1

4,4

4,1

5,5

2

 

 

 

 

 

 

 

 

 

 

Провести анализ этой информации по аналогии с рассмотренным тренировочным примером.

Если нет возможности посчитать с помощью статистического ППП, то воспользуйтесь нижеприведенными результатами.

Рассчитаем для них уравнение регрессии и другие характеристики, необходимые для полного анализа с помощью парной регрессии и корреляции. При возможности эти показатели рассчитайте самостоятельно.

Ниже приведены результаты расчетов (рис. 9, 10 и 11). Описательные статистики рассчитаны отдельно:

x =5,1, y =4,95, Sx=2.1, Sy=1,4.

Рис. 9. Уравнение простой (парной) регрессии

22

Рис. 10. График остатков для наблюдений, отсортированных по возрастанию переменной х

Рис. 11. График остатков для случайного набора пар (по номерам строк)

Выписать уравнение регрессии и провести полный анализ его точности в соответствии с рассмотренным тренировочным примером.

Проверить равенства: tb2 = tr2 = F 2 и прокомментировать их смысл.

Прокомментировать смысл коэффициента регрессии (склонность к потреблению), рассчитать мультипликатор и коэффициент средней эластичности и привести их содержательный анализ.

Показать, что Vx>Vy и прокомментировать это знаком при свободном члене уравнения простой линейной регрессии.

Охарактеризовать тесноту линейной корреляционной связи на основе шкалы Чеддока.

Проверить остатки на гетероскедастичеость.

Выборочный коэффициент Дарбина Уотсона для набора пар наблюдений в случайном порядке, т. е. для исходных данных, соответствующих рис.11, равен 1,54, а для упорядоченных пар по возрастанию переменной х (рис.10) равен 3,25 (рассчитать самостоятельно, используя опции статистического ППП). Прокомментировать различие этих коэффициентов. Проверить остатки на автокорреляцию и сделать вывод.

Сравнительный анализ моделей приведен ниже (рис.12)

23

Рис. 12. Сравнительный анализ моделей Далее приведены две из вышеперечисленных моделей.

Рис. 13. Мультипликативная модель

Рис. 14. Экспоненциальная модель Выписать уравнения этих моделей, проанализировать их точность на основе данных

из рис. 12, охарактеризовать смысл их параметров и указать наиболее точное из этих уравнений. По возможности проанализируйте поведение остатков для каждого уравнения.

Задание 2

Следующие данные представляют результат исследований по оценке стоимости недвижимости. При этом: у – рыночная цена продажи, х – оценка стоимости по результатам инвентаризации.

х

1015,2

977,4

800

1031,4

947,7

1023,3

1069,2

999

982,8

у

1220,4

1231,2

1263,6

1233,9

1209,6

1239,3

1279,8

1193,4

1263,6

х

920,7

1007,1

872,1

1082,7

1026

1053

1026

1059,5

1085,4

у

1179,9

1188

1177,2

1269

1271,7

1263,6

1193,4

1244,7

1252,8

х

1001,7

1020,6

1070,9

1109,7

904,5

972

993,6

963,9

1093,5

у

1252,8

1201,5

1239,3

1328,4

1206,9

1312,2

1285,2

1198,8

1314,9

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]