Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебник. Эконометрика.docx
Скачиваний:
321
Добавлен:
27.03.2016
Размер:
1.35 Mб
Скачать

3.7. Корреляционное отношение и индекс корреляции

Введенный выше коэффициент корреляции, как уже отме­чено, является полноценным показателем тесноты связи лишь в случае линейной зависимости между переменными. Однако час­то возникает необходимость в достоверном показателе интен­сивности связи при любой форме зависимости.

Для получения такого показателя вспомним правило сложе­ния дисперсий (8.12):

, (3.37)

где общая дисперсия переменной

, (3.38)

средняя групповых дисперсий , или остаточная дис­персия

, (3.39)

, (3.40)

межгрупповая дисперсия

. (3.41)

Остаточной дисперсией измеряют ту часть колеблемости Y, которая возникает из-за изменчивости неучтенных факторов, не зависящих от X. Межгрупповая дисперсия выражает ту часть вариации Y, которая обусловлена изменчивостью X. Величина

(3.42)

получила название эмпирического корреляционного отношения Y по X. Чем теснее связь, тем большее влияние на вариацию пе­ременной Y оказывает изменчивость X по сравнению с неучтен­ными факторами, тем выше . Величина , называемаяэм­пирическим коэффициентом детерминации, показывает, какая часть общей вариации Y обусловлена вариацией X. Аналогично вводится эмпирическое корреляционное отношение X по Y.

. (3.43)

Отметим основные свойства корреляционных отношений (при достаточно большом объеме выборки n):

1. Корреляционное отношение есть неотрицательная величина, не превосходящая .

2. Если , то корреляционная связь отсутствует.

3. Если , то между переменными существует функциональная зависимость.

4. , т.е. в отличие от коэффициента корреляции r (для которого ) при вычислении корреляционного отношения существенно, какую переменную считать независи­мой, а какую — зависимой.

Эмпирическое корреляционное отношение является показа­телем рассеяния точек корреляционного поля относительно эмпири­ческой линии регрессии, выражаемой ломаной, соединяющей зна­чения Однако в связи с тем, что закономерное изменение нарушается случайными зигзагами ломаной, возникающими вследствие остаточного действия неучтенных факторов, преувеличивает тесноту связи. Поэтому наряду срассматри­вается показатель тесноты связи характеризующий рассеяние точек корреляционного поля относительно линии регрессии (3.3). Показатель получил названиетеоретического корреля­ционного отношения или индекса корреляции Y по X:

. (3.44)

где дисперсии и определяются по формулам (12.54)— (12.56), в которых групповые средние заменены условными средними , вычисленными по уравнению регрессии(12.16).

Подобно вводится и индекс корреляции X по Y:

. (3.45)

Достоинством рассмотренных показателей и R является то, что они могут быть вычислены при любой форме связи меж­ду переменными. Хотя и завышает тесноту связи по сравне­нию сR, но для его вычисления не нужно знать уравнение рег­рессии. Корреляционные отношения и R связаны с коэффи­циентом корреляции r следующим образом:

. (3.46)

Коэффициент детерминации R2, равный квадрату индекса корреляции (для парной линейной модели ), показывает долю общей вариации зависимой переменной, обусловленной регрес­сией или изменчивостью объясняющей переменной.

Чем ближе R2 к единице, тем лучше регрессия аппроксими­рует эмпирические данные, тем теснее наблюдения примыкают к линии регрессии. Если R2 = 1, то эмпирические точки (x, y) лежат на линии регрессии и между переменными YиX существует линейная функциональная зависимость. Если R2 = 0, то вариация зависимой переменной полностью обуслов­лена воздействием неучтенных в модели переменных, и линия регрессии параллельна оси абсцисс.

Расхождение между и (или ) может быть использо­вано для проверки линейности корреляционной зави­симости.

Проверка значимости корреляционного отношения осно­вана на том, что статистика

(3.47)

име­ет распределение Фишера—Снедекораи степенями свободы. Поэтому значимо отличается от нуля, если , гдетабличное значениекритерия на уровне значимостипри числе степеней свободыи .

Индекс корреляции R двух переменных значим, если значе­ние статистики

(3.48)

больше табличного , гдеи .

Пример 12.8. Рассмотрим в качестве примера зависимость между суточной выработкой продукции Y (т) и величиной основных производственных фондов (ОПФ) X (млн руб.) для совокупности 50 однотипных предприятий (12.1). По данным таблицы вычислить корреляционное отношение и индекс корреляции и проверить их значимость на уровне .

Таблица 12.1

Величина ОПФ, млн руб. (X)

Середины

интервалов

Всего

Групповая средняя, т

7-11

11-15

15-19

19-23

23-27

9

13

17

21

25

20-25

25-30

30-35

35-40

40-45

22,5

27,5

32,5

37,5

42,5

2

3

-

-

-

1

6

3

1

-

-

4

11

2

-

-

7

6

1

-

-

-

2

1

3

13

21

11

2

10,3

13,3

17,8

20,3

23,0

Всего

-

5

11

17

14

3

50

Групповая средняя , млн руб.

-

22,5

29,3

31,9

35,4

39,2

-

-

В таблице через и обозначены середины соответствующих интервалов, аисоответственно их частоты.

В таблице групповые средние получены по формулам:

; .

Решение. По данным табл. 12.1 на первом этапе вычислим общую среднюю признака y, для этого воспользуемся формулой:

.

Для вычисления общей дисперсии воспользуемся известной формулой:

Межгрупповую дисперсию получим по формуле (12.57):

Эмпирическое корреляци­онное отношение получим по формуле (1.58):

Теперь по (12.57) =517,8/50 = 10,36 и по (12.58)

. Значение близко к величине 0,740 (полученной ранее в примере 12.3). Поэтому оправда­но сделанное выше на основании графического изображения эмпирической линии (ломаной) регрессии предположение о ли­нейной корреляционной зависимости между переменными.

Для расчета по уравнению регрессии(см. пример12.1) находим значения , представленные в пред­последней графе табл. 12.4. Затем аналогичнои. Как и следовало ожидать, оказался равным (небольшое расхождение объясняет­ся округлением промежуточных результатов при вычислении . Поэтому в случае линейной связи нет смысла вычислять , а достаточно ограничиться вычислением . Величина коэф­фициента детерминации показывает, что вариация зависимой переменнойY (суточной выработки продукции) на 55,1% объясняется вариацией независимой переменной Х (величиной основных производственных фондов).

Для проверки значимости , учитывая, что количество интервалов по группировочному признаку , по (12.63)

.

Табличное значение . Так как, то значимо отличается от нуля. Аналогично проверяется значимость найдем . По (12.64) . Так как, то индекс корреляциизначим.