Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Макарова Н.В. Статистика в Excel-1

.pdf
Скачиваний:
2
Добавлен:
11.04.2024
Размер:
11.91 Mб
Скачать

РАЗДЕЛ IV

Статистические методы изучения взаимосвязей явлений и процессов

ГЛАВА 13 Ковариация и корреляция

13.1.

Краткие сведения из теории статистики

В экономических исследованиях одной из важных задач явля­ ется анализ зависимостей между изучаемыми переменными. За­ висимость между переменными может быть либо функциональной,

либо стохастической {вероятностной). Для оценки тесноты и на­ правления связи между изучаемыми переменными при их стохас­ тической зависимости пользуются показателями ковариации и

корреляции.

Ковариацией cov(x, у) случайных величин ^ и У называют сред­ нее произведений отклонений каждой пары значений величин Xw KB исследуемых массивах данных:

1 Д

cov(x,y) = (x, -х)(у, -у)==-1(х, -х)(у^ -у).

л 1=1

Ковариация есть характеристика системы случайных величин, описывающая помимо рассеивания величин А" и К еще и линей­ ную связь между ними. Доказано [ 1 ], что для независимых случай­ ных величин Jf и К их ковариация равна нулю, а для зависимых случайных величин она отличается от нуля (хотя и не обязатель­ но). Поэтому ненулевое значение ковариации означает зависи­ мость случайных величин. Однако обращение в нуль ковариации не гарантирует независимости, бывают зависимые случайные ве-

250

личины, ковариация которых равна нулю. Из формулы определе­ ния ковариации видно, что ковариация характеризует не только зависимость величин, но и их рассеивание. Действительно, если, например, одна из величин >¥или Умало отличается от своего ма­ тематического ожидания (почти не случайна), то показатель кова­ риации будет мал, какой бы тесной зависимостью ни были связа­ ны величины Хи У. Так что обращение в нуль ковариации вели­ чин Zn Кявляется не достаточным условием для их независимос­ ти, а только необходимым.

Использование ковариации в качестве меры связи признаков не совсем удобно, так как показатель ковариации не нормирован и при переходе к другим единицам измерения (например, от мет­ ров к километрам) меняет значение. Поэтому в статистическом анализе показатель ковариации сам по себе используется редко; он фигурирует обычно как промежуточный элемент расчета ли­ нейного коэффициента корреляции г^:

соу/(х,у)

^ху

a^Gy

В 1889 г. Ф. Голтон* высказал мысль о коэффициенте, который мог бы измерить тесноту связи между двумя коррелируемыми признаками. В начале 90-х гг. ХЕХ в. Пирсон, Эджворт и Велдон получили формулу линейного коэффициента корреляции

^ху

Линейный коэффициент корреляции характеризует степень тес­ ноты не всякой, а только линейной зависимости. При нелиней-

*(Galton Francis) Голтон Фрэнсис (1822-1911) - английский психолог и антрополог. В математике Голтон разработал методы статистической обра­ ботки результатов исследований (в частности, метод исчисления корреляций между переменными); ввел коэффициент корреляции; создал так называе­ мую биометрическую школу.

251

ной зависимости между явлениями линейный коэффициент кор­ реляции теряет смысл, и для измерения тесноты связи применяют так называемое корреляционное отношение, известное также под названием «индекс корреляции» [9, 12].

Линейная вероятностная зависимость случайных величин за­ ключается в том, что при возрастании одной случайной величины другая имеет тенденцию возрастать (или убывать) по линейному закону Эта тенденция к линейной зависимости может быть более или менее ярко выраженной, т. е. более или менее приближаться к функциональной. Если случайные величины Jfи /связаны точ­

ной

линейной функциональной зависимостью у=адг+^, то

г^ =

± 1. В общем случае, когда величины Jf и Усвязаны произ­

вольной вероятностной зависимостью, линейный коэффициент корреляции принимает значение в пределах-1 < г^ < 1, тогда ка­ чественная оценка тесноты связи величин X^л. Уможет быть выяв­ лена на основе шкалы Чеддока (табл. 13.1).

 

 

 

Таблица 13.1

 

Значение коэффициента корреляции

Теснота связи

 

при наличии:

 

 

прямой связи

обратной связи

Слабая

0,1-0,3

(-0,1)-(^0,3)

Умеренная

0,3 -

0,5

(-0,3)-(-0,5)

Заметная

0,5 -

0,7

(^0,5)-(-0,7)

Высокая

0,7 -

0,9

(-0,7) -

(-0,9) 1

Весьма высокая

0,9 -

0,99

(-0,9) -

(-0,99)

В теории разработаны и на практике применяются различные модификации формул расчета линейного коэффициента корре­ ляции:

(13.1)

ПЧ^Оу

252

V

I

;

;

;

r-'

(13.2)

 

 

2

2

2

 

 

Приведенные формулы в определенных случаях имеют неко­ торые преимущества друг перед другом. Например, при неболь­ ших значениях п{п< 30) обычно употребляются формулы (13.2) и (13.3).

Необходимо обратить внимание, что формулы (13.1) - (13.3) справедливы для нахождения генерального коэффициента корре­ ляции. Чтобы рассчитать выборочный коэффициент корреляции, необходимо в этих формулах генеральные средние заменить на выборочные средние, а генеральные стандартные отклонения - на выборочные стандартные отклонения.

13.2.

Справочная информация по технологии работы

Режим работы «Ковариация» служит для расчета генеральной ковариации на основе выборочных данных.

Режим работы «Корреляция» предназначен для расчета гене­ рального и выборочного коэффициентов корреляции соответствен­ но на основе генеральных и выборочных данных.

В диалоговых окнах данных режимов (рис. 13.1 и 13.2) зада­ ются параметры, аналогичные параметрам, задаваемым в диало­ говом окне Ранг и персентиль {см. рис. 5.1).

Пример 13,1. Показатели уровня образования, уровня пре­ ступности, а также отношение числа безработных к числу вакан­ сий в некоторых центральных областях России в 1995 г. (по дан­ ным Госкомстата РФ) приведены в табл. 13.2, сформированной на рабочем листе Microsoft Excel.

253

Ковариация

В:Фдныв данные

 

 

..^^s^-^:^'..-^:^.<«:^-^-,^.

 

 

Группирование:

(^ по cTOJT^uati

 

 

Г* построкам

Р

йетки в первой стрсже

 

j-^ Параиетры вывода •

 

<^[ С 8ьш)Днойинтер&ал;

 

I ^

f-tobfti рабочий та\

 

i'/f^'^Ftoeaq р ^ ч ^ - к н и г а

 

 

 

Рис. 13.1

Корреляция

^'Гр^пированйвг

1

31

 

 

 

< по:С1Р<жам

||:-:Р:.йИ'^^в ПЙреОЙ СТрОКв

 

 

. .-A^ii.JSrttmrfMBMHiJI

 

ДрПараме'гры еыаода :

'.^f-i«*ia;»'»rjprt*i4.4tT

.TiM

,1 С ^5<зЬдной кйтгервая:

.o,v^№^^i^iv,v,^^v;v.-.AvVj^4sv>v.v..v^;,v-o.4,v/.v;^v.v ...у •••••[ ,

*^ Ноеьй рабочий miCT:

%:С Нов&рабо*^Ш1*<нига.

Рис. 13.2

IP

и

Отиена

Справка

OIC

ll . l . ll, . ,'

I -

A l . , . ' . !

, | J .

2S4

По выборочным данным, представленным в табл. 13.2, требу­ ется установить наличие взаимосвязи между указанными показа­ телями в центральном регионе России.

 

 

 

Таблица 13.2

 

^:::..:-:.:V.I.;:

l:Z С,

D

 

 

 

 

 

 

 

 

Отношение

 

mm

Область

Уровень

числа

Уровень

образования

безработных

преступности

 

к числу

вакансий

ШЖ-:

^Й;.-:

йЛ|

Брянская

735

22,3

908

Владимир­

 

10,8

 

ская

788

791

Ивановская

779

52,9

804

Калужская

795

2,2

701

Костром­

740

10,4

685

ская

г. Москва

902

0,4

496

Московская

838

2,4

536

Нижегород­

 

5,4

 

ская

763

936

Орловская

762

4,1

662

Рязанская

757

4,1

671

Смоленская

772

1,0

920

Тверская

764

4,2

1040

Тульская

764

2,1

809

Ярослав­

755

25,1

882

ская

Примечания: 1. Уровень образования рассчитывался как численность лиц

свысшим и средним специальным образованием на 1000 жителей области.

2.Уровень преступности рассчитывался как число совершенных пре­ ступлений на 100 тыс. жителей области.

255

Для решения задачи используем режимы работы «Ковариация» и «Корреляция». Значения параметров, установленных в од­ ноименных диалоговых окнах, представлены на рис. 13.3 и 13.4, а рассчитанные в данных режимах показатели - в табл. 13.3 и 13.4.

1Ковариацня

^ i В^аздной интервал: •

 

 

 

«> постолбцан

И -

<^ по строкам

М'^

Й^тки 13 пфзой строке

? V Л^>а«етры,вьгвода

/;

}г\

- ^ ' ^ ^ д н е й интервал:

•Ок:.. 1\

Отмена

Справка,

г\ ^^ С Новая рабочая |^нига

 

 

 

 

 

Рис. 13.3

 

 

 

 

Таблица 13.3

 

 

 

D

 

 

 

 

Отношение

Уровень

 

Уровень

числа

 

безработных

преступ­

 

образования

 

 

 

к числу

ности

 

 

 

вакансий

 

Уровень

 

 

 

 

образова­

 

1884.88

 

 

ния

 

 

 

Отношение

 

 

 

 

числа без­

 

 

 

 

работных к

 

 

 

 

числу ва­

-

161,39

 

 

кансий

207,32

 

Уровень

 

 

 

 

преступно­

-

4479,22

536,80

24667,63

сти

256

Корреляция

 

$С$4;$Е$18

•••ок.-.::.^

 

 

I Групш^рювание;

(^

постолбизн

Отиена

 

 

^

построкам

Справка

П "Р" Метки 6 первой строке

 

 

 

гП^аметры а?1Вода—

РВьтодной интервал Нсжый рабо^1и лист:

Нс»ая р^очая книга

1^ЖЖ^^Ж^>1М^^:

Рис. 13.4

Таблица 13.4

щщ^^fc:^,;^. •i:.<^J,:M '^^^^^ШшшшШ

 

 

Отношение

 

 

Уровень об­

числа

Уровень

 

безработных

преступнос­

 

разования

к числу

ти

 

 

вакансий

 

Уровень

 

 

 

образова­

1

 

 

ния

 

 

1Ш----Отношение:

 

 

 

числа без­

 

 

 

работных к

 

 

 

числу ва­

-0,26

1

 

кансий

 

Уровень

 

 

 

преступно­

0,66

0,24

1

сти

257

Как видно из табл. 13.3 и 13.4, между парами всех исследуе­ мых показателей существуют стохастические связи. Причем ха­ рактер всех выявленных связей различен и состоит в следующем:

связь «уровень образования» — «отношение числа безработ­ ных к числу вакансий» является слабой и обратной (г^у = -0,26),

т.е. с повышением уровня образования отношение числа безра­ ботных к числу вакансий уменьшается;

связь «уровень образования» — «уровень преступности» является заметной и обратной (г^у — -0,66), т. е. с повышением уровня образования уровень преступности уменьшается;

связь «отношение числа безработных к числу вакансий» - «уровень преступности» является слабой и прямой (г^^ = 0,24),

т.е. с увеличением отношения числа безработных к числу ва­ кансий увеличивается и уровень преступности.

13.3.

Статистические функции, связанные с режимами «Ковариация» и

«Корреляция»

Функция КОВАР

См. также КОРРЕЛ, ФИШЕР, ФИШЕРОБР

Синтаксис:

КОВАР (массив!; массив2)

Результат:

Рассчитывает значение ковариации, между двумя массивами данных.

уфгументы:

массив!: первый массив данных;

массив2\ второй массив данных.

Замечания:

аргументы должны быть числами или массивами, содержа­ щими числа;

если аргумент, который является массивом, содержит текс­ товые, логические значения или пустые ячейки, то такие значения игнорируются, однако ячейки с нулевыми значениями учитыва­ ются;

258

если аргументы массив! и массив2 имеют различное количе­ ство точек данных, то функция КОВАР помещает в ячейку значе­ ние ошибки #Н/Д;

если аргумент Afflccwe 7 либо Afflccwe2 пуст, то функция КОВАР помещает в ячейку значение ошибки #ДЕЛ/0!.

Математико-статистическая интерпретация:

См, подразд. 13Л.

Примечание. В отличие от режима «Коварнация» функция КОВАР рас­ считывает значение ковариации в предположении, что массивы данных об­ разуют генеральные совокупности.

• В примере 13.1 {см, табл. 13.3) функция КОВАР совместно с функцией СЧЕТ используется для расчета показателей ковариации. Например, значение в ячейке С22 рассчитывается по формуле

=КОВАР(С5:С18;С5:С18)*СЧЕТ(С5:С18)/(СЧЕТ(С5:С18)-1),

а значение в ячейке С23 — по формуле

=KOBAP(C5:C18;D5:D18)*C4ET(C5:C18)/(C4ET(C5:C18)-l).

Функция КОРРЕЛ

См. также ПИРСОН, КОВАР, ФИШЕР, ФИШЕРОБР

Синтаксис:

КОРРЕЛ (массив 1; массив2)

Результат:

Рассчитывает линейный коэффициент корреляции между массивами данных.

Аргументы:

массив!: первый массив данных;

массив!: второй массив данных.

Замечания:

аргументы должны быть числами или именами, массивами или ссылками, содержащими числа;

если аргумент, который является массивом, содержит текс­ товые, логические значения или пустые ячейки, то такие значения игнорируются; однако ячейки с нулевыми значениями учитыва­ ются;

259