Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Корреляция и регрессия.doc
Скачиваний:
7
Добавлен:
11.11.2019
Размер:
1.38 Mб
Скачать

II. Определение наличия и формы связи

На третьем этапе корреляционно – регрессионного анализа решается вопрос о наличии или отсутствии корреляционной связи. Для этого используется ряд специфических методов:

1) параллельное сопоставление рядов значений факторного и результативного признаков;

2) построение групповой или корреляционной таблиц;

3) графическое изображение фактических данных с помощью поля корреляции;

4) дисперсионный анализ.

Простейшим приёмом является сопоставление двух параллельных рядов:

значения факторного признака располагаются в порядке возрастания или убывания (ранжируются) и параллельно им размещаются соответствующие значения результативного признака. Сравнение расположенных подобным образом рядов даёт возможность не только определить наличие связи, но и выявить её направление.

Если увеличение (уменьшение) величины факторного признака влечёт за собой рост (снижение) результативного признака предполагается наличие прямой корреляционной связи, и наоборот.

Например, по двадцати сельскохозяйственным предприятиям, отобранных выборочным методом, документальным способом статистического наблюдения были установлены производственный стаж работы рабочих (факторный признак) и размер их среднемесячной заработной платы (результативный признак).

В таблице 1 предприятия ранжированы по величине производственного стажа работы.

Таблица 1 – Сопоставление параллельных рядов значений факторного и результативного признаков

Номера

предприятий

Средний

производственный

стаж работы рабочих,

лет

Среднемесячная

заработная плата

рабочих,

руб.

1

8

8000

2

8

8500

3

8

7200

4

9

8500

5

9

8000

6

9

8800

7

9

9500

8

9

8200

9

10

9000

10

10

10000

11

10

9200

12

10

10600

13

10

9500

14

11

9000

15

11

12000

16

11

11500

17

11

10000

18

12

12000

19

12

11000

20

12

10000

Можно видеть, что в целом по всей совокупности сельскохозяйственных предприятий увеличение стажа работы рабочих приводит к увеличению уровня их заработной платы, хотя в отдельных случаях наличие такой зависимости может и не усматриваться. Например, сопоставим данные по предприятиям №7 и № 11. Здесь наблюдается даже обратное соотношение: на предприятии №11 уровень заработной платы ниже, чем на предприятии №7 и составляет 9200 рублей, хотя средний стаж работы рабочих больше, чем на предприятии №7 на один год. В каждом отдельном случае среднемесячная заработная плата рабочих, будет зависеть не только от стажа их работы, но и от того, как сложатся прочие факторы, определяющие величину результативного признака.

Однако не следует отождествлять наличие простого параллелизма в развитии некоторых социально – экономических явлений с существованием между ними корреляционной (причинно-следственной) зависимости. Иначе можно получить ложную, бессмысленную корреляцию.

Кроме того, большое число единиц изучаемой совокупности, наличие различных значений результативного признака, соответствующих одному и тому же значению признака – фактора, затрудняет восприятие таких параллельных рядов.

В таких случаях целесообразнее воспользоваться для установления наличия связи статистическими таблицами – корреляционными и групповыми.

Построение корреляционной таблицы начинают с группировки значений факторного и результативного признаков. Так как в приведённом выше примере факторный признак представлен всего пятью вариантами повторяющихся значений, достаточно в первом столбце корреляционной таблицы выписать эти результаты.

Для результативного признака необходимо определить величину интервала. Для этого воспользуемся формулой Стерджесса:

руб.

Границы интервала определим путём последовательного прибавления величины интервала начиная с уmin:

  1. 7200-8160

  2. 8161-9120

  3. 9121-10080

  4. 10081-11040

  5. 11041-12000

В корреляционной таблице факторный признак х, как правило, располагают в строках, а результативный признак у – в столбцах (графах). Числа, расположённые на пересечении строк и столбцов таблицы, означают частоту повторения данного сочетания значения х и у.

Таблица 2 – Корреляционная таблица зависимости уровня заработной платы рабочих сельскохозяйственных предприятий от производственного стажа их работы

Центральное значение интервала, у

7680

8640

9600

10561

11521

fх

группы

по у

группы

по х

7200-8160

8161-9120

9121-10080

10081-11040

11041-12000

8

2

1

3

8000

9

1

3

1

5

8640

10

1

3

1

5

9600

11

1

1

2

1

10320

12

1

1

1

3

10560

fу

3

6

6

2

3

20

- среднее значение результативного признака для i-той группы значений факторного признака;

fх - частота повторения данного варианта значения факторного признака во всей совокупности;

fу - частота повторения данного варианта значения результативного признака во всей совокупности.

Данная корреляционная таблица уже при общем знакомстве даёт возможность выдвинуть предположение о наличии или отсутствии связи, а также выяснить её направление.

Если частоты в корреляционной таблице расположены на диагонали из левого верхнего угла в правый нижний угол (как в нашем примере), то можно предположить наличие прямой корреляционной зависимости между признаками.

Если же частоты расположены по диагонали справа налево, то предполагают наличие обратной связи между признаками.

Для того чтобы сделать восприятие корреляционной таблицы более доступным и в целях более чёткого выявления основной тенденции связи, рассчитаем средние значения результативного признака, соответствующие определённому значению признака -фактора.

Средний уровень заработной платы для первой группы, состоящей из трёх предприятий, рабочие которой имеют производственный стаж работы 8 лет, будет равен 8000 рублей:

рублей

Аналогичный расчёт произведём в остальных четырёх группах и результаты вычислений представим в последней графе таблицы 2:

руб.

руб.

руб.

руб.

Таким образом, увеличение средних значений результативного признака с увеличением значений факторного признака ещё раз свидетельствует о возможном наличии прямой корреляционной зависимости уровня заработной платы рабочих сельскохозяйственных предприятий региона от производственного стажа их работы.

В основе групповой таблицы лежит аналитическая группировка, то есть все наблюдения разбиваются на группы в зависимости от величины факторного признака, и по каждой группе вычисляются средние значения результативного признака.

Выделим пять групп по стажу работы рабочих, то есть по числу реально существующих вариантов этого признака-фактора. Распределим предприятия по полученным группам и рассчитаем в каждой группе среднее значение заработной платы по формуле средней арифметической простой. Так, в первую группу со стажем работы рабочих 8 лет попадает три предприятия (№1, № 2 и №3) со среднемесячной заработной платой 8000, 8500 и 7200 рублей. Средний уровень заработной платы рабочих в этой группе равен:

рублей.

Для следующей группы предприятий(№4, №5, №6, №7 и №8), в которой стаж работы составил 9 лет, средний уровень заработной платы равен:

рублей и т.д.

Оформим результаты аналитической группировки в виде групповой таблицы.

Таблица 3 – Групповая таблица зависимости уровня заработной платы рабочих предприятий от производственного стажа их работы

Группы предприятий

по стажу работы рабочих, лет

Число предприятий

Средний уровень среднемесячной заработной платы, руб.

8

3

7900

9

5

8600

10

5

9660

11

4

10625

12

3

11000

В среднем по совокупности

20

9525

Сравнив средние значения результативного признака по группам, можно сделать вывод, что рост стажа работы влечёт за собой увеличение уровня заработной платы рабочих сельскохозяйственных предприятий региона, то есть в рассматриваемом примере можно предполагать наличие корреляционной зависимости между признаками.

Далее рассмотрим применение для выявления наличия связи и раскрытия её характера графического метода. Используя данные об индивидуальных значениях факторного и результативного признаков, представленных в таблице 1, построим в прямоугольной системе координат точечный график, который называют «полем корреляции»

Рисунок 1 – Зависимость уровня заработной платы рабочих сельскохозяйственных предприятий региона от производительного стажа их работы

Положение каждой точки на графике определяется величиной двух признаков – стажем работы и соответствующем ему уровнем заработной платы рабочих предприятий. Точки корреляционного поля не лежат на одной линии, они вытянуты определенной полосой слева на право.

Имеющийся в нашем расположении статистический материал был сгруппирован (таблица 3) и по каждому значению стажа работы рабочих определены значения среднего уровня заработной платы в группе. Нанеся эти средние на график и соединяя последовательно отрезками прямых соответствующие им точки, получим так называемую эмпирическую линию связи. Как видно из рисунка 1, эмпирическая линия связи между стажем работы и среднемесячной заработной платой по своему виду приближается к прямой линии, что позволяет предположить наличие между этими признаками прямолинейной корреляционной связи.

Если имеется тенденция неравномерного изменения значений результативного признака, и эмпирическая линия связи будет приближаться к какой-нибудь кривой, то это может быть связано с наличием криволинейной корреляционной связи между признаками.

Более сложным методом выявления наличия и оценки существенности связи является дисперсионный анализ. При этом рассчитывается критерий Фишера (по имени учёного Рональда Фишера, предложившего его) или F-критерий (дисперсионное отношение):

F=

При применении дисперсионного анализа для расчёта дисперсий учитывается число степеней свободы. Для расчёта межгрупповой дисперсии число степеней свободы равно k1 =m-1, а для внутригрупповой k2=n-m, где

n- число единиц совокупности;

m- число групповых средних.

, где

-индивидуальные значения результативного признака;

- групповые средние;

- общая по всей совокупности средняя;

-число единиц совокупности в каждой из m групп

Таким образом, дисперсионное отклонение имеет вид:

Для определения границ случайных колебаний отношений дисперсий Р. Фишером разработаны специальные таблицы F – распределения. В них указывается предельные (критические) значения F – критерия для различных степеней свободы числителя k1 и знаменателя k2, которые могут быть превзойдены с вероятностью α = 0,05 или 0,01

При равенстве дисперсий F=1, это означает, что фактор, положенный в основу группировки, не оказывает влияние на вариацию результативного признака, то есть связь между этими признаками отсутствует.

Различие величин межгрупповой и внутригрупповой дисперсии указывает на то, что группировочный признак оказывает влияние на результативный.

При этом, если Fрасч.>Fтабл., то с доверительной вероятностью 0,95 (0,99) можно утверждать, что между факторным и результативным признаками существует взаимосвязь.

Соответственно, если Fрасч. <Fтабл., то в зависимости от значительности расхождений делается вывод об отсутствии связи или несущественном влиянии факторного признака на результативный.

Выбор формы связи между факторным и результативным признаками должен быть основан на теоретическом, экономическом и логическом анализе, который при построении однофакторных моделей (уравнений парной регрессии) может помочь вывести уравнение регрессии, приблизительно характеризующее зависимость между x и y.

Для проверки тех или иных гипотез о форме связи может быть использован графический метод. Однако следует учитывать, что при небольшом числе наблюдений нельзя слишком полагаться на форму эмпирической регрессии, так как она изменяется при изменении групп и их границ.

Если относительно формы связи выдвинуты различные теоретические гипотезы, а по виду эмпирической регрессии трудно судить о том, какой из этих гипотез наиболее соответствуют фактические данные, то в этом случае строятся и решаются уравнения регрессии с различными формами связи, а затем с помощью специальных статистико-математических критериев оценивается их адекватность, и выбирается та форма связи, которая обеспечивает наилучшую аппроксимацию (приближение) и достаточную статистическую достоверность и надёжность.

В качестве одного из критериев подбора линии регрессии может быть использована величина остаточной дисперсии результативного признака, минимальная величина которой свидетельствует о более удачном выборе формы связи.

Для оценки адекватности уравнения регрессии также может быть использован показатель средней ошибки аппроксимации:

, где

Уiхi – эмпирические и выровненные значения результативного признака.

Предпочтение отдаётся той модели, у которой величина остаточной ошибки наименьшая.

Следует отметить, что большие перспективы при решении вопроса об адекватности того или иного уравнения регрессии представляются при применении в экономико-статистическом анализе связи средств вычислительной техники.

Выбор формы связи с использованием ЭВМ осуществляется посредством перебора решений известных математических функций, при этом исключаются возникающие при безмашинной обработке статистической информации процедурные сложности громоздких расчётов.