- •Статистический анализ взаимосвязи социально-экономических явлений
- •Брянск издательство бгту
- •Карабан, л.А. Статистический анализ взаимосвязи социально-экономических явлений: учеб.- практ. Пособие / л.А. Карабан. – бгту, 2010. – 152 с. – (Сер. «Необъятная статистика»).
- •Предисловие
- •Введение
- •Раздел I. МетоДы изучения взаимосвязей в статистике
- •Глава 1. Теоретические основы исследования взаимосвязей социально-экономических явлений
- •Виды и формы взаимосвязи между явлениями
- •1.2. Общие понятия о стохастических, функциональных и корреляционных связях
- •1.4. Основные приемы изучения взаимосвязей
- •Глава 2. Теоретические основы Корреляционного анализа
- •2.2. Статистические методы изучения корреляционной связи
- •2.3. Измерение тесноты корреляционной связи
- •Рассмотрим использование парных коэффициентов корреляции для измерения многофакторной связи
- •2.5. Корреляционный анализ порядковых переменных или ранговая корреляция
- •Рассмотрим применение коэффициента корреляции рангов Спирмэна
- •Оценим возможности использования коэффициента корреляции рангов Кендэлла
- •Определим возможности применения коэффициента конкордации
- •2.6. Корреляция категоризированных (номинальных) переменных
- •Рассмотрим использование коэффициентов взаимной сопряженности
- •Глава 3. Дисперсионный анализ как метод установления тесноты связи между Явлениями
- •3.1. Общее понятие и цели дисперсионного анализа
- •3.2. Оценка существенности и достоверности связи. Многофакторный дисперсионный анализ
- •Глава 4. Проведение регрессионного анализа
- •4.1. Построение однофакторного уравнения регрессии
- •4.3. Построение и статистический анализ двухфакторной линейной модели (трехмерной регрессии)
- •4. 4. Экономическая интерпретация многофакторной регрессионной модели
- •Раздел II. Практическая реализация методов расчета показателей связи ______________________________________________
- •Глава 1. Использование средств microsoft excel для оценки взаимосвязей явлений
- •1.1.Технология решения задач корреляционного
- •Рассмотрим процедуру построения системы показателей и анализ матрицы коэффициентов парной корреляции.
- •Проведём обзор выбора вида моделей с оценкой их параметров
- •Рассмотрим порядок проведения проверки качества построенной модели
- •Рассмотрим практическую оценку влияния отдельных факторов на зависимую переменную в построенной модели регрессии.
- •Разберём вопрос использования многофакторных моделей для анализа и прогнозирования развития экономических систем.
- •Глава 2. Примеры решения типовых задач
- •2.1. Определение параметров уравнения регрессии
- •2.2. Вычисление линейного коэффициента корреляции
- •2. 3. Задачи для закрепления изученного материала
- •2.4. Задачи для самостоятельного выполнения
- •Правила ответа на письменный тест
- •Заключение
- •Список использованной и рекомендуемой литературы
- •Приложения приложение 1
- •Приложение 2
- •Приложение 3
- •Приложение 4
1.1.Технология решения задач корреляционного
И РЕГРЕССИОННОГО АНАЛИЗА
В регрессионных моделях зависимая (результативная) переменная Y может быть представляется в виде функции f(Х1, Х2,..., Хт), где Х1, Х2,..., Хт - независимые (факторные или объясняющие) переменные, или просто факторы. В зависимости от вида функции f (Х1, Х2,..,Xт) модели могут быть построены либо в линейной, либо в нелинейной форме. Возможно построение однофакторных (парных моделей регрессии) или многофакторных моделей, что зависит от числа включенных в модель факторов Xi.
При моделировании социально-экономических процессов часто используются два типа данных: пространственные данные {cross-sectional data) и временные ряды (time - series data).
Примерами временных данных могут быть ежеквартальные данные по налогам, остаткам на счетах и другим формам отчётности, в том числе публичной. Отличительной чертой временных данных является то, что они естественным образом упорядочены по времени, кроме того, наблюдения в близкие моменты времени часто бывают зависимыми.
Математическим аппаратом, используемым для решения практических задач анализа временных моделей, являются именно методы корреляционно-регрессионного анализа. Связь между объясняемой переменной Y(t) и m-независимыми факторами представляется в виде функции регрессии (или уравнения регрессии):
Y(t)=f(X1, X2,...,Xm).
Оно устанавливает среднее значение переменной Y, при конкретных значениях переменных Xi. В качестве зависимой переменной Y может выступать практически любой показатель.
Регрессионные модели используются не только для анализа, но и для прогнозирования социально-экономических явлений.
Основные этапы построения регрессионной модели:
-
выбор системы показателей (факторов), при наличии собранных данных и их предварительном анализе;
-
построение и анализ матрицы коэффициентов парной корреляции;
-
выбор вида модели и численная оценка ее параметров;
-
проверка качества модели;
-
оценка влияния отдельных факторов на результативный признак с помощью построенной модели;
-
прогнозирование на основе уравнения регрессии.
Рассмотрим процедуру построения системы показателей и анализ матрицы коэффициентов парной корреляции.
Выбор факторов, влияющих на исследуемый показатель, производится прежде всего исходя из содержательного анализа социально-экономических явлений с использованием статистических и математических критериев.
Для получения надежных оценок в модель не следует включать слишком много факторов. Их число не должно превышать одной трети объема имеющихся данных (т n/3).
Для определения наиболее существенных факторов могут быть использованы коэффициенты линейной и множественной корреляции, детерминации частных коэффициентов корреляции.
Для формирования базы исходных данных сначала на основании содержательного анализа составляется перечень показателей, которые предполагается включить в модель. Затем производится сбор статистической информации и предварительный анализ данных. Значения переменных Y и X, содержащиеся в наблюдаемой совокупности, записываются в таблицу исходных данных (табл. 1).
Таблица 1
№п/п |
Y |
Х1 |
Х2 |
… |
Xт |
1 |
y1 |
Х11 |
Х21 |
… |
Xт |
… |
… |
… |
… |
… |
… |
п |
y2 |
Х1n |
Х2n |
… |
Xт |
Далее проводится сравнительная оценка и отсев части факторов путем анализа парных коэффициентов корреляции rXY
rXY=,
где
cov(x, у) =, ,
, .
Значения коэффициентов парной корреляции лежат в интервале от -1 до +1. Их положительное значение свидетельствует о прямой связи (с ростом одной переменной, другая тоже увеличивается), отрицательное - об обратной (с ростом одной переменной, другая уменьшается). Чем ближе это значение к 1, тем теснее связь. Связь считается достаточно сильной, если коэффициент корреляции по абсолютной величине превышает 0,7, и слабой, если он меньше 0,4. При равенстве коэффициента корреляции нулю связь полностью отсутствует. Коэффициент корреляции дает объективную оценку тесноты связи лишь при линейной зависимости переменных.
Оценка значимости коэффициента корреляции проводится с помощью t-критерия Стьюдента. Фактическое значение критерия tнабл чаще всего определяется по формуле
tнабл=
и сравнивается с критическим значением tкр, которое берется из таблицы значений t-критерия Стьюдента (прил. 1) с учетом заданного уровня значимости (например, = 0,05) и числа степеней свободы (n - 2).
Если tнабл > tкр,, то полученное значение коэффициента корреляции признается значимым, т.е. нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается. Таким образом, делается вывод о том, что между исследуемыми переменными есть статистическая взаимосвязь.
В модель включают те факторы, связь которых с зависимой переменной наиболее сильная.
Рассмотрим явление коллинеарности. Одним из условий адекватности регрессионной модели является предположение о линейной независимости факторных переменных, т.е. решение задачи возможно лишь тогда, когда столбцы и строки матрицы исходных данных линейно независимы. Для экономических показателей это условие выполняется не всегда.
Линейная или близкая к ней связь между двумя факторами называется коллинеарностью и приводит к линейной зависимости нормальных уравнений, что делает вычисление параметров либо невозможным, либо затрудняет содержательную интерпретацию параметров модели.
Коллинеарность может возникать в силу разных причин. Так, несколько независимых переменных могут иметь общий временной тренд, относительно которого они совершают малые колебания.
Считают явление коллинеарности в исходных данных установленным, если коэффициент парной корреляции между двумя переменными больше 0,7. Чтобы избавиться от коллинеарности, из модели исключают один из линейно связанных между собой факторов. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.
С целью выявления факта коллинеарности факторов составляется матрица парных коэффициентов корреляции, измеряющих тесноту связи каждого из факторов-признаков с результативным фактором и между собой (табл. 2).
Таблица 2
Факторы |
Y |
Хх |
Х2 |
… |
Хт |
Y |
1 |
rYX1 |
rYX2 |
… |
rXYm |
Х1 |
rYX1 |
1 |
rX1X2 |
… |
rX1Xm |
Х2 |
rYX2 |
rX1X2 |
1 |
… |
rX2Xm |
… |
… |
… |
… |
… |
… |
Хт |
rXYm |
rX1Xm |
rX2Xm |
… |
1 |
При использовании аппарата множественной регрессии наибольшие трудности возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, т.е. наблюдается совокупное воздействие факторов друг на друга. Наличие мультиколлинеарности означает, что некоторые факторы будут действовать по-разному (в унисон). В результате вариация в исходных данных перестанет быть полностью независимой. Это приведёт к тому, что нельзя будет оценить воздействие на результат каждого фактора в отдельности. Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов (МНК).