Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Уч. пособ. Пергунов 1.doc
Скачиваний:
163
Добавлен:
09.04.2015
Размер:
3.54 Mб
Скачать

Критерий согласия Пирсона

В качестве меры расхождения берётся величина

, (4)

где - эмпирические частоты случайной величины Х;

- теоретические частоты, рассчитанные по предполагаемому закону распределения случайной величины Х.

Наблюдаемая статистика имеет распределение Пирсона с числом степеней свободы.

m – число интервалов эмпирического распределения;

s – число параметров теоретического распределения.

В случае нормального распределения s = 2, .

Схема применения критерия - Пирсона сводится к следующему:

1. Вычисляется статистика по формуле (4);

2. Для выбранного уровня значимости по таблице- распределения находят критическое значение;

3. Правило проверки состоит в следующем: если , то гипотезаотвергается, если, то не отвергается, т.е не противоречит опытным данным.

Пример 2. Используя данные примера 1 на уровне значимости проверить гипотезу о нормальном распределении случайной величины Х – выработки рабочих, с помощью критерия- Пирсона.

Решение: Составим таблицу расчета наблюдаемого значения

Эмпирические

частоты

Теоретические

частоты

Разность

6

4,89

1,11

1,23

0,25

20

23,86

-3,86

14,9

0,624

45

40,38

4,62

21,34

0,528

24

24,79

-0,79

0,62

0,025

5

5,3

-0,3

0,09

0,017

100

99,22

-

-

Так как число интервалов , число параметровS = 2, то число степеней свободы . По таблице- распределения находим значение. Видим, что. Следовательно, гипотеза о нормальном распределении генеральной совокупности может быть принята, и она согласуется с опытными данными.

Лекция 5. Элементы корреляционного анализа Задачи корреляционного анализа. Двумерная корреляционная модель

Главной задачей корреляционного анализа является оценка взаимосвязи между переменными величинами на основе выборочных данных.

Различают два вида зависимостей: функциональную и стохастическую. При функциональной зависимости каждому значению одной случайной величины ставится в соответствие определённое значение другой величины.

При изучении массовых явлений зависимость между наблюдаемыми величинами проявляется лишь тогда, когда число элементов изучаемой совокупности велико. При этом каждому значению одной величины соответствует целое распределение другой. В этом случае говорят о стохастической или корреляционной зависимости.

При изучении корреляционной зависимости между переменными возникают следующие задачи:

- Измерение силы (тесноты) связи;

- Обнаружение неизвестных причин связей;

- Построение корреляционной модели и оценка её параметров;

- Проверка значимости параметров связи;

- Интервальное оценивание параметров связи.

Рассмотрим случай изучения корреляционной зависимости между двумя признаками Y и X. Построение двумерной корреляционной модели предполагает, что закон распределения двумерной случайной величины в генеральной совокупности является нормальным. Это условие обеспечивает линейный характер связи между изучаемыми признаками, что даёт право на использование в качестве показателя тесноты связи парного коэффициента корреляции.

Выделим две основные задачи:

1) Определение формы связи, т.е. нахождение по заданной корреляционной таблице уравнений связи между значениями переменной X и групповыми средними значений переменной Y и наоборот:

или .

Эти уравнения называют уравнениями регрессии Y на X и X на Y соответственно. Если зависимость линейная, то будем говорить о прямых регрессии.

2) Установление тесноты связи, т.е. оценка степени рассеяния значений переменной Y около прямой регрессии для различных значений переменной X.

Рассмотрим решение этих задач на конкретном примере , взятом из книги [3].

Задача: В результате обработки опытных данных получено распределение 100 га пахотной земли по количеству внесенных удобрений X (ц на 1 га) и по урожайности Y (ц с 1 га), представленное в таблице:

Таблица 1.

10

12

14

16

18

20

Итого

10

9

4

1

-

-

-

14

30

1

10

9

3

-

-

23

50

-

2

6

14

6

-

28

70

-

-

1

10

18

6

35

Итого

10

16

17

27

24

6

100

При каждом фиксированном значении рассмотрим распределение величиныи вычислим средние арифметические

Для

Запишем полученную зависимость в таблицу:

Таблица 2.

10

30

50

70

10,86

13,22

15,71

17,66

Совершенно аналогично, рассматривая теперь распределения по столбцам таблицы 1, для каждого найдём средние групповые:

Для

Таблица 3.

10

12

14

16

18

20

12

27,5

38,2

55,2

65

70

Отметим на плоскости XOY точки из таблиц 2 и 3. Соединим их ломанной, получим эмпирические линии регрессии:

Построенные линии позволяют сделать вывод о существовании линейной корреляционной зависимости между Х и Y. Эту зависимость построим в виде уравнения прямой регрессии

(1)

Уравнение (1) служит оценкой уравнения линейной регрессии в генеральной совокупности

(2)

Для отыскания оценочных значений коэффициентов уравнения b0 и b1 применим метод наименьших квадратов (МНК).

Пусть фактическое значение зависимой переменной, а- расчетное значение. Ставится задача: подобрать коэффициентыитак, чтобы сумма квадратов отклонений фактических значений зависимой переменной от расчетных была минимальна, т.е.

(3)

Для того чтобы найти минимум функции (3), находят частные производные первого порядка, затем приравнивают их к нулю и решают полученную систему уравнений:

Раскрыв скобки, получим, так называемую систему нормальных уравнений:

(4)

Введем следующие обозначения:

; ;;;

Тогда из системы (4), с учетом введенных обозначений, найдем:

(5)

Коэффициент является средним значениемв точке

и поэтому не имеет какой-либо экономической интерпретации. На практике больший интерес представляет коэффициент регрессии

Парный коэффициент корреляции, характеризующий тесноту линейной связи между X и Y, определяется как математическое ожидание произведения их нормированных величин:

Выборочная оценка коэффициента корреляции равна

(6)

Здесь - выборочный корреляционный момент. Коэффициентчасто называют коэффициентом прямой регрессиинаи обозначают. С учетом формулы (5), коэффициент корреляции можно вычислять по формуле

(7)

Уравнение прямой регрессии назаписывается в виде:

(8)

В двумерной модели проводится проверка значимости (существенности) параметров и. Проверяется гипотеза об отсутствии линейной корреляции в генеральной совокупности, т.е.. Известно, что если верна нулевая гипотеза, то статистика

(9)

имеет распределение Стьюдента с числом степеней свободы . По таблице распределения Стьюдента находят критическое значениеи сравнивают его с. Если, то гипотеза отвергается. А это значит, что гипотеза о наличии линейной зависимости не противоречит опыту и её можно принять на данном уровне значимости. В таком случае говорят, что коэффициент корреляциизначим или достоверен на уровнен значимости.

Последуем рассмотренной теории в решении начатой выше задачи. Найдем ипо формулам (1) и (2) лекции 1, прии

Таблица 4.

10

14

-40

-2

-28

56

30

23

-20

-1

-23

23

50

28

0

0

0

0

70

35

20

1

35

35

Итого:

100

-

-

-16

114

;

;

Аналогично рассчитываем и, прии

Таблица 5.

10

10

-4

-2

-20

40

12

16

-2

-1

-16

16

14

17

0

0

0

0

16

27

2

1

27

27

18

24

4

2

48

96

20

6

6

3

18

54

Итого:

100

-

-

57

233

;

;

Для подсчета коэффициента регрессии необходимо вычислить. Непосредственное вычисление этой разности приводит к громоздким расчетам. Эти расчеты упрощаются, если использовать формулу:

(10)

С целью упорядочения промежуточных вычислений поместим их в таблицу:

Таблица 6.

10

12

14

16

18

20

Итого:

-2

-1

0

1

2

3

(1)

(2)

(3)

(4)

(5)

(6)

(7)

(8)

(9)

(10)

10

-2

94

42

10

-

-

-

44

-

30

-1

12

101

90

3-1

-

-

12

-3

50

0

-

20

60

140

60

-

-

-

70

1

-

-

10

101

182

63

-

64

Итого:

38

18

-

-3

-

-

56

-3

-

-

-

10

36

18

-

64

В таблице на пересечении строк и столбцов записаны частоты , взятые из таблицы 1 и снабженные индексом равным произведению измененных значенийи, например: на пересечении первой строки и первого столбца стоит число 94. Здесь 9 – частота первоначальных значений x и y, индекс 4 = (-2)(-2). Вся таблица разбита нулевой строкой и нулевым столбцом на четыре части. В столбце (9) подсчитывается сумма произведений частот на индексы построчно в I и III частях: . В столбце (10) – соответствующие суммы воII и IV частях. Нумерация частей идет по контуру буквы Z. Сумма чисел последних четырех клеток: - соответствует двойной сумме в формуле (10). Нижние строки «Итого» служат для контроля правильности вычислений. Таким образом:

Подставляя найденные значения в формулу (8), получим уравнение прямой регрессии y на x:

или

Вычислим коэффициент прямой регрессии x на y по формуле

Соответствующее уравнение прямой имеет вид:

или

Выборочный коэффициент корреляции равен:

С целью оценки достоверности коэффициента корреляции воспользуемся критерием Стьюдента, описанным выше. Найдем значение наблюдаемой статистики по формуле (9):

В таблице критических точек распределения Стьюдента значение , соответствующее уровню значимостии числу степеней свободы, отсутствует. Однако оно находится междуи, и явно меньше наблюдаемого значения. Следовательно, выборочный коэффициент корреляции достоверен на уровне значимости 0,05 и в генеральной совокупности можно принять линейную зависимость.