- •Минобрнауки россии
- •Содержание
- •Раздел I теория вероятностей 8
- •Раздел II математическая статистика 73
- •Введение
- •Раздел I теория вероятностей
- •Правило суммы
- •Правило произведения
- •Формулы комбинаторики
- •Размещения без повторения
- •Перестановки без повторений
- •Сочетания без повторений
- •Размещения с повторением
- •Сочетания с повторением
- •Перестановки с повторением
- •Лекция 2. Пространство элементарных событий. Классическое определение вероятности
- •Пространство элементарных событий
- •Свойства вероятности
- •Лекция 3. Различные определения вероятностей Статистическое определение вероятности
- •Геометрическая вероятность
- •Парадокс Бертрана
- •Аксиоматическое построение теории вероятностей
- •Лекция 4. Условная вероятность. Теорема умножения. Независимые события. Формула полной вероятности
- •Независимые события. Теорема умножения
- •Формула полной вероятности
- •Формула Бейеса
- •Лекция 5. Независимые испытания. Формула Бернулли.
- •Формула Бернулли
- •Наивероятнейшее число
- •Локальная предельная теорема Муавра-Лапласа
- •Интегральная предельная теорема Лапласа
- •Лекция 6. Дискретная случайная величина и ее числовые характеристики Виды случайных величин. Способы описания дискретной случайной величины
- •Функция распределения
- •Свойства функции распределения
- •Математическое ожидание и дисперсия дискретной случайной величины
- •Свойства математического ожидания дискретной случайной величины
- •Математическое ожидание и дисперсия некоторых случайных величин
- •Лекция 7. Непрерывная случайная величина и её распределения
- •Нормальное (гауссовское) распределение
- •Равномерное распределение
- •Лекция 8. Математическое ожидание, дисперсия, моменты непрерывной случайной величины
- •Закон больших чисел. Теорема Чебышева. Центральная предельная теорема
- •Лекция 9. Некоторые модели законов распределений, наиболее распространенных в практике статистических исследований
- •1. Биномиальное распределение
- •2. Распределение Пуассона
- •3. Нормальное (гауссовское) распределение
- •4. Логарифмически-нормальное распределение
- •5. Экспоненциальное распределение
- •7. Распределение Стьюдента с степенями свободы
- •8. Распределение Фишера-Снедекора (f-распределение).
- •Раздел II математическая статистика Лекция 1. Генеральная совокупность. Выборка. Способы образования выборки. Статистическая оценка параметров распределения.
- •Задача статистической оценки параметров
- •Точечные оценки основных параметров распределений
- •Лекция 2. Законы распределения выборочных характеристик, используемые при оценке параметров. Интервальные оценки параметров распределения.
- •1. Распределение средней арифметической.
- •2. Распределение Пирсона (- хи квадрат).
- •3. Распределение Стьюдента (t-распределение).
- •Интервальная оценка параметра распределения. Понятие доверительного интервала.
- •Интервальные оценки для генеральной средней.
- •Интервальные оценки для генеральной доли
- •Интервальные оценки для генеральной дисперсии и среднего квадратического отклонения
- •Лекция 3. Проверка статистических гипотез о значении параметров распределения. Понятие статистической гипотезы и статистического критерия.
- •1. Проверка гипотезы о значении генеральной средней нормально распределённой совокупности
- •2. Проверка гипотезы о значении генеральной дисперсии нормально распределённой совокупности.
- •3. Вычисление мощности критерия
- •Мощность критерия при проверке гипотезы о значении генеральной средней
- •Мощность критерия при проверке гипотезы о значении генеральной дисперсии
- •Лекция 4 Гипотезы о виде закона распределения генеральной совокупности
- •Вычисление теоретического ряда частот
- •Понятие о критериях согласия
- •Критерий согласия Пирсона
- •Лекция 5. Элементы корреляционного анализа Задачи корреляционного анализа. Двумерная корреляционная модель
- •Примерные вопросы к экзамену
- •Задачи к экзамену
Критерий согласия Пирсона
В качестве меры расхождения берётся величина
, (4)
где - эмпирические частоты случайной величины Х;
- теоретические частоты, рассчитанные по предполагаемому закону распределения случайной величины Х.
Наблюдаемая статистика имеет распределение Пирсона с числом степеней свободы.
m – число интервалов эмпирического распределения;
s – число параметров теоретического распределения.
В случае нормального распределения s = 2, .
Схема применения критерия - Пирсона сводится к следующему:
1. Вычисляется статистика по формуле (4);
2. Для выбранного уровня значимости по таблице- распределения находят критическое значение;
3. Правило проверки состоит в следующем: если , то гипотезаотвергается, если, то не отвергается, т.е не противоречит опытным данным.
Пример 2. Используя данные примера 1 на уровне значимости проверить гипотезу о нормальном распределении случайной величины Х – выработки рабочих, с помощью критерия- Пирсона.
Решение: Составим таблицу расчета наблюдаемого значения
Эмпирические частоты |
Теоретические частоты |
Разность | ||
6 |
4,89 |
1,11 |
1,23 |
0,25 |
20 |
23,86 |
-3,86 |
14,9 |
0,624 |
45 |
40,38 |
4,62 |
21,34 |
0,528 |
24 |
24,79 |
-0,79 |
0,62 |
0,025 |
5 |
5,3 |
-0,3 |
0,09 |
0,017 |
100 |
99,22 |
- |
- |
Так как число интервалов , число параметровS = 2, то число степеней свободы . По таблице- распределения находим значение. Видим, что. Следовательно, гипотеза о нормальном распределении генеральной совокупности может быть принята, и она согласуется с опытными данными.
Лекция 5. Элементы корреляционного анализа Задачи корреляционного анализа. Двумерная корреляционная модель
Главной задачей корреляционного анализа является оценка взаимосвязи между переменными величинами на основе выборочных данных.
Различают два вида зависимостей: функциональную и стохастическую. При функциональной зависимости каждому значению одной случайной величины ставится в соответствие определённое значение другой величины.
При изучении массовых явлений зависимость между наблюдаемыми величинами проявляется лишь тогда, когда число элементов изучаемой совокупности велико. При этом каждому значению одной величины соответствует целое распределение другой. В этом случае говорят о стохастической или корреляционной зависимости.
При изучении корреляционной зависимости между переменными возникают следующие задачи:
- Измерение силы (тесноты) связи;
- Обнаружение неизвестных причин связей;
- Построение корреляционной модели и оценка её параметров;
- Проверка значимости параметров связи;
- Интервальное оценивание параметров связи.
Рассмотрим случай изучения корреляционной зависимости между двумя признаками Y и X. Построение двумерной корреляционной модели предполагает, что закон распределения двумерной случайной величины в генеральной совокупности является нормальным. Это условие обеспечивает линейный характер связи между изучаемыми признаками, что даёт право на использование в качестве показателя тесноты связи парного коэффициента корреляции.
Выделим две основные задачи:
1) Определение формы связи, т.е. нахождение по заданной корреляционной таблице уравнений связи между значениями переменной X и групповыми средними значений переменной Y и наоборот:
или .
Эти уравнения называют уравнениями регрессии Y на X и X на Y соответственно. Если зависимость линейная, то будем говорить о прямых регрессии.
2) Установление тесноты связи, т.е. оценка степени рассеяния значений переменной Y около прямой регрессии для различных значений переменной X.
Рассмотрим решение этих задач на конкретном примере , взятом из книги [3].
Задача: В результате обработки опытных данных получено распределение 100 га пахотной земли по количеству внесенных удобрений X (ц на 1 га) и по урожайности Y (ц с 1 га), представленное в таблице:
Таблица 1.
10 |
12 |
14 |
16 |
18 |
20 |
Итого | |
10 |
9 |
4 |
1 |
- |
- |
- |
14 |
30 |
1 |
10 |
9 |
3 |
- |
- |
23 |
50 |
- |
2 |
6 |
14 |
6 |
- |
28 |
70 |
- |
- |
1 |
10 |
18 |
6 |
35 |
Итого |
10 |
16 |
17 |
27 |
24 |
6 |
100 |
При каждом фиксированном значении рассмотрим распределение величиныи вычислим средние арифметические
Для
Запишем полученную зависимость в таблицу:
Таблица 2.
-
10
30
50
70
10,86
13,22
15,71
17,66
Совершенно аналогично, рассматривая теперь распределения по столбцам таблицы 1, для каждого найдём средние групповые:
Для
Таблица 3.
-
10
12
14
16
18
20
12
27,5
38,2
55,2
65
70
Отметим на плоскости XOY точки из таблиц 2 и 3. Соединим их ломанной, получим эмпирические линии регрессии:
Построенные линии позволяют сделать вывод о существовании линейной корреляционной зависимости между Х и Y. Эту зависимость построим в виде уравнения прямой регрессии
(1)
Уравнение (1) служит оценкой уравнения линейной регрессии в генеральной совокупности
(2)
Для отыскания оценочных значений коэффициентов уравнения b0 и b1 применим метод наименьших квадратов (МНК).
Пусть фактическое значение зависимой переменной, а- расчетное значение. Ставится задача: подобрать коэффициентыитак, чтобы сумма квадратов отклонений фактических значений зависимой переменной от расчетных была минимальна, т.е.
(3)
Для того чтобы найти минимум функции (3), находят частные производные первого порядка, затем приравнивают их к нулю и решают полученную систему уравнений:
Раскрыв скобки, получим, так называемую систему нормальных уравнений:
(4)
Введем следующие обозначения:
; ;;;
Тогда из системы (4), с учетом введенных обозначений, найдем:
(5)
Коэффициент является средним значениемв точке
и поэтому не имеет какой-либо экономической интерпретации. На практике больший интерес представляет коэффициент регрессии
Парный коэффициент корреляции, характеризующий тесноту линейной связи между X и Y, определяется как математическое ожидание произведения их нормированных величин:
Выборочная оценка коэффициента корреляции равна
(6)
Здесь - выборочный корреляционный момент. Коэффициентчасто называют коэффициентом прямой регрессиинаи обозначают. С учетом формулы (5), коэффициент корреляции можно вычислять по формуле
(7)
Уравнение прямой регрессии назаписывается в виде:
(8)
В двумерной модели проводится проверка значимости (существенности) параметров и. Проверяется гипотеза об отсутствии линейной корреляции в генеральной совокупности, т.е.. Известно, что если верна нулевая гипотеза, то статистика
(9)
имеет распределение Стьюдента с числом степеней свободы . По таблице распределения Стьюдента находят критическое значениеи сравнивают его с. Если, то гипотеза отвергается. А это значит, что гипотеза о наличии линейной зависимости не противоречит опыту и её можно принять на данном уровне значимости. В таком случае говорят, что коэффициент корреляциизначим или достоверен на уровнен значимости.
Последуем рассмотренной теории в решении начатой выше задачи. Найдем ипо формулам (1) и (2) лекции 1, прии
Таблица 4.
10 |
14 |
-40 |
-2 |
-28 |
56 |
30 |
23 |
-20 |
-1 |
-23 |
23 |
50 |
28 |
0 |
0 |
0 |
0 |
70 |
35 |
20 |
1 |
35 |
35 |
Итого: |
100 |
- |
- |
-16 |
114 |
;
;
Аналогично рассчитываем и, прии
Таблица 5.
10 |
10 |
-4 |
-2 |
-20 |
40 |
12 |
16 |
-2 |
-1 |
-16 |
16 |
14 |
17 |
0 |
0 |
0 |
0 |
16 |
27 |
2 |
1 |
27 |
27 |
18 |
24 |
4 |
2 |
48 |
96 |
20 |
6 |
6 |
3 |
18 |
54 |
Итого: |
100 |
- |
- |
57 |
233 |
;
;
Для подсчета коэффициента регрессии необходимо вычислить. Непосредственное вычисление этой разности приводит к громоздким расчетам. Эти расчеты упрощаются, если использовать формулу:
(10)
С целью упорядочения промежуточных вычислений поместим их в таблицу:
Таблица 6.
10 |
12 |
14 |
16 |
18 |
20 |
Итого: | |||
-2 |
-1 |
0 |
1 |
2 |
3 | ||||
(1) |
(2) |
(3) |
(4) |
(5) |
(6) |
(7) |
(8) |
(9) |
(10) |
10 |
-2 |
94 |
42 |
10 |
- |
- |
- |
44 |
- |
30 |
-1 |
12 |
101 |
90 |
3-1 |
- |
- |
12 |
-3 |
50 |
0 |
- |
20 |
60 |
140 |
60 |
- |
- |
- |
70 |
1 |
- |
- |
10 |
101 |
182 |
63 |
- |
64 |
Итого: |
38 |
18 |
- |
-3 |
- |
- |
56 |
-3 | |
- |
- |
- |
10 |
36 |
18 |
- |
64 |
В таблице на пересечении строк и столбцов записаны частоты , взятые из таблицы 1 и снабженные индексом равным произведению измененных значенийи, например: на пересечении первой строки и первого столбца стоит число 94. Здесь 9 – частота первоначальных значений x и y, индекс 4 = (-2)(-2). Вся таблица разбита нулевой строкой и нулевым столбцом на четыре части. В столбце (9) подсчитывается сумма произведений частот на индексы построчно в I и III частях: . В столбце (10) – соответствующие суммы воII и IV частях. Нумерация частей идет по контуру буквы Z. Сумма чисел последних четырех клеток: - соответствует двойной сумме в формуле (10). Нижние строки «Итого» служат для контроля правильности вычислений. Таким образом:
Подставляя найденные значения в формулу (8), получим уравнение прямой регрессии y на x:
или
Вычислим коэффициент прямой регрессии x на y по формуле
Соответствующее уравнение прямой имеет вид:
или
Выборочный коэффициент корреляции равен:
С целью оценки достоверности коэффициента корреляции воспользуемся критерием Стьюдента, описанным выше. Найдем значение наблюдаемой статистики по формуле (9):
В таблице критических точек распределения Стьюдента значение , соответствующее уровню значимостии числу степеней свободы, отсутствует. Однако оно находится междуи, и явно меньше наблюдаемого значения. Следовательно, выборочный коэффициент корреляции достоверен на уровне значимости 0,05 и в генеральной совокупности можно принять линейную зависимость.