Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Юдин С.В. Математика в экономике.pdf
Скачиваний:
207
Добавлен:
14.02.2015
Размер:
5.8 Mб
Скачать

Задача 4.8. Проверка гипотезы о виде закона распределения.

По результатам наблюдения в течение 50 рабочих дней было установлено, что менеджер операционного зала банка обслуживал

следующее количество клиентов в день:

12

14

11

7

8

10

17

5

9

13

5

9

13

21

10

14

9

15

17

12

18

14

10

12

12

19

6

20

10

5

15

16

21

14

27

16

9

20

30

5

20

15

17

13

18

9

16

21

11

16

По исходным данным установить:

1) основные статистические характеристики работы менедже-

ра;

2) выяснить, подчиняется ли случайное число «количество клиентов за день» нормальному распределению.

Решение. Первый шаг: расчет основных статистик при помощи функции «Описательные статистики», как показано в предыдущем примере. Результаты расчета представлены на рис. 4.23.

Второй шаг: расчет гистограмм. Под гистограммой понимает-

ся численное или графическое представление частот попадания зна-

чений случайной величины в заданные интервалы. Обычно предпо-

лагается, что ширина всех интервалов одинакова. Относительно ко-

личества интервалов, и соответственно, их ширины, существует большое количество допущений. Автор, в свое время, при работе над кандидатской, а затем и докторской, диссертацией, исследовал эту проблему и выяснил, что ни одна из приводимых в руководствах эм-

пирических формул ничем не обоснована [4]. Анализ с точки зрения теории информации дает основание утверждать, что оптимальное

119

значение ширины интервала разбиения – среднее квадратическое от-

клонение.

Рис. 4.23. Основные статистики исследуемой случайной величины Учитывая, что малое количество данных, их целочисленность,

выберем в качестве ширины интервала разбиения ∆=5≈S=5.49

Для построения гистограммы используем команду «Сер-

вис»==> «Статистический анализ» ==> «Гистограмма» (рис. 4.24).

В строке ввода панели «Гистограмма» указываем диапазон ячеек, в которых находятся исходные данные.

Затем выбираем вкладку «Двоичные» (рис. 4.25). ВНИМАНИЕ! Здесь, как это, к сожалению, часто бывает в

свободно распространяемых программах, имеет место ошибка пере-

120

водчика. В оригинале стоит слово «Bins» - «Карманы». Это тоже не самое удачное название, но, по крайней мере, близко к смыслу.

Рис. 4.24. Ввод исходных данных

121

Рис. 4.25. Ввод интервалов На этой вкладке указываются границы интервалов, в которых

необходимо искать частоты.

Если границы рассчитаны вручную, то эти значения следует поместить в ячейки рабочего листа и указать их расположение в окне ввода.

Пометим пункт «Вычисленные двоичные» - это означает, что мы дадим программе исходные данные, а далее она сама вычислит все, что нужно.

Пункт «Мин.» - указываем минимальное значение случайной величины - 5 (см. рис. 4.23). Пункт «Макс.» - 30.

N – количество интервалов. Оно рассчитывается по формуле

N

Макс. Мин. 30 5

5.

 

 

 

5

 

 

122

Во вкладке «Параметры» указываем тип гистограммы (рис.

4.26).

Рис. 4.26. Выбор типа гистограммы На рис. 4.27 представлены результаты расчета.

123

Рис. 4.27. Результаты расчета гистограммы

Третий шаг. Расчет критерия Пирсона и проверка распределе-

ния на нормальность.

Методика расчета критерия Пирсона требует, чтобы в каждом интервале было не менее 5 попаданий. В нашей гистограмме (рис.

4.27) в 4-м и 5-м интервалах 3 и 2 попадания соответственно. Поэто-

му их требуется объединить.

Составим новую таблицу на новом рабочем листе (рис. 4.28).

Новые границы интервалов представлены в ячейках A2:A7, а часто-

ты – в ячейках В2:В7. Как можно отметить, заголовок «Двоичное» был заменен заголовком «Границы».

Для каждого интервала вычислим теоретическую вероятность по формуле:

pi

 

1

 

xi

exp

(x x)2

dx .

 

 

 

 

2S 2

2

S

xi

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

124

Здесь S=5,4923 – среднее квадратическое отклонение (ячейка

D11); x 13,72 - среднее значение (ячейка D10).

Составим таблицу соответствия интервалов и их границ.

Номер

Нижняя

Ячейка

Верхняя

Ячейка

интервала

граница

 

граница

 

 

 

 

 

 

1

-

-

10

А3

 

 

 

 

 

2

10

А3

15

А4

 

 

 

 

 

3

15

А4

20

А5

 

 

 

 

 

4

20

А5

30

А6

 

 

 

 

 

Для расчета вероятностей используем функцию normdist (опи-

сание см. задачу 4.4). Ввод аргументов показан на рис. 4.29.

Для расчета первой вероятности необходимо одно действие.

Для других же, придется по очереди вычислять функцию нормально-

го распределения от каждой границы, а затем вычитать их друг из друга, например:

=normdist(Лист2!A5;Лист2!$D$10;Лист2!$D$11;1)- normdist(Лист2!A4;Лист2!$D$10;Лист2!$D$11;1)

Вычисленные вероятности представлены в ячейках D3:D6 (рис.

4.28).

Далее, вычисляем теоретические частоты по формуле: fi=50pi.

Эти значения представлены в ячейках F3:F6 (рис. 4.28).

 

 

(gi

fi )2

Вычисляем слагаемые формулы Пирсона:

ai

 

 

, где

 

 

 

 

 

fi

gi – эмпирические частоты (значения гистограммы, см. рис. 4.28,

ячейки В3:В6). Результаты помещаем в ячейки А15:А18).

Далее складываем полученные значения функцией

SUM(А15:А18). Результат находится в ячейке В19.

125

Итак, 2=1,4163.

Последнее действие – вычисление критического значения кри-

терия Пирсона.

Число степеней свободы k=m-2-1=4-2-1=1.

Рис. 4.28. Расчет критерия Пирсона

126

Рис. 4.29. Аргументы функции нормального распределения Вызываем функцию, обратную функции распределения Пир-

сона «=r.qchisq(0,95;1;)» и получаем результат, помещенный в ячейку

D19: 3,8415.

Т.к. рассчитанное значение критерия Пирсона меньше крити-

ческого, то принимаем гипотезу о нормальности распределения ис-

следуемой случайной величины.

Замечание. На самом деле, при проверке статистических гипо-

тез нельзя говорить, что мы принимаем гипотезу. Следует говорить,

что у нас нет оснований ее отвергнуть.

Дело в том, что часто, при проверке нескольких гипотез, воз-

можно по какому-то критерию принять не одну, а две-три гипотезы.

Между ними невозможно сделать выбор. Нужно либо применить ка-

кой-то другой критерий, либо исходить из соображений, выходящих за рамки математической статистики (а именно, из Ваших профес-

сиональных знаний).

127

В то же время, если гипотеза отвергается, то она отвергается

почти достоверно.

128

Задача 4.9. Оценка связи между факторами, уравнение рег-

рессии.

На машиностроительных предприятиях было проведено иссле-

дование зависимости выработки на одного рабочего в год (в млн.

руб.) от условной энерговооруженности (в десятках киловатт на че-

ловека).

Оценить степень связи, построить уравнение регрессии.

Исходные данные приведены в таблице:

X

Y

X

Y

X

Y

X

Y

X

Y

 

 

 

 

 

 

 

 

 

 

0.120

2.115

0.013

2.399

0.588

2.826

0.076

2.322

0.106

2.432

 

 

 

 

 

 

 

 

 

 

0.442

2.597

0.915

3.053

0.528

2.547

0.892

2.941

0.776

3.119

 

 

 

 

 

 

 

 

 

 

0.888

2.993

0.947

3.203

0.855

3.081

0.254

2.223

0.195

2.561

 

 

 

 

 

 

 

 

 

 

0.901

3.114

0.992

2.996

0.808

2.920

0.059

2.249

0.577

2.864

 

 

 

 

 

 

 

 

 

 

0.959

3.250

0.995

2.999

0.438

2.708

0.618

2.717

0.925

3.007

 

 

 

 

 

 

 

 

 

 

0.236

2.327

0.032

2.242

0.268

2.399

0.227

2.571

0.372

2.553

 

 

 

 

 

 

 

 

 

 

0.093

2.170

0.835

3.220

0.851

3.035

0.523

2.842

0.066

2.125

 

 

 

 

 

 

 

 

 

 

0.455

2.480

0.715

2.732

0.272

2.562

0.026

2.269

0.183

2.470

 

 

 

 

 

 

 

 

 

 

0.771

3.105

0.151

2.439

0.934

3.149

0.387

2.803

0.916

2.938

 

 

 

 

 

 

 

 

 

 

0.445

2.520

0.709

2.987

0.456

2.460

0.714

2.834

0.309

2.713

 

 

 

 

 

 

 

 

 

 

0.106

2.449

0.822

3.110

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Решение. Введем исходные данные в электронные таблицы

Gnumeric по столбцам, соблюдая порядок по строкам (т.е. значение

X на любой строке должно соответствовать значению Y на той же строке) (рис. 4.30).

129

Далее вызовем статистическую функцию «Регрессия» последо-

вательностью команд меню: «Сервис»==> «Статистический анализ»

==> «Регрессия». Появится панель ввода данных (рис. 4.31).

В окне ввода «Переменные Х» следует выбрать весь столбец А

(установить курсор в это окно, нажать мышкой на кнопку «А» над столбцом). Аналогично, в окне ввода «Переменная Y» нужно вы-

брать столбец В. Затем галочкой отметить пункт «Метки» (это нужно сделать, т.к. у нас в первой строке стоят имена переменных, а не чис-

ла) и нажать «ОК». В новом листе «Регрессия (1)» появятся резуль-

таты расчета (рис. 4.32 и табл. 4.1).

Рис. 4.30. Исходные данные

130

Рис. 4.31. Панель функции «Регрессия».

Рис. 4.32. Результаты расчета

131

В таблице «Итоговый вывод» приведены очень важные харак-

теристики:

1.Множественная регрессия R=0,9041;

2.Коэффициент определенности R2=0,8173.

Второй коэффициент имеет смысл коэффициента определен-

ности процесса. Он говорит о том, какая доля изменения признака Y

определяется изменением фактора X. Как видно, изменение Y на

81,7% определяется фактором X. Это очень много.

В таблице «Дисперсионный анализ» для нас важен пункт «Зна-

чимость F». Величина в этом пункте равна 2,5811E-25 или 2,58∙10-25,

что меньше любого разумного уровня значимости. Обычно задают уровень значимости, равный 0.01, 0.05, 0.10, что соответствует дове-

рительной вероятности 0.99, 0.95, 0.9.

Т.к. «Значимость F» меньше уровня значимости, следователь-

но, уравнение регрессии ЗНАЧИМО.

Таблица 4.1.

 

 

Сводка результатов расчета

 

 

 

 

Итоговый вывод

 

 

 

 

 

 

 

Регрессионные

 

 

 

статистики

 

 

 

 

 

 

 

Множественная

 

0,9041

 

регрессия

 

 

 

 

 

 

 

Коэффициент

 

0,8173

 

определенности

 

 

 

 

 

 

 

Подобранный

 

0,8145

 

коэффициент

 

 

 

определенности

 

 

 

 

 

 

 

Стандартная ошибка

 

0,1159

 

 

 

 

 

Наблюдения

 

66

 

 

 

 

 

Дисперсионный анализ

 

 

 

 

 

 

 

 

132

 

степень

сумма

Квадрат

F

Значи-

 

 

свободы

квадратов

среднего

 

мость F

 

 

 

 

 

 

 

 

Регрессия

1

3,8484

3,8484

286,3848

2,58E-25

 

 

 

 

 

 

 

 

Остатки

64

0,86

0,0134

 

 

 

 

 

 

 

 

 

 

Всего

65

4,7085

 

 

 

 

 

 

 

 

 

 

 

 

Коэффи-

Стандартная

t Stat

Значение P

Ниже

Выше 95%

 

циенты

ошибка

 

 

95%

 

 

 

 

 

 

 

 

Пересечение

2,2273

0,0312

71,2752

1,09E-62

2,1649

2,2898

 

 

 

 

 

 

 

x

0,872

0,0515

16,9229

2,58E-25

0,769

0,9749

 

 

 

 

 

 

 

Коэффициенты уравнения регрессии находятся в столбце «Ко-

эффициенты». Уравнение имеет вид: y=a+bx, где а= «Пересечение» =

2,2273; b=«х»=0,8720.

Итак: y 2,2273 0,872 x .

133