Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

3119

.pdf
Скачиваний:
0
Добавлен:
15.11.2022
Размер:
3.05 Mб
Скачать

5.На какие группы можно разделить численные характеристики выборок? Какие показатели входят в каждую группу?

6.Какие статистические функции есть в Microsoft

Excel?

21

Лабораторная работа №2 ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ

ВEXCEL

1.ОБЩИЕ УКАЗАНИЯ ПО ВЫПОЛНЕНИЮ ЛАБОРАТОРНОЙ РАБОТЫ

1.1.Цель работы

Изучение основных методов проверки статистических гипотез о нормальном распределении; получение практических навыков применения функций Excel для проверки гипотез.

1.2. Используемое оборудование и программное обеспечение

Для выполнения лабораторной работы требуется ПЭВМ типа IBM PC с установленной ОС Windows XP и выше, математический пакет Microsoft Excel 2007 и выше.

2. МЕТОДИЧЕСКИЕ

УКАЗАНИЯ

ПО ВЫПОЛНЕНИЮ ЛАБОРАТОРНОЙ РАБОТЫ

2.1. Основные этапы проверки

статистических

гипотез

 

Если задачей описательной статистики является вычисление основных характеристик распределения значений случайно выборки, то аналитическая статистика ориентирована на обработку результатов наблюдений с целью формулировки выводов, имеющих прикладное значение. При этом решаются такие задачи, как определение соответствия полученных результатов наблюдений какому-либо теоретическому распределению, определение соответствия выборки генеральной совокупности, различий или взаимосвязей между различными выборками и т.д. Одним из методов формулировки выводов является проверка гипотез.

22

Статистическая гипотеза – это предположение о виде или отдельных параметрах распределения значений выборки, которое необходимо проверить.

В зависимости от содержания гипотезы можно разделить на две группы:

-параметрические - содержат утверждения о параметрах генеральной совокупности;

-непараметрические – содержат утверждения обо всем распределении случайной величины.

Процедура проверки гипотезы включает следующие основные этапы:

1. Формулируется основная (нулевая) гипотеза H0 и

отрицающая ее альтернативная гипотеза H1. Как правило, H0

заключается в том, что все значения выборки случайны и никаких взаимосвязей между ними нет, а гипотеза H1 предполагает наличие закономерностей в экспериментальных данных.

2.Принимается уровень значимости гипотезы - вероятность ошибочного вывода, когда будет отвергнута верная гипотеза. Как правило, принимает стандартные значения 0.05, 0.01 или 0.005.

3.Выбирается критерий К, позволяющий сравнить выдвинутые гипотезы на предмет их противоречивости выборочным данным.

4.Для гипотезы определяется критическая область – набор значений критерия К, при которых верная гипотеза отвергается. Вероятность наступления этого события должна быть равна P(K ) .

2.2. Основные

сведения

о

нормальном

распределении

 

 

 

Нормальное распределение имеет важное значение в теории и практике статистических исследований, поскольку именно оно описывает закономерности протекания процессов

23

функционирования технических и экономических систем, развития живых организмов и социальных групп и т.д.

Для описания нормального распределения используются следующие функции:

- плотность распределения вероятностей:

(x )2

p(x) 1 e 2 2 ,

2 - функция распределения:

 

 

1

 

x (t )2

F(x)

 

 

e

2 2

dt .

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

Параметрами нормального

распределения являются

x - математическое ожидание случайной величины X и ее среднеквадратичное отклонение . Графики функций p(x) и F(x) приведены на рис. 11 - 12.

Рис. 11. График плотности распределения вероятностей нормального распределения

24

Рис. 12. График функции нормального распределения

2.3. Типовые задачи проверки гипотез с помощью критериев согласия

К основным задачам, требующим проверки статистических гипотез, относятся:

1. Проверка соответствия выборки теоретическому распределению – оценка степени соответствия результатов наблюдений какому-либо теоретическому распределению. Данная задача возникает в процессе анализа данных, т.к. иногда от типа распределения данных зависит выбор конкретного метода их обработки.

В качестве гипотезы в задаче выступают:

-H0 - исходная выборка подчиняется некому

предполагаемому распределению;

- H1 - исходная выборка теоретическому закону не подчиняется.

Для решения данной задачи используется критерий Пирсона (критерий 2 – хи-квадрат). Он основан на сравнении эмпирических абсолютных частот в результатах наблюдений и теоретических частот, характерных для какого-

25

либо распределения. Данный критерий вычисляется по формуле:

2 m ni ni 2 ,

i1 ni

где ni - частоты теоретического распределения.

На основании критерия Пирсона вычисляется вероятность совпадения фактических и теоретических значений выборки. Если вычисленная вероятность ниже уровня значимости, то нулевая гипотеза отвергается и утверждается, что наблюдаемые значения не соответствуют выбранному теоретическому распределению.

2. Проверка равенства средних величин в двух нормально распределенных выборках – оценка вероятности того, что выборки относятся к одной генеральной совокупности, т.е. что различия между выборками не являются существенными.

Пусть даны две генеральные совокупности X и Y, распределенные по нормальному закону. В задаче проверяются гипотезы:

- H0 - средние значения в двух выборках X и Y равны,

т.е. X Y ;

- H1 - средние значения отличаются, т.е. X Y .

Для проверки гипотезы о равенстве средних наиболее часто используется критерий Стьюдента (t-критерий), позволяющий найти вероятность того, что обе выборки относятся к одной и той же генеральной совокупности. Если эта вероятность ниже уровня значимости, то нулевая гипотеза отвергается и делается вывод, что выборки относятся к двум разным совокупностям.

При использовании t-критерия можно выделить два случая:

- выборки X и Y независимы и включают элементы, не связанные между собой, при этом число элементов выборок может быть различным;

26

- выборки X и Y зависимы и представляют собой данные об одних и тех же элементах до и после какого-либо воздействия; объем выборок одинаковый.

2.4. Функции Excel для проверки статистических гипотез

К основным статистическим функциям, реализующим вычисление критериев согласия, относятся:

-ХИ2.ТЕСТ(x1:xn; y1:yn) – вычисление вероятности совпадения фактических и теоретических значений с использованием критерия Пирсона, x1:xn – массив значений, подлежащих сравнению, y1:yn – теоретические значения распределения;

-СТЬЮДЕНТ.ТЕСТ(x1:xn; y1:yn; h; n) – вычисление вероятности того, что обе выборки взяты из одной генеральной совокупности по критерию Стьюдента, x1:xn, y1:yn – сравниваемые диапазоны, h – «хвосты» – параметр, определяющий вид распределения: 1 – одностороннее (точно известно, что значения одной из выборок больше значений другой), 2 – двухстороннее (между элементами выборок может быть как положительная, так и отрицательная разность); n – тип выполняемого теста: 1 – парный (применяется, в основном, для зависимых выборок), 2 - двухвыборочный с равными дисперсиями, 3 - двухвыборочный с неравными дисперсиями.

2.5. Функции Excel для генерирования рядов с нормальным распределением

Поскольку в процессе анализа экспериментальных данных их часто приходится сравнивать с нормальным распределением, то приведем описание функций для генерирования нормально распределенного ряда данных:

- НОРМ.СТ.РАСП(x1,x2,…; n) – для набора значений x1,x2,… возвращает стандартное нормальное распределение с

27

параметрами 0 и 1; вид функции зависит от параметра

n: при n ЛОЖЬ

или n 0

вычисляется плотность

распределения, при

n ИСТИНА

или n 1 возвращается

функция распределения вероятностей;

-НОРМ.РАСП(x1,x2,…; m, d, n) - возвращает

стандартное нормальное распределение с параметрами m и d, параметр n имеет тот же смысл, что и в функции НОРМ.СТ.РАСП().

2.6. Примеры проверки гипотез с использованием критериев согласия в Excel

Продемонстрируем применение функций Excel для анализа выборки из первой лабораторной работы. В качестве уровня значимости критериев согласия примем 0.05.

Вначале сравним результаты наблюдений (диапазон B2:L2) с нормальным распределением графически. Для этого рассчитаем теоретическое распределение по имеющимся значениям выборочного среднего (ячейка B14) и выборочного стандартного отклонения (B18). Для ячейки B8 зададим формулу:

=НОРМ.РАСП(B2;$B$14;$B$18;0)

и скопируем ее в ячейки С8:L8.

Изменим гистограмму на рис. 5, добавив на нее график нормального распределения. Для этого необходимо выделить диаграмму и выполнить команду Конструктор / Данные / Выбрать данные / Элементы легенды (ряды) / Добавить, в окне Изменение ряда в поле Значение выбрать диапазон B8:L8, выделить построенную гистограмму и изменить ее тип (Конструктор / Тип / Изменить тип диаграммы / График / График). Полученная диаграмма изображена на рис. 13.

28

Рис. 13. Сравнение гистограммы выборки с нормальным распределением

Как видно, график нормального распределения приближенно совпадает с гистограммой исследуемой выборки.

Далее определим соответствие экспериментальных данных нормальному распределению с помощью критерия Пирсона. Для этого надо вычислить абсолютные частоты нормального распределения с помощью формулы в ячейке B9, которую затем применить для всего диапазона С9:L9:

=B8*$B$13.

Формулу для вычисления критерия Пирсона запишем в ячейку B11:

=ХИ2.ТЕСТ(B3:L3;B9:L9)

Результаты вычислений приведены на рис. 14.

Рис. 14. Исходные данные и результат вычисления критерия Пирсона

29

Поскольку значение критерия 2 , то нулевая гипотеза принимается и можно сделать вывод, что исследуемые данные подчиняются нормальному закону распределения.

Далее рассмотрим пример проверки гипотезы о средних двух зависимых выборок. Предположим, что в рассматриваемом примере со студентами через какой-то промежуток времени было проведено повторное тестирование и необходимо оценить, изменились ли знания студентов со временем. На листе Лист1 в диапазоне В2:В31 зададим выборку, содержащую результаты повторного тестирования и определим значение критерия Стьюдента по формуле:

=СТЬЮДЕНТ.ТЕСТ(Лист1!A2:A31; Лист1!B2:B31;2;1)

Вданной функции вид распределения (двухстороннее) выбрано потому, что неизвестно, в какую сторону изменились результаты теста (уменьшились или увеличились) и допускается, что может быть и то, и другое; парный тест используется т.к. каждый элемент одной выборки сравнивается с одним элементом из другой (результаты первичного и повторного тестирования для одного студента).

Результатом работы функции будет значение 0,041664. Поскольку оно меньше уровня значимости, то нулевая гипотеза о равенстве средних отвергается, следовательно, фактор время сильно влияет на результаты тестирования.

Внадстройке Анализ данных такой же результат можно получить с помощью процедуры Парный двухвыборочный t- тест для средних. Окно с заполненными входными параметрами приведено на рис. 15. Таблица с результатами теста изображена на рис. 16.

30

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]