Добавил:
СПбГУТ * ИКСС * Программная инженерия Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Камартина Н. М. Теория вероятностей и математическая статистика. Часть 2. Статистика.pdf
Скачиваний:
15
Добавлен:
17.06.2020
Размер:
1.15 Mб
Скачать

ФЕДЕРАЛЬНОЕ АГЕНТСТВО СВЯЗИ

Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования

«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТЕЛЕКОММУНИКАЦИЙ

им. проф. М. А. БОНЧ-БРУЕВИЧА»

Н. М. Камартина

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

Часть 2. Статистика

Учебно-методическое пособие по выполнению контрольных заданий

САНКТ-ПЕТЕРБУРГ

2014

УДК 519.2(075.8) ББК 22.172я73

К18

Рецензент кандидат физико-математических наук, профессор кафедры

высшей математики СПбГУТ А. Б. Алексеев

Рекомендовано к печати редакционно-издательским советом СПбГУТ

Камартина, Н. М.

К18 Теория вероятностей и математическая статистика. Часть 2. Статистика : учебно-методическое пособие по выполнению контрольных заданий / Н. М. Камартина ; СПбГУТ. – СПб., 2014. – 38 с.

Написано в соответствии с программой учебной дисциплины «Теория вероятностей и математическая статистика». Приведены основные теоретические сведения, необходимые студентам для освоения методов обработки данных, рассмотрены особенности применения основных алгоритмов расчета, в том числе с применением программы EXCEL, необходимые статистические таблицы и варианты контрольных заданий по разделу «Математическая статистика».

Предназначено для студентов факультета ВиЗО, обучающихся по направлениям подготовки 38.03.02 «Менеджмент», 38.03.05 «Биз- нес-информатика».

УДК 519.2(075.8) ББК 22.172я73

©Камартина Н. М., 2014

©Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования «Санкт-Петербургский государственный университет телекоммуникаций им. проф. М. А. Бонч-Бруевича», 2014

2

Содержание

 

Введение ....................................................................................................................

4

Описательная статистика ........................................................................................

5

Задача точечного оценивания параметров распределения ..................................

7

Числовые характеристики выборочной совокупности ........................................

8

Интервальные оценки параметров распределения ...............................................

11

Проверка статистических гипотез ..........................................................................

13

Применение критерия согласия 2 (Пирсона).......................................................

15

Понятие о корреляционно-регрессионном анализе ..............................................

16

Рекомендации по выполнению контрольной работы ...........................................

19

Использование программы Excel в статистических расчетах .............................

22

Контрольные задания по разделу «Математическая статистика» ......................

30

Список литературы ..................................................................................................

31

Приложение ..............................................................................................................

32

3

ВВЕДЕНИЕ

Методы исследования различных явлений и процессов всегда опираются на рассмотрение статистической информации об изучаемых объектах. Трудно назвать область человеческой деятельности, где статистические методы не находили бы применения. Очевидно, их черты в приложении к объектам различной природы всегда своеобразны.

Вместе с тем методы математической статистики имеют общие черты. Они сводятся к подсчету числа объектов, входящих в те или иные группы, рассмотрению распределения количественных значений признаков, применению выборочного метода (в случаях, когда детальное исследование всех объектов обширной совокупности затруднительно), использованию теории вероятностей при оценке достаточности числа наблюдений для

тех или иных выводов и т. п.

Эта формальная математическая сторона статистических методов исследования, не зависящая от специфической природы изучаемых объектов, и составляет предмет математической статистики.

Найденные на основании статистических методов исследования закономерности позволяют построить вероятностную модель изучаемого явления.

Очевидно, что для обнаружения закономерностей случайного массового явления необходимо провести сбор статистических данных, характеризующих отдельные единицы каких-либо массовых явлений. С этой целью формируется так называемая выборка. На основании собранной по выборке информации нужно будет делать выводы о всей совокупности. Она называется генеральной совокупностью. Методы математической статистики дают возможность наилучшим способом использовать имеющуюся информацию для получения по возможности более точных характеристик генеральной совокупности.

Метод, состоящий в том, что на основании характеристик и свойств выборки х1, х2, ..., хn делаются заключения о числовых характеристиках и законе распределения случайной величины Х, называется выборочным методом.

Для того чтобы сведения о законах распределения случайной величины Х были объективны, необходимо, чтобы выборка была репрезентативной, т. е. представительной.

В математической статистике рассматриваются две основные категории задач: оценивание параметров распределения и статистическая проверка гипотез. Предварительным этапом всегда является первичная обработка данных наблюдений, которая называется описательной статистикой.

4

ОПИСАТЕЛЬНАЯ СТАТИСТИКА

Если объем выборки (его мы будем обозначать n) велик, то обрабатывать весь массив собранных данных бывает затруднительно. С целью облегчить вычислительную работу в таких случаях производят так называемую группировку наблюдений. Она бывает также необходима для некоторых статистических процедур. Статистический материал всегда представляют в виде таблицы. Если изучается поведение дискретной случайной величины, то строится таблица из двух строк. В первой помещаются наблюденные значения в порядке возрастания, а во второй – подсчитанные частоты появления одинаковых значений случайной величины Х. В статистике принят термин «вариация признака X». В результате получается так называемый статистический ряд.

хi

x1

х2

...

хk

mi

m1

m2

 

mk

При выполнении статистических процедур обычно используется кон-

k

троль. В данном случае он очевиден: mi n.

i 1

Если изучается непрерывная случайная величина, то группировка заключается в разбиении интервала изменения выбранных значений случайной величины на k частичных интервалов равной длины [x0; x1[, [x1; x2[, [x2; x3[, ..., [xk–1; xk] и подсчете количества попаданий наблюденных значений в частичные интервалы. Иногда вместо частот используют так называемые относительные частоты, которые получаются как отношение частоты

данного варианта к общей сумме частот mni . Длину частичных интервалов

выбирают как правило одинаковой.

Поскольку неизбежно округление данных, следует договориться о концах интервалов. Мы будем использовать полузамкнутые.

В результате составляется интервальный статистический ряд.

Х

[x0; x1 [

[x1; x2 [

 

...

[xk–1; xk]

mi/n

m1/n

m2/n

 

...

mk/n

 

 

k

mi

 

 

Для такого ряда контроль

1.

 

 

 

 

 

i 1

n

 

Ряд по частотам рассматривается для случая разбиения на равные интервалы. Относительные частоты предпочтительнее для разбиения на неравные. Мы будем рассматривать первый вариант.

5

Перечень наблюденных значений случайной величины Х (или интервалов наблюденных значений) и соответствующих им частот называется

статистическим законом распределения случайной величины.

Для выполнения статистических процедур интервальный ряд как правило подвергают дальнейшим преобразованиям. Длину частичного интервала следует выбирать так, чтобы ряд не был слишком громоздким, но при этом позволял выявлять характерные изменения признака X. Величину R xmax xmin называют размахом выборки. Количество интервалов k вы-

бирают по формуле Стерджесса: k 1 3,322 lg n . Очевидно, это число округляется до целого. Далее определяется длина интервалов разбиения. Для

случая равных интервалов ее называют «шагом»: h Rk .

Формируется таблица, в которой интервалы статистического ряда идут в столбце. В каждом из них выбирается середина, и ей «приписывается» частота, относящаяся к данному интервалу. В литературе принят термин «вес».

Статистические законы позволяют визуально произвести оценку закона распределения исследуемой случайной величины. Это очень важная часть этапа описательной статистики. Одним из наиболее распространенных приемов визуализации данных является гистограмма.

Гистограммой называется ступенчатая фигура, состоящая из прямоугольников, в основании которых лежат интервалы разбиения, а высоты определяются формулой

mi n mi*.

Такая гистограмма является ненормированной и подходит для простой визуализации данных. Площадь такой ступенчатой фигуры очевидно равна h.

С математической точки зрения целесообразнее использовать нормированную гистограмму, в которой на оси ординат откладываются не сами частоты, а плотности распределения наблюдений. Для такой гистограммы по оси ординат откладывают значения

mi hn m* . h

Тогда характер изображения не будет меняться в зависимости от изменения шага разбиения массива данных на интервалы. Нормированная гистограмма обладает важным свойством: сумма площадей всех прямо-

угольников равна 1.

Если строить нормированную гистограмму по частотам, то такая площадь будет равна объему выборки.

Полигоном частот называется ломаная, соединяющая точки с координатами xi , xi 1 . Этот способ изображения используют для случая дискретной вариации.

6

P 1 .

ЗАДАЧА ТОЧЕЧНОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ

Выводы о вариации признака на всей генеральной совокупности делают по выборке. Состав выборки случаен, поэтому выводы о параметрах распределения генеральной совокупности не могут быть точными. С ростом объема выборки вероятность правильного вывода должна увеличиваться. Поэтому любому решению, принимаемому по выборке, сопоставляют вероятность, отражающую степень достоверности принятого результата. Задача оценки параметров в общем виде формулируется так.

Пусть X – случайная величина с законом распределения F(X, θ). Здесь θ параметр распределения, числовое значение которого неизвестно. Судят о нем по выборке. Всякую однозначно определенную функцию выборочных наблюдений, с помощью которой судят о значении параметра θ, называют оценкой (статистикой) параметра θ. Для нас интерес представляют выборочные оценки для параметров генеральной совокупности. Оценка должна быть «хорошей», а значит, отвечать некоторым свойствам. Очевидно, нужно обеспечить отсутствие систематических ошибок при оценке параметров. Оценку, обладающую таким свойством, называют несмещенной. Ее математическое ожидание должно быть равно оцениваемому параметру.

Поскольку оценка – это статистика, ее значение меняется от выборки к выборке. Меру ее рассеивания около математического ожидания, как известно из теории вероятностей, характеризует дисперсия. Очевидно, из двух оценок лучшей будет та, рассеивание которой около оцениваемого параметра будет меньше. Несмещенную оценку, которая имеет наименьшую дисперсию среди всех несмещенных оценок параметра θ, вычисленных по выборке одного и того же объема, называют эффективной оценкой.

Оценку называют состоятельной, если при достаточно большом числе независимых наблюдений с вероятностью, близкой к 1, можно утверждать, что разность между выборочной оценкой и неизвестным параметром по абсолютной величине окажется меньше сколь угодно малого положительного числа δ:

Здесь ε положительное число, близкое к нулю.

Смысл приведенного соотношения в том, что чем больше число наблюдений, тем больше уверенность (вероятность) в незначительном отклонении оценки от неизвестного параметра. Очевидно, что «хорошая» оценка должна быть состоятельной, иначе она не имеет практического смысла, так как увеличение объема полученной информации не будет приближать нас к «истинному» значению параметра.

Наиболее важными числовыми характеристиками случайной величины являются математическое ожидание и дисперсия. Для их точечного (одним числом) оценивания используют числовые характеристики выборки.

7