Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Статистика _Овсянникова (исправленный)

.pdf
Скачиваний:
177
Добавлен:
08.04.2015
Размер:
1.05 Mб
Скачать
x x1
F(x)
F *(x)

В отличие от эмпирической функции распределения выборки функцию распределения F(х) генеральной совокупности называют

теоретической функцией распределения. Различие между эмпири-

ческой и теоретической функциями состоит в том, что теоретическая функция F (х) определяет вероятность события X < х, а эмпирическая функция F* (х) определяет относительную частоту этого же события. Из теоремы Бернулли следует, что относительная частота события X < х, т.е. стремится по вероятности к вероятности этого события. Другими словами, при больших п числа F* (х) и F (х) мало отличаются одно от другого. Уже отсюда следует целесообразность использования эмпирической функции распределения выборки для приближенного представления теоретической (интегральной) функции распределения генеральной совокупности.

Такое заключение подтверждается и тем, что F* (х) обладает всеми свойствами F(x). Действительно, из определения функции F*(x) вытекают следующие ее свойства:

1)значения эмпирической функции принадлежат отрезку [0, 1];

2)F* (х) – неубывающая функция;

3) если x1 – наименьшая варианта, то F*(x)=0 при если xk – наибольшая варианта, то F*(x)=1 при x>xk.

Итак, эмпирическая функция распределения выборки служит для оценки теоретической функции распределения генеральной совокупности.

Полигон и гистограмма

Для наглядности строят различные графики статистического распределения и, в частности, полигон и гистограмму.

Полигоном частот называют ломаную, отрезки которой соединяют точки (x1; n1 ), (x2 ; n2 ),K, (xk , nk ). Для построения полигона частот на оси абсцисс откладывают варианты xi , а на оси ординат– соответствующие им частоты ni : Точки (xi ,ni ) соединяют отрезками прямых и получают полигон частот. Полигоном относительных

10

частот называют ломаную, отрезки которой соединяют точки (x1;W1 ), (x2 ;W2 ),K, (xk ,Wk ). Для построения полигона относительных частот на оси абсцисс откладывают варианты xi , а на оси ординат– соответствующие им относительные частоты Wi . Точки (xi ,Wi ) соединяют отрезками прямых и получают полигон относительных частот.

В случае непрерывного признака целесообразно строить гистограмму, для чего интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько частичных интервалов длиной h и находят для каждого частичного интервала ni – сумму частот вариант, попавших в i-й интервал.

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною h, а высоты равны отношению ni / h (плотность частоты).

Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии ni / h .

Площадь i-го частичного прямоугольника равна hni / h = ni – сумме частот вариант i-го интервала; следовательно, площадь гис-

тограммы частот равна сумме всех частот, т.е. объему выборки. Гистограммой относительных частот называют ступенча-

тую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною h, а высоты равны отношению Wi / h (плотность относительной частоты).

Для построения гистограммы относительных частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии Wi / h . Площадь i-го частичного прямоугольника равна hWi / h =Wi – относительной частоте вариант, попавших в i-й интервал. Следовательно, площадь гистограммы относительных частот равна сумме всех относительных частот, т.е. единице.

11

По виду гистограммы можно выдвинуть гипотезу о типе распределия, исследуемой случайной величины.

Рассмотрим решение типовых задач.

Задание 1 (а, б, в, г, д) контрольной работы №10

Путем опроса получены следующие данные ( n = 80 ):

2 4 2 4 3 3 3 2 0 6

1 2 3 2 2 4 3 3 5 1

0 2 4 3 2 2 3 3 1 3

3 3 1 1 2 3 1 4 3 1

7 4 3 4 2 3 2 3 3 1

4 3 1 4 5 3 4 2 4 5

3 6 4 1 3 2 4 1 3 1

0 0 4 6 4 7 4 1 3 5

 

а) Составить статистическое распределение выборки, предварительно записав дискретный вариационный ряд.

б) Построить полигон частот.

в) Составить ряд распределения относительных частот. г) Составить эмпирическую функцию распределения.

д) Построить график эмпирической функции распределения.

Решение.

а) Для составления дискретного вариационного ряда от-

сортируем данные опроса по величине и расположим их в порядке возрастания

0 0 0 0

1 1 1 1 1 1 1 1 1 1 1 1 1

2 2 2 2 2 2 2 2 2 2 2 2 2 2

3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3

4 4 4 4 4 4 4 4 4 4 4 4

4 4 4 4

 

 

 

 

5 5 5 5

6 6 6

7 7.

 

 

Примечание. Указанную процедуру, как и большинство расчетов по статистике, удобно выполнять, используя электронные таблицы, напри-

мер, Microsoft Excel.

Более компактно эти данные можно представить в виде ста-

тистического распределения выборки (в виде табл. 1.1, в кото-

рой первая строка – варианты (наблюдаемые значение), вторая строка – частоты появления этих вариант).

12

Таблица 1.1

xi

0

1

2

3

4

5

6

7

ni

4

13

14

24

16

4

3

2

б) Для построения полигона частот найдем относительные

m

частоты ( Wi = ni n , где n = ni , где m – число различных значений

i=1

признака X ( m n ) и в данном примере m = 8 ), которые будем вычислять с одинаковой точностью. Полигон относительных частот – ломаная линия, соединяющая точки с координатами (xi ,Wi ). Расчеты запишем в табл. 1.2.

 

 

 

Таблица 1.2

 

 

 

Накопленные

 

xi

ni

Относительная

 

частоты ( Wi )

частоты

 

 

 

 

0

4

0,050

0,050

 

1

13

0,163

0,213

 

2

14

0,175

0,388

 

3

24

0,300

0,688

 

4

16

0,200

0,888

 

5

4

0,050

0,938

 

6

3

0,038

0,975

 

7

2

0,025

1,000

 

80

1

 

 

Изобразим полигон частот вариационного ряда (рис. 1.1).

в) Запишем ряд распределения относительных частот в виде таблицы 1.3, в которой первая строка – варианты (изучаемый признак), вторая строка – относительные частоты (частости) Wi = ni n .

Таблица 1.3

xi

0

1

2

3

4

5

6

7

wi

0,05

0,163

0,175

0,3

0,2

0,05

0,038

0,025

13

Рисунок 1.1

г) Эмпирическую функцию распределения найдем, используя накопленные частоты (табл. 1.2, столбик 4) .

Таким образом, эмпирическая функция распределения примет вид

0;

x 0,

 

0

< x 1,

0,05;

 

1 < x 2,

0,213,

0,388,

2 < x 3,

 

3 < x 4,

F *(x) = 0,688,

0,888,

4 < x 5,

 

5 < x 6,

0,938,

 

6 < x 7,

0,975,

 

x > 7.

1,

14

д) Построим график эмпирической функции распределения (рис. 1.2), используя значения полученные в пункте г.

Рисунок 1.2

15

x1,x2 ,K, xn

Тема 2.

СТАТИСТИЧЕСКИЕ ОЦЕНКИ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ

Пусть требуется изучить количественный признак генеральной совокупности. Допустим, что из теоретических соображений и из вида гистограммы удалось установить, какое именно распре-

деление имеет признак. Естественно возникает задача оценки параметров, которыми определяется это распределение. Например, если наперед известно, что изучаемый признак распределен в генеральной совокупности нормально, то необходимо оценить (приближенно найти) математическое ожидание и среднее квадратическое отклонение, так как эти два параметра полностью определяют нормальное распределение; если же есть основания считать, что признак имеет, например, распределение Пуассона, то необходимо оценить параметр λ , которым это распределение определяется.

Обычно в распоряжении исследователя имеются лишь данные выборки, например значения количественного признака x1,x2 ,K, xn , полученные в результате п наблюдений (здесь и далее наблюдения предполагаются независимыми). Через эти данные и выражают оцениваемый параметр. Рассматривая как независимые случайные величины X1,X2,K, Xn , можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения – это значит найти функцию от наблюдаемых случайных величин, которая и дает приближенное значение оцениваемого па-

16

раметра. Например, для оценки математического ожидания нормального распределения служит функция (среднее арифметическое наблюдаемых значений признака)

X = (X1 + X 2 +K+ X n )/ n .

Итак, статистической оценкой неизвестного параметра теоретического распределения называют функцию от наблюдаемых случайных величин.

Несмещенные, эффективные и состоятельные оценки

Для того чтобы статистические оценки давали «хорошие» приближения оцениваемых параметров, они должны удовлетворять определенным требованиям.

Пусть θ *– статистическая оценка неизвестного параметра θ теоретического распределения. Допустим, что по выборке объема п найдена оценка θ1 * . Повторим опыт, т.е. извлечем из генеральной совокупности другую выборку того же объема и по ее данным найдем оценку θ2 * . Повторяя опыт многократно, получим числа θ1*,θ2*,K,θk *, которые, различны между собой. Таким образом, оценку θ * можно рассматривать как случайную величину, а числа θ1*,θ2*,K,θk * – как ее возможные значения.

Несмещенной называют статистическую оценку θ *, математическое ожидание которой равно оцениваемому параметру θ при любом объеме выборки, т.е.

M [θ *]=θ .

Смещенной называют оценку, математическое ожидание которой не равно оцениваемому параметру.

Однако было бы ошибочным считать, что несмещенная оценка всегда дает хорошее приближение оцениваемого параметра. Действительно, возможные значения θ * могут быть сильно рассеяны вокруг своего среднего значения, т.е. дисперсия D[θ *] может

17

быть значительной. В этом случае найденная по данным одной выборки оценка, например θ1 * , может оказаться весьма удаленной от среднего значения θ * , а значит, и от самого оцениваемого параметра θ ; приняв θ1 * в качестве приближенного значения θ , мы допустили бы большую ошибку. Если же потребовать, чтобы дисперсия θ * была малой, то возможность допустить большую ошибку будет исключена. По этой причине к статистической оценке предъявляется требование эффективности.

Эффективной называют статистическую оценку, которая (при заданном объеме выборки п) имеет наименьшую возможную дисперсию.

При рассмотрении выборок большого объема (п велико!) к статистическим оценкам предъявляется требование состоятельности. - Состоятельной называют статистическую оценку, которая при n →∞ стремится по вероятности к оцениваемому параметру. Например, если дисперсия несмещенной оценки при n →∞ стре-

мится к нулю, то такая оценка оказывается и состоятельной.

Генеральная средняя

Пусть изучается дискретная генеральная совокупность относительно количественного признака X.

Генеральной средней xГ называют среднее арифметическое значений признака генеральной совокупности.

Если все значения x1,x2,K, xN признака генеральной совокупности объема N различны, то

xГ = (x1 + x2 +K+ xN )/ N .

Если же значения признака x1,x2 ,K, xK имеют соответственно частоты N1,N2 ,K, NK , причем N1 + N2 +K+ NK = N , то

xГ = (N1x1 + N2 x2 +K+ NK xK )/ N ,

т.е. генеральная средняя есть средняя взвешенная значений признака с весами, равными соответствующим частотам.

18

Выборочная средняя

Пусть для изучения генеральной совокупности относительно количественного признака X извлечена выборка объема п.

Выборочной средней xВ называют среднее арифметическое значение признака выборочной совокупности.

Если все значения x1,x2 ,K, xn признака выборки объема п различны, то

xВ = (x1 + x2 +K+ xn )/ n .

Если же значения признака

x1,x2 ,K,xk имеют соответственно

частоты n1,n2 ,K,nk , причем n1 + n2 +K+ nk = n , то

xВ = (n1x1 + n2 x2 +K+ nk xk )/ n ,

или

 

 

 

k

 

xВ =

ni xi /n

i=1

 

т.е. выборочная средняя есть средняя взвешенная значений признака с весами, равными соответствующим частотам.

Замечание. Выборочная средняя, найденная по данным одной выборки, есть, очевидно, определеннее число. Если же извлекать другие выборки того же объема из той же генеральной совокупности, то выборочная средняя будет изменяться от выборки к выборке. Таким образом, выборочную среднюю можно рассматривать как случайную величину, а следовательно, можно говорить о распределениях (теоретическом и эмпирическом) выборочной средней и о числовых характеристиках этого распределения (его называют выборочным), в частности о математическом ожидании и дисперсии выборочного распределения.

Заметим, что в теоретических рассуждениях выборочные значения x1,x2 ,K, xn признака X, полученные в итоге независимых наблюдений, также рассматривают как случайные величины X1,X2 ,K, X n , имеющие то же распределение и, следовательно, те же числовые характеристики, которые имеет X.

19