Группировка статистических данных
Группировкой называется распределение единиц совокупности по группам по определенному признаку.
Для построения группировки необходимо:
Выбрать группировочный признак.
Определить количество групп. Для этого можно использовать формулу Стерджесса:
n=1+3.322lgN,
гдеn- количество групп;
N- количество единиц в совокупности.
Либо количество групп может определяться путем подбора, исходя из объема совокупности и степени вариации исследуемого признака. При этом необходимо обеспечить достаточную заполненность всех групп (пустых групп в группировке быть не должно).
Определить величину интервала.
Вид и размер интервала определяется студентом самостоятельно. Если вариация признака небольшая, можно построить равные закрытые интервалы. Если вариация большая, интервалы могут быть открытыми и неравными.
Величина равных интервалов определяется по формуле: i=,
где Xmax и Xmin – наибольшее и наименьшее значение признака в совокупности;
n – количество групп.
Оформить группировочную таблицу, построить интервалы, посчитать количество единиц, попадающих в каждую группу.
Группировочная таблица содержит две колонки.
В левой - интервалы, построенные по группировочному признаку,
в правой - количество единиц совокупности, попадающих в каждую группу.
Пример группировочной таблицы:
n=5
i=2,4
Стоимость основных фондов, млн. руб. |
Количество предприятий |
1,2-3,6 |
6 |
3,6-6,0 |
2 |
6,0-8,4 |
4 |
8,4-10,8 |
3 |
10,8-13,2 |
5 |
Итого |
20 |
Вариационные ряды
Вариационный ряд - это форма представления количественной группировки. Он состоит из двух элементов:
- варианты (X)- отдельные значения признака;
- частоты (f)- количество повторений каждого значения признака в совокупности.
По вариационному ряду может быть рассчитана накопленная частота(f/): она получается путем сложения частоты в каждой группе с частотами всех предыдущих групп.
Например:
X |
1.2-3.6 |
3.6-6.0 |
6.0-8.4 |
8.4-10.8 |
10.8-13.2 |
f |
6 |
2 |
4 |
3 |
5 |
f/ |
6 |
8 |
12 |
15 |
20 |
Вариационные ряды могут быть дискретными и интервальными. В дискретных рядах варианты задаются отдельными числами, в интервальных рядах - границами интервалов.
Графически вариационный ряд представляется с помощью диаграмм:
график дискретного ряда - полигон распределения;
график интервального ряда – гистограмма (столбиковая диаграмма).
График располагается в прямоугольной системе координат, на оси абсцисс откладываются варианты, на оси ординат – частоты.
Характеристики вариационного ряда делятся на две группы:
показатели центра распределения (средняя арифметическая, Мода и Медиана)
показатели вариации распределения – (размах вариации, среднее квадратическое отклонение, дисперсия, коэффициент вариации)
При расчете всех показателей необходимо привести формулы, пояснить все условные обозначения и сделать подстановки. По каждому результату расчётов должен быть сделан вывод.
Показатели центра распределения:
Средняя арифметическая.
Для дискретного ряда:
, где
Xj – варианта в j – й группе;
fj – частота в j – й группе.
Для интервального вариационного ряда:
,
где Х/j - середина j-го интервала;
f- частота j-й группы;
m- количество групп.
Середина интервала Xj/ рассчитывается как полусумма верхней и нижней границ. В открытых интервалах (например, «до 5» или «19 и более») сначала рассчитывается величина условного интервала. Она принимается равной величине последующего или предыдущего интервалов.
Например:
Xj |
Величина интервала |
Условные интервалы |
Xj/ |
До 6 |
|
4-6 |
4+6/2=5 |
6-8 |
8-6=2 |
6-8 |
6+8/2=7 |
8-10 |
10-8=2 |
8-10 |
8+10/2=9 |
10 и более |
|
10-12 |
10+12/2=11 |
2) Мода - наиболее часто встречающееся значение признака в совокупности.
В дискретном ряду Мода равна варианте с наибольшей частотой.
В интервальном ряду сначала определяется модальный интервал (он имеет наибольшую частоту), затем Мода рассчитывается по формуле:
,
где X0 - нижняя граница модального интервала;
fMo – частота модального интервала;
fMo-1 – частота предмодального интервала;
fMo+1 – частота послемодального интервала
i – величина модального интервала.
Медиана – значение признака, делящее совокупность пополам.
В дискретном ряду Медиана равна варианте, накопленная частота которой больше либо равна половине объема совокупности ( f/Me ).
В интервальном ряду сначала определяется медианный интервал (его накопленная частота больше либо равна половине совокупности). Медиана рассчитывается по формуле:
,
где X0 – нижняя граница медианного интервала;
fMe-1/– накопленная частота предмедианного интервала;
fMe – частота медианного интервала;
i – величина медианного интервала.