- •Статистическая обработка выборочных данных
- •Перечень основных понятий, определений и расчётных формул
- •Теории вероятности и аналитической статистики
- •Основы теории вероятности
- •Случайное событие
- •Вероятность события
- •Случайная величина
- •Закон распределения
- •Плотность распределения (плотность вероятности)
- •Математическое ожидание (среднее, среднее значение)
- •Дисперсия (рассеяние)
- •Среднеквадратическое отклонение (стандартное отклонение)
- •Нормальное распределение (распределение Гаусса)
- •Двумерное нормальное распределение
- •Коэффициент корреляции
- •Основы аналитической статистики Единица наблюдения
- •Генеральная совокупность
- •Выборка
- •Статистика
- •Ошибка оценки
- •Выборочное среднее
- •Выборочная дисперсия
- •Выборочное среднеквадратическое отклонение
- •Выборочная среднеквадратическая ошибка
- •Выборочный коэффициент корреляции
- •Гистограмма
- •Оценка доли качественного признака и её ошибка
- •Оценка математического ожидания количественного признака и её ошибка
- •Доверительный интервал
- •Необходимый объём выборки при оценке доли качественного признака
- •Необходимый объём выборки при оценке математического ожидания количественного признака
- •Роль нормального распределения в статистике
Гистограмма
Гистограмма – это графическое представление оценок значений неизвестного закона распределения или плотности распределения наблюдаемой случайной величины по выборочным данным.
Представляет собой столбиковую диаграмму, построенную по таблице, содержащей две графы. В первой – границы или номера примыкающих друг к другу интервалов возможных значений случайной величины; во второй – соответствующие интервалам относительные частоты попадания в них значений случайной величины, вычисленные по выборочным данным.
Величины интервалов обычно берут равными друг другу. Сравнительно надёжными могут считаться значения относительных частот для тех интервалов, в которые попало не менее десятка значений из числа выборочных данных. Для удовлетворения этому требованию увеличивают, если это возможно, объём выборки, или расширяют интервалы.
Оценка доли качественного признака и её ошибка
Доля качественного признака в генеральной совокупности равна вероятности его появления в единичном опыте p.
Качественный признак с долей p в генеральной совокупности описывается двузначной случайной величиной X, которая может принимать всего два значения: 0 и 1, причём значение 1 с вероятностью p. Такая двузначная случайная величина имеет математическое ожидание и дисперсию
M(X) = p ,
D(X) = p(1–p) .
Оценка неизвестной вероятности p по выборочным данным может быть произведена по формуле выборочного среднего, причём те данные, в которых признак проявился, заменяются единицами, а те, в которых он не проявился – нулями. Фактически вычисляется отношение количества появлений признака k к общему числу опытов n, известное в статистике как относительная частота:
= k/n .
Обозначение оценки доли качественного признака – «крышечка».
Количество появлений признака в n независимых опытах есть биномиальная случайная величина k. Математическое ожидание и дисперсия биномиальной случайной величины составляют, соответственно, M(k) = np и D(k) = np(1–p) .
Отношение количества появлений качественного признака k в выборке к объёму выборки n, т.е. , также является случайной величиной, возможные значения которой вn раз меньше соответствующих значений биномиальной случайной величины k и имеют те же вероятности, что и у биномиальной случайной величины.
Математическое ожидание и дисперсия оценки доли качественного признака составляют:
M() = p ,
D() = p(1–p)/n .
Как можно видеть, дисперсия оценки в n раз меньше дисперсии двузначной случайной величины, которой описывается качественный признак: D() = D(X)/n.
Это означает, что отклонение оценки доли качественного признака от истинного значенияp, характеризуемое дисперсией оценки, уменьшается с ростом объёма выборки n.
Выборочная дисперсия оценки доли качественного признака находится путём замены в предыдущей формуле неизвестной доли качественного признака p на её оценку , вычисленную по формуле выборочного среднего:
= .
Среднеквадратическая ошибки оценки вычисляется путём извлечения квадратного корня:
= .
Оценка математического ожидания количественного признака и её ошибка
Количественный признак в генеральной совокупности характеризуется своим математическим ожиданием M(X), дисперсией D(X), а также распределением и др.
Оценка математического ожидания производится по формуле выборочного среднего ; оценка дисперсии – по формуле выборочной дисперсии s2 .
Ошибка оценки математического ожидания зависит от дисперсии количественного признака в генеральной совокупности D(X) и уменьшается с ростом объёма выборки n. Дисперсия оценки математического ожидания количественного признака по выборке такова:
D() = .
Выборочная дисперсия оценки математического ожидания находится путём замены в предыдущей формуле неизвестной дисперсии генеральной совокупности D(X) на её оценку s2, вычисленную по выборочным данным:
= .
Для определения среднеквадратической ошибки оценки математического ожидания необходимо извлечь из выборочной дисперсии квадратный корень:
= .
Не следует путать по смыслу среднеквадратическую ошибку оценки математического ожидания и выборочное среднеквадратическое отклонение количественногопризнака s . С увеличением объёма выборки стремится к нулю, аs – к среднеквадратическому отклонению генеральной совокупности .