- •Министерство образования и науки Республики Казахстан
- •1. Учебная программа дисциплины – Syllabus
- •1. 1. Данные о преподавателях:
- •1.1 Данные о дисциплине:
- •Выписка из учебного плана
- •1.5. Краткое описание дисциплины
- •1.6. Перечень и виды заданий и график их выполнения:
- •Виды заданий и сроки их выполнения
- •1.7. Список литературы
- •1.8. Контроль и оценка знаний
- •Распределение рейтинговых баллов по видам контроля
- •Календарный график сдачи всех видов контроля
- •Оценка знаний студентов
- •2. Содержание Активного раздаточного материала
- •2.1 Тематический план курса составляется в виде таблицы, где указываются наименование темы и количество академических часов, предусмотренных для каждой темы. Тематический план курса
- •2.2 Конспект лекционных занятий
- •Глава 1. Основные понятия и определения статистики
- •Тема 2. Показатели описательной статистики. Среднее, дисперсия, стандартное отклонение, эксцесс, асимметрия, интервалы. Компьютерные технологии получения дескриптивной статистики.
- •Глава 2. Выборки.
- •Тема 5. Анализ одной выборки. Анализ однородности выборки. Доверительные интервалы для среднего. Доверительные интервалы для средних выборок. Компьютерные технологии анализа.
- •Тема 6. Анализ двух выборок. Выявление достоверности различий. Параметрические и непараметрические методы анализа выборок. Компьютерные технологии анализа одной выборки.
- •Глава 3. Анализ статданных.
- •Тема 7. Дисперсионный анализ статданных. Однофакторный дисперсионный анализ статистических данных. F- тест для для дисперсий. Компьютерные технологии анализа.
- •Тема 8. Корреляционный анализ статданных. Коэффицент корреляции Пирсона. Коэффициент ранговой корреляции. Ложная и истинная корреляция Компьютерные технологии анализа.
- •Глава 4. Регрессионный анализ.
- •Тема 9. Регрессионный анализ статданных. Простая линейная регрессии. Оценивание параметров линейной регрессиии методом наименьших квадратов, коэффициент детерминации.
- •Тема 10. Оценка существенности параметров линейной регрессии. Оценка качества регрессии f-критерий Фишера, t-статистика. Проверка значимости параметров регрессии. Понятие нелинейной регрессии.
- •Тема 11. Множественная регрессия. Многомерная регрессионая модель. Фиктивные переменные. Кодирование значений качественных переменных. Мультиколлинеарность.
- •Глава 5. Анализ временных рядов.
- •Тема 12. Анализ статданных в виде временных рядов. Временные ряды и их характеристики. Аддитивная и мультипликативная модель. Декомпозиция временного ряда.
- •Тема 13. Анализ и получение тренда. Методы аналитического выравнивания. Метод скользящего среднего. Метод экспоненциального сглаживания. Оценка точности трендовой модели.
- •Тема 14. Модели временных рядов. Понятие об авторегрессионных моделях временных рядов. Коэффицент автокорреляции и автокорреляционная функция.Тест Дарбина-Уотсона.
- •Тема 15. Анализ моделей временных рядов. Решение проблемы автокорреляции. Учет сезонности. Коинтеграция временных рядов.Тест Энгла - Гренжера. Современные тенденции статанализа.
- •2.3 Планы лабораторных занятий
- •Технология построения трендов в Microsoft Excel Порядок выполнения лабораторной работы
- •Форматирование метки линии тренда.
- •Задание на выполнение лабораторной работы:
- •Задание на выполнение лабораторной работы
- •2.4 Планы занятий в рамках самостоятельной работы студентов под руководством преподаватля (срсп)
- •Тема 1. Функции распределения дискретной случайной величины. Биномиальное распределение. Применение компьютерных технологий при статистическом исследовании биномиального распределения. (2 ч.)
- •Тема 3. Функции распределения дискретной случайной величины. Распределение Пуассона. Применение компьютерных технологий при статистическом исследовании распределения Пуассона. (2 ч.)
- •Тема 4. Функции распределения непрерывной случайной величины. Гауссово распределение. Применение компьютерных технологий при статистическом исследовании Гауссово распределения. (2 ч.)
- •Тема 5. Функции распределения непрерывной случайной величины. Распределение хи-квадрат. Применение компьютерных технологий при статистическом исследовании распределения хи-квадрат. (2 ч.)
- •Тема 6. Функции распределения непрерывной случайной величины. Распределение Стьюдента. Применение компьютерных технологий при статистическом исследовании распределения Стьюдента. (2 ч.)
- •Тема 7. Функции распределения непрерывной случайной величины. Распределение Фишера. Применение компьютерных технологий при статистическом исследовании распределения Фишера. (2 ч.)
- •Тема 9. Генерация случайных чисел. Применение компьютерных технологий при генерации случайных чисел. (2 ч.)
- •Тема 10. Статистические гипотезы. Одновыборочный z-тест для средних величин. Применение компьютерных технологий при проведении одновыборочного z-теста для средних величин. (2 ч.)
- •Тема 11. Статистические гипотезы. Двухвыборочный z-тест для средних величин. Применение компьютерных технологий при проведении двухвыборочного z-теста для средних величин. (2 ч.)
- •Тема 12. Статистические гипотезы. Одновыборочный t-тест для средних величин. Применение компьютерных технологий при проведении одновыборочного t-теста для средних величин. (2 ч.)
- •Тема 15. Статистические гипотезы. Парный двухвыборочный t-тест для средних величин. Применение компьютерных технологий при проведении парного двухвыборочного t-теста для средних величин. (2 ч.)
- •2.5 Планы занятий в рамках самостоятельной работы студентов (срс)
- •Тема 1. Регрессионный анализ с применением компьютерных технологий. Интерпретация результатов.
- •Тема 2. Регрессионный анализ. Метод наименьших квадратов (мнк).Интерпретация результатов.
- •Тема 3. Регрессионный анализ. Анализ вариации зависимой переменной.
- •Тема 4. Регрессионный анализ. Условия Гаусса-Маркова по классической нормальной линейной регрессионной модели.
- •Тема 5. Регрессионный анализ. Стандартная ошибка регрессии.
- •Тема 6. Регрессионный анализ. Стандартные ошибки коэффициентов регрессии.
- •Тема 7. Регрессионный анализ. Проверка гипотез по коэффициентам регрессии.
- •Тема 8. Регрессионный анализ. Нелинейные регрессии.
- •Тема 9. Регрессионный анализ. Прогнозирование в регрессионных моделях.
- •Тема 10. Временные ряды. Анализ временных рядов с применением компьютерных технологий. Получение тренда. Интерпретация результатов.
- •Тема 11. Временные ряды. Анализ временных рядов с применением компьютерных технологий. Исследование автокорреляции данных временного ряда.
- •Тема 12. Временные ряды. Анализ временных рядов с применением компьютерных технологий. Тест Дарбина-Уотсона.
- •Тема 13. Временные ряды. Анализ временных рядов с применением компьютерных технологий. Тест на коинтеграцию на основе критерия Энгла-Грэнжера.
- •Тема 14. Статистический программный инструментарий. Обзор статистических функций ms Excel.
- •Тема 15. Статистический программный инструментарий. Обзор возможностей пакета "Анализа данных" ms Excel.
- •2.6. Тестовые задания для самоконтроля с указанием ключей правильных ответов
- •24. Имеют ли в общем случае смысловую нагрузку свободный член уравнения линейной регрессии?
- •25. Что такое корреляционные поля?
- •26. Что такое авторегрессионая модель временного ряда?
- •27. Что означает регрессионная модель с лагированными переменными?
- •28. Какой показатель определяется отношением дисперсии результативного признака регрессии к общей дисперсии результативного признака?
- •29. Какой критерий применяется для проверки гипотезы - средние двух выборок относятся к одной и той же совокупности?
- •30. Какой метод применяется для проверки гипотезы - относится та или иной вариант к данной статистической совокупности?
- •Перечень экзаменационных вопросов по пройденному курсу
- •Глоссарий
- •Выходные сведения
Глава 2. Выборки.
Тема 4. Статистические гипотезы. Принятие статистических решений.Статистический критерий.Уровень значимости.Интервальные оценки. Учет статистических гипотез при компьютерных технологиях анализа распределения статданных.
При обработке статистических данных очень часто возникает вполне закономерный вопрос, являются ли наблюдаемые данные и результаты статистических исследований, полученные на их основе, просто случайным совпадением или они действительно реальны и надежны. Проверка различных предположений (гипотез) позволяет на основе уже имеющейся информации сделать выбор между двумя предположениями - например, является ли наблюдаемое повышение объема выпускаемой продукции в прошлом месяце простым совпадением (один вариант) или же имеется убедительное доказательство того, что рост объема выпуска продукции действительно имеет место (другой вариант). Кроме того, вполне можно рассматривать проверку гипотез как один из компонентов принятия решений, поскольку при такой процедуре можно получить важную информацию об эффективности предпринятых или предполагаемых действий.
Статистическая гипотеза
Статистической гипотезой называется любое предположение относительно функции распределения или параметров функции распределения случайной величины. Гипотезы о значениях параметров распределения или о сравнительной величине параметров двух распределений называются параметрическими. Гипотезы о виде распределения именуются непараметрическими. Гипотезу, выдвинутую для проверки ее соответствия выборочным данным, называют основной или нулевой гипотезой и обозначают Н0. Вместе с гипотезой Н0 выдвигается противоречащая ей гипотеза, которая именуется альтернативной или конкурирующей и обозначается Н1.
Так, примером нулевой гипотезы может быть утверждение, что реклама не имела никакого эффекта, а альтернативной гипотезы - утверждение, что реклама имела определенный эффект.
Проверить статистическую гипотезу - это значит проверить, согласуются ли, имеющиеся в выборке данные с этой гипотезой. Проверка гипотезы осуществляется с помощью статистического критерия.
Статистический критерий - это случайная величина, закон распределения которой (вместе со значениями параметров) известен, если принятая гипотеза справедлива. Этот критерий называют еще критерием согласия (согласие принятой гипотезы с результатами, полученными из выборки).
Если К- статистический критерий проверки некоторой гипотезы Н0 и гипотеза Н0 справедлива, то закон распределения случайной величины К характеризуется некоторой известной плотностью распределения рК(х).
Выбирается некоторая малая вероятность , которая равна 0,05; 0,01 или еще меньше. Критическое значение критерияККР определяется как решение одного из трех уравнений, в зависимости от вида нулевой и альтернативной гипотез:
Р(К>ККР) = а (1)
Р(К<ККР) = а (2)
Р((К<ККР1)(К>ККР2) = а (3)
Возможны и другие уравнения, но они встречаются значительно реже. Решение уравнений (1-3) заключается в том, что по вероятности , зная функциюрK(х), заданную, как правило, таблицей, нужно определить ККР. Например, для уравнения (1) область К>ККР именуется критической . Если значение Кв (Кв - значение критерия К, рассчитанное по выборочным данным) попадает в критическую область, то гипотеза H0 отвергается. Для уравнения (1) область К<ККР называется областью принятия гипотезы. Пусть выбрано некоторое малое значение вероятности а, по нему определено значение ККР и по выборочным данным определено значение Кв, которое попало в критическую область. В таком случае гипотеза Н0 отвергается, но она может оказаться справедливой, просто случайно произошло событие, которое имеет очень маленькую вероятность . В этом смысле- вероятность отвержения правильной гипотезы Н0. Отвержение правильной гипотезы называется ошибкой первого рода. Вероятность называется уровнем значимости. Таким образом, уровень значимости - это вероятность совершить ошибку первого рода.
Чем меньше уровень значимости, тем меньше вероятность отвергнуть проверяемую гипотезу H0 , когда она верна, т.е. совершить ошибку первого рода. Но с уменьшением уровня значимости расширяется область принятия гипотезы H0 и увеличивается вероятность принятия проверяемой гипотезы, когда она неверна, т.е. когда предпочтение должно быть отдано альтернативной гипотезе.
Пусть при справедливости гипотезы H0 статистический критерий К имеет плотность распределения р0(х), а при справедливости альтернативной гипотезы Н1 - плотность распределения р1(х). Если значение Кв, определенное по выборочным данным, оказывается меньше ККР, то гипотеза Н0 принимается. Если на самом деле справедлива альтернативная гипотеза Н1, тогда вероятность попадания критерия в область принятия гипотезы Н0 - это некоторое число . Вероятность- это вероятность того, что будет принята неверная гипотеза Н0. Принятие неверной гипотезы называется ошибкой второго рода. В данном случае- это вероятность ошибки второго рода. Число 1 -, равное вероятности того, что не совершается ошибка второго рода, называется мощностью критерия. Выбор статистического критерия и вида критической области осуществляется таким образом, чтобы мощность критерия была максимальной. Наиболее распространенными являются критерии, в основе которых лежат известные распределения - Фишера, Стьюдента или хи-квадрат распределение.
Интервальные оценки
Когда речь идет об оценке параметров, которые в некоторых случаях неизвестны, можно воспользоваться интервальной оценкой неизвестного параметра. Интервальной называют оценку, которая определяется двумя числами - концами интервала, покрывающего оцениваемый параметр. Обозначив этот параметр через , по выборке следует найти числа1, и 2, так чтобы выполнялось условие:
Р(1 < <2) = Р (1 , 2) =
Числа 1, и 2 называются доверительными границами, а интервал (1, 2) - доверительным интервалом для параметра . Числоименуется доверительной вероятностью или надежностью сделанной оценки. Обычно надежность задается на уровне 0,95, 0,99 или 0,999. Тогда вероятность того, что нужный параметр попал в интервал (1 , 2), достаточно высока. Число (1 +2)/2 - середина доверительного интервала - будет давать значение параметра с точностью (1 , 2)/2, которая представляет собой половину длины доверительного интервала. Границы 1 и 2 определяются на основе выборочных данных и являются функциями от случайных величин , а следовательно - сами есть случайные величины. Отсюда следует, что доверительный интервал тоже случаен. Он может покрывать параметр , а может и не покрывать.
Различают гипотезы о частоте распределения, гипотезы о средних величинах и гипотезы о пропорциях. Гипотезы о средних величинах - это гипотезы относительно оценки средней величины генеральной совокупности на основе выборочных данных. Соответствующая статистическая проверка осуществляется с помощью критериев, например с помощью t-критерия Стьюдента, который будет рассмотрен в последующих лекциях.
В современных статистических пакетах предусмотрены процедуры учета уровней значимости при принятии статистических различных гипотез.
Литература:
1осн. [223-256], 5осн. [181-194],6 осн. [16,39-44], 2доп. [36-41], 3 доп. [226-242], 4доп. [95-102].
Контрольные вопросы
1. Что означает термин статистическая гипотеза?
2. Каков смысл нулевой гипотезы?
3. Как определяется критическое значение критерия, в зависимости от вида нулевой и альтернативной гипотез?
4. Какая вероятность в статистике называется уровнем значимости?
5. Каков смысл ошибок первого и второго рода при принятии гипотез?