Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
246.doc
Скачиваний:
6
Добавлен:
30.04.2022
Размер:
1.58 Mб
Скачать

Пример выполнения задания 1

Постановка задачи:

Необходимо генерировать выборку объема n = 50, распределенную по нормальному закону N[2;0.25], построить гистограмму.

Шаг 1. Создание электронной таблицы.

Выберите команду New (Новый) из меню File (Файл). В появившейся форме создания нового документа необходимо количество переменных установить равным 1, а случаев – 50 и нажать на кнопку OK. На экране появится пустая электронная таблица размером 1v x50c. Сохранить файл с именем 1_3.sta.

Шаг 2. Оформление заголовка таблицы.

Дважды щелкнуть мышью на белом поле, находящемся ниже панели инструментов, в таблице и вводим заголовок «Выборка по показательному закону распределения».

Шаг З. Генерация выборки.

Кликнуть дважды по переменной VAR1 и ввести имя Name х (например), в нижнем поле Long Name ввести выражение, определяющее переменную. Ввести с помощью клавиатуры или клавиши Functions, выбирая в меню Category и Name требуемую функцию и вставляя клавишей Insert.

Для задания закона распределения N[2;0.25] ввести:

=VNormal(rnd(1);2;0.25).

Для логарифмического распределения Lgn (0,5; 0,5):

= VLognorm (rnd(1); 0,5; 0,5).

Для распределения Хи-квадрат для χ 28 :

= VChi2(rnd(1); 8).

Для биноминального распределения:

=Binom(v0; 0.5; 50).

Для t – распределения:

=Student(V0;5).

Для F – распределения:

=f(V0;5;10).

Результаты представлены на рис. 2.

Рис. 2. Законы распределения вероятностей

Шаг 4. Построение выборки графически.

В пункте меню Graph (Графы) выбрать пункт 2D Графы►Гистограммы. После правильного выполнения операции откроется форма (рис. 3).

Рис. 3. Построение 2D-Гистограммы

Нажав на кнопку Variables, выбрать переменную и нажать OK. Гистограмма построена.

Ниже представлены гистограммы выборки:

- для нормального закона распределения (рис. 4),

- для логарифмического закона распределения (рис. 5),

- для Хи-квадрат распределения (рис. 6),

- для биноминального закона распределения (рис. 7),

- для t – распределения (рис. 8).

Рис. 4. Гистограмма выборки для нормального закона распределения

Рис. 5. Гистограмма выборки для логарифмического закона распределения

Рис. 6. Гистограмма выборки для Хи-квадрат распределения

Рис. 7. Гистограмма выборки для биноминального закона распределения

Рис. 8. Гистограмма выборки для t - распределения

Примеры постановки задач:

1. Администрация сети гипермаркетов «Перекрёсток» решила составить график работы кассиров в течение дня, чтобы не создавать очередей у касс, и избежать их простоя. Для этого было решено изучить закон распределения количества покупателей, посещающих магазин, в течение рабочего дня, что так же позволит определить оптимальное количество кладовщиков и грузчиков для организации эффективной работы складов. С этой целью было подсчитано количество людей, совершивших покупки в магазине. Данные представляют собой один столбец с 24 элементами (интервал времени между данными составляет 30 мин. 12ч. / 0,5 ч. =24) и приведены в виде таблицы (рис. 9).

Рис. 9. Количество людей, совершивших покупки в магазине

2. Фирма L&L является дистрибьютором компании Desa. Ежедневно десятки автомобилей фирмы в течение дня развозят продукцию компании в различные торговые организации. Для уменьшения времени простоя автомобилей в очереди при загрузке было решено изучить закон распределения количества автомобилей, подъезжающих к складским помещениям в течение часа, что позволит определить оптимальное количество кладовщиков, грузчиков, погрузочных площадок для организации эффективной работы складов. С этой целью 200 раз было подсчитано количество автомобилей, подъехавших в течение часа к складским помещениям. Данные файла L&L, которые представляют собой один столбец с 200 элементами, приведены в виде прямоугольной таблицы (рис. 10).

Рис. 10. Количество автомобилей, подъехавших в течение часа к складским помещениям

Задание 2. Провести регрессионный анализ имеющихся данных. Составить постановку задачи.

Построение регрессионных зависимостей

Рассмотрим пример построения регрессионной модели в пакете Statistica 6.0. Для этих целей обычно используется модуль Multiple Regressions (Множественная регрессия), который позволяет предсказать зависимую переменную по нескольким независимым переменным.

В стартовом диалоговом окне этого модуля (рис. 11) при помощи кнопки Variables указываются зависимая (dependent) и независимые(ая) (independent) переменные. В поле Input file указывается тип файла с данными:

  • Raw Data - данные в виде строчной таблицы;

  • Correlation Matrix - данные в виде корреляционной матрицы.

Рис. 11. Модуль Multiple Regression

В поле MD deletion указывается способ исключения из обработки недостающих данных:

  • Casewise - игнорируется вся строка, в которой есть хотя бы одно пропущенное значение;

  • Mean Substitution - взамен пропущенных данных подставляются средние значения переменной;

  • Pairwise - попарное исключение данных с пропусками из тех переменных, корреляция которых вычисляется.

Рассмотрим проведение регрессионного анализа на конкретном примере.

Постановка задачи:

Имеются результаты измерения физических данных 25 людей (мужчин и женщин). В файле данных (рис. 12) 4 переменные (табл. 1).

Рис. 12. Окно файла данных

Таблица 1

Описание переменных

1

pol

Пол обследуемого (ж – женщина; м – мужчина)

2

vozrast

Возраст обследуемого, лет

3

rost

Рост обследуемого, см

4

ves

Вес обследуемого, кг

Выполним над этими данными регрессионный анализ.

Так как в файле данных содержится информация о мужчинах и женщинах, а мы хотим провести исследования только для мужчин, то воспользовавшись кнопкой Select cases (рис. 13) можно в анализ включить только те случаи, для которых первая переменная (pol) равна "м".

Рис. 13. Окно включения (исключения) данных в анализ

На первом этапе исследований учтем, что при наличии одной зависимой переменной (rost) и двух независимых переменных (vozrast и rost) можно предложить различные модели линейной регрессии (табл. 2).

Таблица 2

Виды зависимостей

модели

Вид зависимости

Комментарии

1

rost=

одномерная

2

rost=

одномерная

3

rost=

многомерная

О качестве предложенной модели регрессии будем судить по величине коэффициента детерминации.

Модель №1 описывает 69% данных, модель №2 только 41% данных, а третья модель 73% данных.

Если в качестве критерия оптимизации выбрать простоту модели (одномерная) – выберем модель №1 или №2, но если добавить ещё один критерий – максимальный % описания данных, то из этих двух моделей выбираем модель №1. Теперь в качестве главного критерия оптимизации выбираем максимальный процент описания данных и сравниваем модели №1 и №3. Нужно сказать, что модель №3 – многомерная, а модель №1 – одномерная. Таким образом, на первом этапе можно сказать, что многомерная модель №3 более адекватна и лучше описывает исходные данные. Естественно предположить, что и предсказания по модели №3 будут более надежными (точными).

Теперь более подробно рассмотрим последовательность действий создания модели и анализ полученных результатов.

После выбора всех опций стартового диалогового окна регрессионного анализа и нажатия кнопки ОК откроется окно результатов регрессионного анализа Multiple Regressions Results (рис. 14). Детально проанализируем полученные результаты регрессионной модели.

Рис. 14. Результаты регрессионного анализа

В верхней части окна приведены наиболее важные параметры полученной регрессионной модели:

  • Multiple R - коэффициент множественной корреляции, который характеризует тесноту линейной связи между зависимой и всеми независимыми переменными. Может принимать значения от 0 до 1.

  • R2 - коэффициент детерминации. Численно выражает долю вариации зависимой переменной, объясненную с помощью регрессионного уравнения. Чем больше R2, тем большую долю вариации объясняют переменные, включенные в модель.

  • adjusted R - скорректированный коэффициент множественной корреляции. Включение новой переменной в регрессионное уравнение увеличивает не всегда, а только в том случае, когда частный F-критерий при проверке гипотезы о значимости включаемой переменной больше или равен 1. В противном случае включение новой переменной уменьшает значение и adjusted R.

  • F - F-критерий используется для проверки значимости регрессии. В данном случае в качестве нулевой гипотезы проверяется гипотеза: между зависимой и независимыми переменными нет линейной зависимости;

  • df - числа степеней свободы для F-критерия;

  • p - вероятность нулевой гипотезы для F-критерия;

  • Standard error of estimate - стандартная ошибка оценки (уравнения); Эта оценка является мерой рассеяния наблюденных значений относительно регрессионной прямой;

  • Intercept – оценка свободного члена уравнения;

  • Std.Error - стандартная ошибка оценки свободного члена уравнения;

  • t - t-критерий для оценки свободного члена уравнения;

  • p - вероятность нулевой гипотезы для свободного члена уравнения.

  • Beta - β-коэффициенты уравнения. Это стандартизированные регрессионные коэффициенты, рассчитанные по стандартизированным значениям переменных. По их величине можно оценить значимость зависимых переменных. Коэффициент показывает, на сколько единиц стандартного отклонения изменится зависимая переменная при изменении на одно стандартное отклонение независимой переменной, при условии постоянства остальных независимых переменных. Свободный член в таком уравнении равен 0.

Нажатие кнопки - в окне результатов позволяет получить основные результаты регрессионной модели (рис. 15), часть из которых уже была описана: В - коэффициенты уравнения регрессии; St. Err. of B - стандартные ошибки коэффициентов уравнения регрессии; t (11) - t-критерий для коэффициентов уравнения регрессии; р-level - вероятность нулевой гипотезы для коэффициентов уравнения регрессии.

Рис. 15. Параметры уравнения регрессии

В результате проведенного анализа было получено следующее уравнение:

rost = 150,4397 + 0,605*vozrast + 0,2081*ves.

Это уравнение объясняет 73,3% (R2 = 0.733) вариации зависимой переменной. Полученные результаты свидетельствуют о том, что коэффициент b3 при переменной ves незначимо отличается от нуля, однако включение этой переменной в регрессионную модель увеличивает на 4 % процент исходных данных, корректно описанных регрессионным уравнением.

Проверка качества уравнения регрессии осуществлялась с помощью статистики F = 15.10314. По статистическим таблицам Фишера – Снедекора с данными степенями свободы (df = 2,11) гипотезу H0 (линейная зависимость отсутствует) можно принять с вероятностью (p = 0.000700); при уровне значимости α = 0.05 принимаем альтернативную гипотезу – линейная зависимость значима.

Одновременно проверялась статистическая значимость коэффициентов множественной регрессии (критерий Стьюдента). Видно (рис. 16), что коэффициенты b0 и b1 значимо отличаются от нуля, коэффициент b2 незначимо отличается от нуля.

Для расчета по полученному регрессионному уравнению значений зависимой переменной по значениям независимых переменных воспользуемся кнопкой Predict dependent variable (раздел Residuals/assumptions/prediction).

Зададим значения возраста (vozrast = 23) и веса (ves = 65). Учтем, что в пакете Statistica приводится как точечная, так и интервальная оценка (рис. 17).

Рис. 16. Окно задание значений независимых переменных

Рис. 17. Предсказанные точечные и интервальные значения

О полученных результатах можно сказать следующее: rost = 177,8851 – это точечная оценка. 95% доверительный интервал равен (171.4; 184,4).

При нажатии на кнопку можно оценить величины остатков и специальных критериев (рис. 18).

В таблицу включены все случаи (м), приведены исходные данные (Observed), данные модели (Predicted) и остатки (Residual). Остатки – это разность исходных и предсказанных данных.

Рис. 18. Таблица остатков

Для выделения имеющихся в регрессионных остатках выбросов предложен ряд дополнительных показателей:

  • Расстояние Кука (Cook's Distance) - принимает только положительное значение и показывает расстояние между коэффициентами уравнения регрессии после исключения из обработки i-ой точки данных. Большое значение показателя Кука указывает на сильно влияющий случай (выброс).

  • В нашем случае Case № 5, 16 и 20 смещают оценки коэффициентов регрессии.

  • Расстояние Махаланобиса (Mahalns. Distance) - показывает насколько каждый случай или точка в р-мерном пространстве независимых переменных отклоняется от центра статистической совокупности.

Кнопка (раздел Advanced) предназначена для поиска выбросов. Выбросы – это остатки, которые значительно превосходят по абсолютной величине остальные. Выбросы показывают опытные данные, которые являются не типичными по отношению к остальным данным, и требует выяснения причин их возникновения. Выбросы должны исключаться из обработки, если они вызваны ошибками регистрации, измерения и т.п.

Задание 3. Провести классификацию данных с использованием модуля дискриминантного анализа системы Statistica, предварительно составить постановку задачи.

Пример выполнения задания

Постановка задачи:

Методом регрессионного анализа выявить зависимость между показателями денежного обращения на основе данных статистики за 2010 год (источник данных http://stat.hse.ru/hse/indexn.html)

Исходными данными для данной задачи служит статистика двух показателей денежного оборота за 10 месяцев 2010 года (рис. 19).

В исходных данных M0_M, М2_М – показатели денежного обращения.

Постулируем, что наблюдаемые величины связаны между собой регрессионной зависимостью вида

Y(i)=B1*X(i)+B0+e(i), (1)

0<i<=n,

где B1,B0 неизвестные константы, e(i) ненаблюдаемые случайные величины (наблюдается только X(i) , Y(i),0<i<=n) со средним 0 и неизвестной дисперсией, не меняющейся от опыта к опыту.

Рис. 19. Показатели денежного обращения

Для того чтобы начать регрессионный анализ нужно выбрать пункт меню StatisticsMultiple Regression (рис. 20).

Затем нужно зайти в раздел Variables и добавить переменные для анализа (рис. 21).

Рис. 20. Окно Multiple Regression

Рис. 21. Добавление переменных для анализа

Предположим, что показатель M2_M является зависимым от показателя M0_M, начнем анализ. Результаты анализа представлены на рис. 22.

Рис. 22. Результаты анализа данных

R-square - RI (квадрат коэффициента множественной корреляции), обычно называемый коэффициентом детерминации.

Он показывает долю общего разброса (относительно выборочного среднего зависимой переменной), которая объясняется построенной регрессией.

Adjusted R-square: adjusted RI (скорректированный коэффициент детерминации), определяемый как

Adjusted R-square= 1-(1-R-square)*(n/(n-p)).

где n - число наблюдений в модели, p - число параметров модели (число независимых переменных плюс 1, так как в модель включен свободный член).

Std. Error of estimate (Стандартная ошибка оценки). Эта статистика является мерой рассеяния наблюдаемых значений относительно регрессионной прямой.

Intercept (Оценка свободного члена регрессии).Значение коэффициента B0 в уравнении регрессии.

t(df) and p-value (Значение t-критерия и уровень p). t – критерий используется для проверки гипотезы о равенстве 0 свободного члена регрессии.

F- значение F-критерия.

Df - число степеней свободы F-критерия.

P - уровень значимости.

Посмотрим на коэффициент детерминации: RI = 0.98 - это хорошее значение, показывающее, что построенная регрессия объясняет более 98 % разброса значений переменной M2_M относительно среднего.

Далее посмотрим на значение F-критерия и уровень значимости p. F-критерий используется для проверки гипотезы о значимости регрессии. В данном случае для проверки гипотезы, утверждающей, что между зависимой переменной M2_M и M0_M нет линейной зависимости. В данном примере мы имеем большое значение F-критерия -456,9534 и даваемый в окне уровень значимости p=0.0000, показывающие, что построенная регрессия высоко значима.

Рассмотрим вторую часть информационного окна (рис. 23). В этой части система сама говорит нам о значимых регрессионных коэффициентах, высвечивая строку.

M0_M beta= 0.991

В данном случае beta есть стандартизованный коэффициент B1, то есть коэффициент при независимой переменной M0_M.

В функциональной части результатов (кнопка Regression summary) на экране появится электронная таблица вывода spreadsheet, в которой представлены итоговые результаты оценивая регрессионной модели.

Рис. 23. Итоговая таблица для зависимой переменной M2_M

На основе формулы (1) оцененная модель имеет вид (рис. 24):

M2_M = 3.7177 * M0_M + 974,7244

Рис. 24. Результаты расчетов по модели

Анализ адекватности модели основывается на анализе остатков (рис. 25).

Рис. 25. Наблюдаемые переменные остатки

Остатки представляют собой разности между наблюдаемыми значениями и модельными, то есть значениями, посчитанными по модели с оцененными параметрами.

Вывод:

На основе результатов проведенного регрессивного анализа можно сказать, что предположение зависимости показателя М2_М от М0_М, сделанное в начале исследования, оказалось верным. Это подтверждают полученные при анализе данные. По анализу остатков можно с уверенностью сказать, что уравнение (3) и есть искомое уравнение зависимости одного показателя от другого.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

  1. Боровиков В.П. STATISTICA. Искусство анализа данных на компьютере: Для профессионалов. / В.П. Боровиков - СПб.: Питер, 2003. – 688 с.

  2. Справочник по статическим распределениям http://algolist.manual.ru/maths/matstat/index.php

  3. Халафян А.А. STATISTIC А 6. Статистический анализ данных: учебник / А.А. Халафян. 3-е изд. - М: ООО «Бином-Пресс», 2007 г. - 512 с

  4. Айвазян С. А. Прикладная статистика: Основы моделирования и первичная обработка данных. / С.А. Айвазян, И.С. Енюков, Л.Д. Мешалкин. — М.: Финансы и статистика, 1983. - 471с.

МЕТОДИЧЕСКИЕ УКАЗАНИЯ

к выполнению лабораторных работ

по теме «Компьютерные методы и технологии анализа

и интерпретации данных» по дисциплине

«Компьютерные технологии в науке и образовании»

для студентов направления

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]