- •Міністерство освіти і науки україни
- •Розділ 1 Структура основних модулів statistica Елементи інтерфейсу користувача
- •1.1 Загальна структура системи
- •1.2 Структура основних модулів та їх характеристика
- •1.3. Перемикач модулів. Вибір статистичного модуля
- •1.4 Загальна структура головного вікна системи statistica
- •Розділ 2 Робота з даними
- •2.1 Створення, відкриття та збереження файлу даних
- •2.2 Додавання та видалення змінних та випадків
- •2.3 Встановлення специфікацій змінної
- •Розділ 3 Модуль Basic Statistics/Tables – Основні статистики/Таблиці
- •3.1 Обчислення описових статистик
- •3.2 Перевірка статистичної однорідності вибіркових сукупностей
- •3.2.1 Перевірка статистичної однорідності незалежних вибірок
- •3.2.2 Перевірка статистичної однорідності залежних вибірок
- •3.2.3 Побудова графіків типу “ящик з вусами”
- •Розділ 4 Модуль Nonparametric/Distribution – Непараметричні статистики/Розподіли
- •4.1 Перевірка гіпотез про закони розподілу випадкових величин
- •4.2 Побудова гістограми розподілу
- •Розділ 5 Модуль Multiple Regression – Множинна регресія
- •5.1 Розрахунок коефіцієнтів лінійної множинної регресії
- •5.2 Побудова та розрахунок коефіцієнтів нелінійних регресійних залежностей
- •5.3 Оцінка якості регресійних залежностей
- •5.3.1 Оцінка значущості рівняння та факторів регресії
- •5.3.2 Аналіз залишків
- •5.3.3 Розрахунок кореляційної матриці
- •5.4 Швидка побудова графіків парної регресії та їх інтерактивний аналіз за допомогою засобу “пензель”
- •Література
Розділ 4 Модуль Nonparametric/Distribution – Непараметричні статистики/Розподіли
4.1 Перевірка гіпотез про закони розподілу випадкових величин
Перевірка гіпотез про закони розподілу виконується з використанням критерію згоди Пірсона (критерій 2) чи критерію згоди Колмогорова-Смирнова.
Перевірка гіпотез про закони розподілу виконується за допомогою статистичної процедури Distribution fitting – Підгонка законів розподілу з модуля Nonparametric/Distribution – Непараметричні статистики/Розподіли.
Перевірку гіпотез про закони розподілу виконують у такій послідовності:
1) відкрити файл даних у модулі Nonparametric/Distribution – Непараметричні статистики/Розподіли;
2) у верхній частині вікна статистичних процедур модуля вибрати опцію Distribution fitting – Підгонка законів розподілу (рис. 4.1)
Рисунок 4.1 – Діалогове вікно підгонки
законів розподілу
3) у списках правої частині вікна вибрати (підсвітити) необхідний неперервний (Continuous Distributions) або дискретний закон розподілу випадкових величин та натиснути кнопку ОК. Список законів розподілу неперервних випадкових величин представлений нормальним (Normal), прямокутним (Rectangular), експоненціальним (Exponential), гама (Gamma), логарифмічно-нормальним (Log-Normal), та 2 (Chi-Square) законами. Список законів розподілу дискретних випадкових величин представлений біноміальним (Binomial), геометричним (Geometric) законами та законами розподілу Пуассона (Poisson) та Бернуллі (Bernoulli);
4) на екрані відкривається діалогове вікно Fitting Continuous Distributions – Підгонка неперервних розподілів чи Fitting Discrete Distributions – Підгонка дискретних розподілів в залежності від обраного закону розподілу (рис. 4.2)
Рисунок 4.2 – Діалогове вікно параметрів підгонки
законів розподілу неперервних випадкових величин
5) у списку Distribution – Розподіл можна вибрати необхідний закон розподілу (у даному випадку неперервний). За допомогою кнопки необхідно вибрати одну змінну для проведення аналізу (у нашому випадкуTys_ton);
6) у полі вводу Number of Categories – Кількість інтервалів необхідно вказати:
для неперервних випадкових величин кількість інтервалів, на які буде розділена вибірка для проведення аналізу (обчислюється за формулою , деn – кількість інтервалів та N – об’єм вибірки). Не слід використовувати значення, що пропонує по умовчанню STATISTICA!;
для дискретних випадкових величин кількість унікальних значень у вибірці (тобто об’єм вибірки, що отримана з даної шляхом відкидання значень, які повторюються). У такому випадку STATISTICA автоматично обчислює та пропонує у цьому полі правильне значення кількості інтервалів;
7) у полях вводу Lower limit – Нижня границя та Upper limit – Верхня границя слід вказати відповідно найменше та найбільше значення з чисел у досліджуваній вибірці;
8) нижче полів вводу Lower limit та Upper limit розміщуються поля вводу, що представляють обчислені за даними вибірки параметри розподілу та залежать від обраного закону розподілу (таблиця 4.1).
9) у групі опцій Kolmogorov-Smirnov Test –Тест Колмогорова-Смирнова слід вибрати параметр тесту Колмогорова, що має наступні значення:
No – тест Колмогорова-Смирнова не проводити;
Yes (categorized) – виконати тест Колмогорова-Смирнова з розбиттям даних на групи;
Yes (continuous) – виконати тест Колмогорова-Смирнова без розбиття даних на групи.
10) натиснути кнопку ОК для проведення тесту та виведення результатів розрахунку. Результати розрахунку виводяться у електронну таблицю, подібну наведеній на рис. 4.3.
Рисунок 4.3 – Результати тесту підгонки законів розподілу
Таблиця 4.1 – Позначення параметрів закону розподілу
Закон розподілу |
Щільність імовірності |
Позначення параметру |
Назва параметру |
Неперервні розподіли | |||
1. Нормальний |
|
Mean Variance |
Середнє (m) Дисперсія (2) |
2. Рівномірний |
|
Mean frequency |
Середнє ((a+b)/2) |
3. Експонен- ціальний |
|
Lambda |
Параметр |
4. Гама-розподіл |
|
Scale parameter Shape |
Масштаб (b) Форма (с) |
5. Логарифмо- нормальний |
|
Mean Variance |
Середнє (ln(x)) Дисперсія (2) |
6. Розподіл 2 |
|
Parameter (deg. of freedom) |
Кількість ступенів волі () |
Дискретні розподіли | |||
1. Біномний |
Number of trials |
Кількість випробувань (n) | |
2. Розподіл Пуассона |
Lambda |
Параметр | |
3. Геометричний |
Parameter p |
Імовірність успіху (p) | |
4. Розподіл Бернуллі |
Parameter p |
Імовірність успіху (p) |
У крайньому лівому стовпчику таблиці вказані верхні границі інтервалів групування (значення Infinity відповідають значенням, що перевищують верхню границю попереднього інтервалу). Нижче наведені українські відповідності заголовкам таблиці:
– Observed freq-cy – Емпірична частота;
– Cumulatv observed – Накопичена емпірична частота;
– Percent observed – Доля спостережень в інтервалі в процентах;
– Cumul % observed – Накопичена доля спостережень в інтервалі в процентах;
– Expected freq-cy – Очікувана частота;
– Cumulatv expected – Очікувана накопичена частота;
– Percent expected – Очікувана доля спостережень в інтервалі в процентах;
– Cumul % expected – Очікувана накопичена доля спостережень в інтервалі в процентах;
– Observd-Expected – Різниця між очікуваною та емпіричною частотами.
У верхній частині вікна результатів тесту виводяться результати тестів:
для тесту Колмогорова-Смирнова вказується максимальна різниця між емпіричною та очікуваною частотами (d) та гранична імовірність прийняття гіпотези про відповідність емпіричного розподілу обраному теоретичному закону (p). Якщо максимальна різниця між очікуваною та емпіричною частотами не є значущою, то для граничної імовірності вказується значення n.s. – Not Signed – Не значуща;
для тесту Пірсона вказується розрахункове значення критерію 2 – Chi Square – Хі-квадрат, кількість ступенів волі (df), гранична імовірність прийняття гіпотези про відповідність емпіричного розподілу обраному теоретичному розподілу (p). Якщо кількість значень, що знаходяться у деякому інтервалі не перевищує 5, то система автоматично об’єднує такий інтервал з сусіднім. В такому випадку кількість ступенів волі зменшується та у рядку результатів критерію Пірсона вказується df adjusted – Виправлена кількість ступенів волі.
11) зробити висновок про відповідність емпіричного розподілу обраному теоретичному. Для цього задаються рівнем значущості, який зазвичай дорівнює 0.05 чи 0.1. Гіпотезу про те, що даний емпіричній розподіл відповідає обраному теоретичному закону розподілу можна прийняти:
за критерієм Колмогорова-Смирнова – у випадку, коли гранична імовірність прийняття гіпотези перевищує заданий рівень значущості, або є несуттєвою (n.s.);
за критерієм Пірсона (2) – у випадку, коли гранична імовірність прийняття гіпотези перевищує заданий рівень значущості.
У наведеному вище прикладі гіпотезу про нормальний розподіл випадкової величини Tys_Ton можна прийняти при рівні значущості 0.05 за обома критеріями, оскільки розрахункове значення граничної імовірності прийняття гіпотези за критерієм Колмогорова-Смирнова не є значущим (р=n.s.), а за критерієм Пірсона перевищує прийнятий рівень значущості, тобто 0.125 > 0.05.