- •Хабаровск 2014
- •Элементы теории корреляции
- •Знак r указывает на вид связи: прямая или обратная. Абсолютная величина | r | указывает на силу (тесноту) связи.
- •Таблица 5 – Исходные данные
- •3. Практическая работа 3. Создание базы данных по учёту товаров
- •4. Практическая работа 4. Построение запросов к базе данных по учёту товаров
- •6. Практическая работа 6. Проектирование информационной системы предприятия общественного питания
- •Области применения Диаграммы Исикавы
Последовательность выполнения работы
1.Изучите теорию по работе.
2.Согласно исходным данным (таблица 1) постройте диаграмму рассеивания (точечный график) и проведите её анализ.
3.Рассчитайте коэффициент корреляции rxy по формуле 1 и проверьте его
значимость.
Для вычислений удобно пользоваться таблицей промежуточных расчётов.
Таблица 2 – Результаты промежуточных расчётов
Xi |
Yi |
Xi2 |
Yi2 |
Xi Yi |
1,0 |
1,5 |
|
|
|
|
|
|
|
|
0,11 |
0,17 |
|
|
|
|
|
|
|
|
… |
… |
|
|
|
|
|
|
|
|
|
|
|
|
|
4.Проведите корреляционный анализ полученных результатов. Проверьте гипотезу об отсутствии корреляционной связи по формуле 2.
5.С использованием табличного редактора Excel постройте линию тренда с уравнением.
6.Проверьте полученное уравнение методом подстановки.
Элементы теории корреляции
Пусть некоторый объект характеризуется двумя признаками X и Y. Между признаками X и Y могут существовать различные виды зависимостей.
Функциональная зависимость – это такая зависимость, когда каждому значению признака Х соответствует единственное значение признака Y. Зависимость задаётся в виде функции y=f(x).
Статистическая зависимость – это такая зависимость, когда каждому значению признака Х соответствует статистическое распределение признака Y. Эта зависимость задаётся в виде корреляционной таблицы.
Корреляционная зависимость – это частный случай статистической зависимости, когда каждому значению признака Х соответствует среднее значение признака Y( y x ) и связь между ними достаточно хорошо описывается функцией y x =f(x), называемой уравнением регрессии Y по Х. Аналогично, если
6
каждому значению признака Y соответствует среднее значение ху φ(у), то тогда эта функция называется уравнением регрессии Х по Y. Корреляционная зависимость задаётся уравнением регрессии. Две основные задачи теории
корреляции:
1)оценить силу (тесноту) связи между признаками Х и Y;
2)найти вид (форму) этой связи в виде уравнения регрессии.
Наиболее простой и употребляемый вид связи – линейная связь. Она задаётся уравнением линейной регрессии y x =f(x)=ax+b и изображения на графике в виде прямой регрессии.
Оценка тесноты линейной связи между признаками Х и Y производится с помощью коэффициента линейной корреляции r:
|
|
|
n |
|
n |
|
n |
|
|
|
|
|
|
|
n |
|
xi yi |
xi |
yi |
|
. |
(1) |
|||
rxy |
i 1 |
|
i 1 |
i 1 |
|
|||||||
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
n |
2 |
|
n |
|
n |
2 |
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
n xi2 |
|
xi |
n yi2 |
|
yi |
|
||||
|
|
i 1 |
i 1 |
|
i |
1 |
|
i 1 |
|
|
|
|
Коэффициент r может принимать значения от –1 до +1 включительно: -
1≤r≤1 или | r |≤1.
Знак r указывает на вид связи: прямая или обратная. Абсолютная величина | r | указывает на силу (тесноту) связи.
Таблица 3 – Оценка тесноты линейной связи (шкала Чаддока)
Значение |r| |
0-0,1 |
0,1-0,3 |
0,3-0,5 |
0,5-0,7 |
0,7-0,9 |
0,9-0,99 |
1 |
|
|
|
|
|
|
|
|
Теснота |
нет |
слабая |
умерен- |
заметная |
высокая |
очень |
функцио- |
линейной |
|
|
ная |
|
|
высокая |
нальная |
связи |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
При r 0 связь прямая, то есть с ростом Х растет Y. При r 0 связь обратная, то есть с ростом Х убывает Y. Параметры а и b уравнения линейной регрессии: yx ax b находят по методу наименьших квадратов.
Проверка гипотезы об отсутствии корреляционной связи
Для обоснованных выводов о тесноте зависимости между случайными величинами Х и У по опытным данным необходимо установить значимость коэффициента корреляции, т.е. проверить гипотезу о равенстве коэффициента корреляции нулю (Н0: = 0). Для нормально распределённых случайных
7
величин выяснение, случайно ли отклоняется коэффициент корреляции от нуля или имеется какая-то связь, производят по t-распределению Стьюдента.
Сначала мы выдвигаем гипотезу, что признаки Х и У – не коррелированы. Затем по формуле (2) вычисляем t p и сравниваем его значение с табличным
значением tm , найденном по таблице 4 при числе степеней свободы f =N – 2 и
выбранном уровне значимости q для двухсторонней критической области:
t |
|
|
r |
|
|
N |
2 |
|
. |
(2) |
|
|
|
||||||||
|
|
|
|
|
|
|||||
|
p |
|
xy |
|
1 |
r 2 |
|
|||
|
|
|
|
|
||||||
|
|
|
|
|
|
|
xy |
|
Если t p tm , то выдвинутая гипотеза о некоррелированности исследуемых
признаков не подтверждается, т.е. между ними существует корреляционная связь. Метод суждения о существовании корреляции с помощью построения диаграмм рассеивания и вычисления коэффициента корреляции, описанный выше, называется корреляционным анализом.
Таблица 4 – Значения t-критерия Стьюдента (q – уровень значимости, f – число степеней свободы)
f |
|
q |
|
f |
|
q |
|
f |
|
q |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,1 |
0,05 |
0,01 |
|
0,1 |
0,05 |
0,01 |
|
0,1 |
0,05 |
0,01 |
|
|
|
|
|
|
|
|
|
|
|
|
1 |
6,314 |
12,71 |
63,657 |
20 |
1,725 |
2,086 |
2,845 |
48 |
1,677 |
2,011 |
2,682 |
|
|
|
|
|
|
|
|
|
|
|
|
2 |
2,920 |
4,303 |
9,925 |
21 |
1,721 |
2,080 |
2,831 |
50 |
1,676 |
2,009 |
2,678 |
|
|
|
|
|
|
|
|
|
|
|
|
3 |
2,353 |
3,182 |
5,841 |
22 |
1,717 |
2,074 |
2,819 |
55 |
1,673 |
2,004 |
2,668 |
|
|
|
|
|
|
|
|
|
|
|
|
4 |
2,132 |
2,776 |
4,604 |
23 |
1,714 |
2,069 |
2,807 |
60 |
1,671 |
2,000 |
2,660 |
|
|
|
|
|
|
|
|
|
|
|
|
5 |
2,015 |
2,571 |
4,032 |
24 |
1,711 |
2,064 |
2,797 |
65 |
1,669 |
1,997 |
2,654 |
|
|
|
|
|
|
|
|
|
|
|
|
6 |
1,943 |
2,447 |
3,707 |
25 |
1,708 |
2,060 |
2,787 |
70 |
1,667 |
1,994 |
2,648 |
|
|
|
|
|
|
|
|
|
|
|
|
7 |
1,895 |
2,365 |
3,499 |
26 |
1,706 |
2,056 |
2,779 |
80 |
1,664 |
1,990 |
2,639 |
|
|
|
|
|
|
|
|
|
|
|
|
8 |
1,860 |
2,306 |
3,355 |
27 |
1,703 |
2,052 |
2,771 |
90 |
1,662 |
1,987 |
2,632 |
|
|
|
|
|
|
|
|
|
|
|
|
9 |
1,833 |
2,262 |
3,250 |
28 |
1,701 |
2,048 |
2,763 |
100 |
1,660 |
1,984 |
2,626 |
|
|
|
|
|
|
|
|
|
|
|
|
10 |
1,812 |
2,228 |
3,169 |
29 |
1,699 |
2,045 |
2,756 |
120 |
1,658 |
1,980 |
2,617 |
|
|
|
|
|
|
|
|
|
|
|
|
11 |
1,796 |
2,201 |
3,106 |
30 |
1,697 |
2,042 |
2,750 |
150 |
1,655 |
1,976 |
2,609 |
|
|
|
|
|
|
|
|
|
|
|
|
12 |
1,782 |
2,179 |
3,055 |
32 |
1,694 |
2,037 |
2,738 |
200 |
1,653 |
1,972 |
2,601 |
|
|
|
|
|
|
|
|
|
|
|
|
13 |
1,771 |
2,160 |
3,012 |
34 |
1,691 |
2,032 |
2,728 |
250 |
1,651 |
1,969 |
2,596 |
|
|
|
|
|
|
|
|
|
|
|
|
14 |
1,761 |
2,145 |
2,977 |
36 |
1,688 |
2,028 |
2,719 |
300 |
1,650 |
1,968 |
2,592 |
|
|
|
|
|
|
|
|
|
|
|
|
15 |
1,753 |
2,131 |
2,947 |
38 |
1,686 |
2,024 |
2,712 |
400 |
1,649 |
1,966 |
2,588 |
|
|
|
|
|
|
|
|
|
|
|
|
16 |
1,746 |
2,120 |
2,921 |
40 |
1,684 |
2,021 |
2,704 |
500 |
1,648 |
1,965 |
2,586 |
|
|
|
|
|
|
|
|
|
|
|
|
17 |
1,740 |
2,110 |
2,898 |
42 |
1,682 |
2,018 |
2,698 |
1000 |
1,646 |
1,962 |
2,581 |
|
|
|
|
|
|
|
|
|
|
|
|
18 |
1,734 |
2,101 |
2,878 |
44 |
1,680 |
2,015 |
2,692 |
|
1,645 |
1,960 |
2,576 |
|
|
|
|
|
|
|
|
|
|
|
|
19 |
1,729 |
2,093 |
2,861 |
46 |
1,679 |
2,013 |
2,687 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
8 |
|
|
|
|
|
2. ПРАКТИЧЕСКАЯ РАБОТА 2. ИССЛЕДОВАНИЕ СТАТИСТИЧЕСКИХ ХАРАКТЕРИСТИК ПАРАМЕТРОВ ТЕХНОЛОГИЧЕСКОГО ПРОЦЕССА
Цель работы – научиться проводить статистическую оценку результатов технологического процесса.
Задание
1.Произведите статистическую обработку параметров технологического процесса. (Рассчитайте число интервалов, длину каждого интервала, среднее значение выборки, среднее квадратичное отклонение, выборочную дисперсию, коэффициент вариации, ошибку среднего значения, показатель точности среднего значения).
2.Постройте гистограмму, полигон распределения и кумулятивную кривую распределения.
3.Сделайте общие выводы по работе.
Теоретические основы
При решении многих задач практики, связанных со статистическими моделями технологических процессов, необходимые вероятностные характеристики соответствующих случайных величин неизвестны исследователю и должны определяться по экспериментальным данным. Статистическое описание результатов наблюдений, построение и проверка различных математических моделей, использующих понятие вероятности, составляет основное содержание математической статистики.
Выборка – это конечный набор значений случайной величины, получаемый в результате наблюдений. Число элементов выборки называется её объёмом. Пусть х1, х2,…,хn – наблюдаемые значения случайной величины.
Генеральная совокупность – есть совокупность всех мыслимых результатов наблюдений над случайной величиной, которые могут быть в принципе проведены при данных условиях.
Рассмотрим на примере, как обрабатывают эмпирические данные, полученные в результате эксперимента, методами математической статистики.
9