Статистика _Овсянникова (исправленный)
.pdfДля отыскания минимума приравняем нулю соответствующие частные производные:
|
|
|
|
∂F |
= 2∑n (ρxy xi + b − yi )xi = 0 ; |
|||||||
|
|
|
|
|
||||||||
|
|
|
|
∂ρxy |
i=1 |
|
|
|
|
|||
|
|
|
|
∂F |
= 2∑n (ρxy xi + b − yi )= 0 . |
|
||||||
|
|
|
|
∂b |
i=1 |
|
|
|
|
|||
Выполнив элементарные преобразования, получим систему |
||||||||||||
двух линейных уравнений относительно ρxy |
и b. |
|||||||||||
|
n |
2 |
|
n |
|
n |
|
n |
|
n |
||
ρxy |
∑xi |
|
+ |
∑xi b |
= ∑xi yi ; |
ρxy |
∑xi |
+nb = ∑yi . |
||||
i=1 |
|
i=1 |
|
i=1 |
i=1 |
|
i=1 |
Решив эту систему, найдем искомые параметры:
|
|
|
|
n |
|
|
|
n |
|
n |
|
|
ρxy = |
n∑xi yi −∑xi ∑yi |
|
|
|||||||||
i=1 |
|
|
|
i=1 |
i=1 |
; |
(5.2) |
|||||
|
|
2 |
|
|
2 |
|||||||
|
|
|
|
n |
|
|
|
n |
||||
|
|
|
|
n∑xi |
|
− |
∑xi |
|
|
|||
|
|
|
|
i=1 |
|
|
|
i=1 |
|
|
|
|
|
n |
|
n |
|
|
|
n |
|
n |
|
|
|
|
∑xi |
2 |
∑yi −∑xi ∑xi yi |
|
||||||||
b = i=1 |
|
i=1 |
|
|
i=1 |
|
i=1 |
|
. |
|||
|
|
|
|
n |
2 |
|
|
n |
2 |
|
||
|
|
|
n∑xi |
|
− |
∑xi |
|
|
||||
|
|
|
|
i=1 |
|
|
i=1 |
|
|
|
Параметр ρxy может быть выражен следующим образом:
_____
yx − y x .
ρxy = ____
x2 − x 2
Так как знаменатель этого выражения есть не что иное, как дисперсия переменной x, формула коэффициента регрессии ρxy может быть записана как
|
_____ |
|
ρxy = |
yx − y x |
. |
2 |
||
|
σx |
|
80
Параметр b можно найти, разделив на n второе уравнение системы:
b = y-ρxy x .
При большом числе наблюдений одно и то же значение х может встретиться nx раз, одно и то же значение у – ny раз, одна и та же пара чисел (х, у) может наблюдаться nxy раз. Поэтому данные наблюдений группируют, т.е. подсчитывают частоты nx , ny , Все сгруппированные данные записывают в виде таблицы, которую называют корреляционной. В первой строке таблицы указаны наблюдаемые значения признака X, а в первом столбце – наблюдаемые значения признака Y. На пересечении строк и столбцов находятся частоты nxy наблюдаемых пар значений признаков.
В последнем столбце записаны суммы частот строк. В последней строке записаны суммы частот столбцов. В клетке, расположенной в нижнем правом углу таблицы, помещена сумма всех частот (общее число всех наблюдений n).
Предполагалось, что значения X и соответствующие им значения Y наблюдались по одному разу. Теперь же допустим, что получено большое число данных (практически для удовлетворительной оценки искомых параметров должно быть хотя бы 50 наблюдений), среди них есть повторяющиеся, и они сгруппированы в виде корреляционной таблицы. Запишем формулу коэффициента регрессии ρxy так, чтобы она отражала данные корреляционной таблицы.
ρxy = |
∑nxy xy −nx y |
|
|||
|
2 |
. |
|
||
|
|
|
nσx |
|
|
Умножив обе части равенства на дробь σσx |
: |
||||
|
|
|
|
y |
|
σx |
= |
∑nxy xy − nx y |
(5.3) |
||
ρxy σ |
y |
nσ σ |
. |
||
|
|
x |
y |
|
81
Подставим rxy = ρxy |
σx |
. Отсюда |
|
||
σy |
|
||||
|
|
|
|
|
|
|
|
ρxy = rxy |
σ y |
. |
(5.4) |
|
|
|
|||
|
|
|
σ |
|
|
|
|
|
x |
|
Последняя формула отражает связь коэффициента корреляции с коэффициентом регрессии.
Коэффициент парной корреляции изменяется от -1 (случай полной обратной связи) до +1 (случай полной прямой связи).
Коэффициент корреляции – это симметричная мера связи, т.е. это мера взаимосвязи между X и Y. Поэтому rxy = ryx .
Подставив правую часть равенства (5.4) в (5.3), окончательно получим выборочное уравнение прямой линии регрессии Y на X вида
yx − y = rxy σ y (x − x) .
σx
Аналогично находят выборочное уравнение прямой линии регрессии X на Y вида
x y − x = rxy σx ( y − y) .
σ y
При решении задачи расчет производится в два основных этапа. На первом – обрабатывают табличные данные для нахождения величин x, y , Qx , Qy , Qxy . При этом используется упрощенная схема вычисления, т.е. переход от xi и yi к условным вариантам.
Второй этап – вычисление основных параметров корреляционной зависимости по формулам и оценка их достоверности.
Задание 3 (Контрольная работа № 10)
Изучая зависимость между показателями X и Y, проведено обследование 10 объектов и получены следующие данные
x |
120 |
70 |
100 |
55 |
75 |
85 |
110 |
80 |
60 |
95 |
y |
4,6 |
2,6 |
4,3 |
2,4 |
3,1 |
3,8 |
4,2 |
2,9 |
2,7 |
3,4 |
82
Полагая, что между X и Y имеет место линейная корреляционная связь, определите выборочное уравнение регрессии
yx − y = rxy σ y (x − x) и выборочный коэффициент линейной регрессии
σx
rxy . Постройте диаграмму рассеяния и линию регрессии. Сделайте вывод о направлении и тесноте связи между показателями X и Y.
Решение. Построим диаграмму рассеяния (рис. 5), отметив в прямоугольной декартовой системе координат точки с координатами (x, y) – эмпирические данные. Из диаграммы рассеяния видно, что между показателями X и Y действительно наблюдается линейная связь.
Для определения коэффициентов выборочного уравнения регрессии вида yx = b0 +b1 (x − x) можно воспользоваться, например, следующими формулами:
x = ∑n x , y = ∑n y , Qx = ∑x2 − (∑nx)2 ,
Qy = ∑y2 − (∑ny)2 ,
Qxy = ∑xy − ∑xn∑y .
Тогда параметры b0 и b1 уравнения линейной регрессии и выборочный коэффициент линейной корреляции rxy определим по формулам
b0 |
= |
|
, b1 |
= |
Qxy |
, rxy = |
Qxy |
. |
|
y |
|||||||||
|
|
||||||||
|
|
|
|
|
Qx |
Qx Qy |
Составим расчетную таблицу 5.1.
83
|
|
|
|
|
Таблица 5.1 |
|
|
|
|
|
|
|
x |
y |
x2 |
y2 |
xy |
1 |
120 |
4,6 |
14400 |
21,16 |
552 |
2 |
70 |
2,6 |
4900 |
6,76 |
182 |
3 |
100 |
4,3 |
10000 |
18,49 |
430 |
4 |
55 |
2,4 |
3025 |
5,76 |
132 |
5 |
75 |
3,1 |
5625 |
9,61 |
232,5 |
6 |
85 |
3,8 |
7225 |
14,44 |
323 |
7 |
110 |
4,2 |
12100 |
17,64 |
462 |
8 |
80 |
2,9 |
6400 |
8,41 |
232 |
9 |
60 |
2,7 |
3600 |
7,29 |
162 |
10 |
95 |
3,4 |
9025 |
11,56 |
323 |
сумма |
850 |
34 |
76300 |
121,12 |
3030,5 |
Используя суммы таблицы 5.1, найдем:
|
|
= |
∑x |
= 850 = 85 , |
|
= ∑y |
= 34 = 3,4 |
, |
|||||||
|
x |
y |
|||||||||||||
|
|
|
n |
10 |
|
|
|
n |
10 |
|
|
||||
Qx = ∑x2 − |
(∑x)2 |
= 76300 − 8502 |
= 4050 , |
||||||||||||
|
n |
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
10 |
|
|
|
|
Qy |
= ∑y2 − |
(∑y)2 |
=121,12 − |
342 |
= 5,52 |
, |
|||||||||
|
10 |
||||||||||||||
|
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
Qxy = ∑xy − |
∑x∑y |
= 3030,5 − |
850 34 |
=140,5 , |
|||||||||||
|
|||||||||||||||
|
|
|
|
|
|
n |
|
|
|
|
|
10 |
|
|
|
b0 = y = 3,4 ,
b1 = Qxy = 140,5 = 0,035 . Qx 4050
Тогда выборочное уравнение линейной регрессии примет вид
yx = 3,4 + 0,035(x −85)
или
yx = 0,035x + 0,425 .
84
Выборочный коэффициент линейной корреляции rxy
r = |
Qxy |
= |
140,5 |
≈ 0,94 |
|
|
|||
xy |
Qx Qy |
|
4050 5,52 |
|
|
|
|
Таким образом, расчеты подтвердили, что между показателями X и Y наблюдается положительная линейная корреляционная связь (связь прямая, так как rxy ≈ 0,94 > 0 ), которую согласно таблице Чеддока (таблица 5.2) можно считать весьма высокой ( rxy ≈ 0,94 ).
Для построения линии регрессии (прямой) найдем две точки.
В качестве одной |
из них |
можно |
выбрать ( |
|
, |
|
), то есть точку |
x |
y |
||||||
(85;3,4). Вторую |
точку |
найдем |
из уравнения регрессии |
||||
yx = 0,035x + 0,425 . |
При x =120 : y120 |
= 0,035 120 + 0,425 = 4,625 ≈ 4,63 , |
|||||
то есть точка (120; 4,63). |
|
|
|
|
|
|
|
Замечание 1. Выборочный коэффициент линейной корреля- |
|||||||
ции rxy меняется в пределах −1 ≤ rxy |
≤1. Знак rxy характеризует на- |
правление, а абсолютная величина rxy – тесноту линейной корреляционной связи.
Если rxy > 0 , то увеличение признака x в среднем приводит к увеличению признака y, то есть связь между показателями x и y – прямая (положительная) линейная корреляционная связь. Если rxy < 0 , то с увеличением признака x в среднем признак y уменьшается, то есть связь между показателями x и y обратная (отрицательная) линейная корреляционная связь.
Замечание 2. Для качественной оценки тесноты корреляционной связи между x и y можно воспользоваться таблицей Чеддока
(табл. 5.2).
|
|
|
|
|
|
|
Таблица 5.2 |
|
|
|
|
|
|
|
|
||
Диапазон изме- |
0,1-0,3 |
0,3-0,5 |
0,5-0,7 |
0,7-0,9 |
|
0,9-0,99 |
||
нения |
rxy |
|
||||||
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
||
Характер тесно- |
слабая |
умерен- |
замет- |
высокая |
|
весьма |
||
ты связи |
|
ная |
ная |
|
|
высокая |
85
4,8 |
|
|
|
|
|
|
|
|
|
y = 0,035x + 0,425 |
|
|
|||
4,7 |
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4,6 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4,5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4,4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4,3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4,2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4,1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3,9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3,8 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3,7 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3,6 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3,5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3,4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3,3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3,2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3,1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2,9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2,8 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2,7 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2,6 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2,5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2,4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2,3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2,2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2,1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
50 |
55 |
60 |
65 |
70 |
75 |
80 |
85 |
90 |
95 |
100 |
105 |
110 |
115 |
120 |
125 |
|
|
|
|
|
|
|
Рисунок 5.1 |
|
|
|
|
|
|
|
86
Тема 6.
ПРАКТИЧЕСКИЕ ЗАДАНИЯ ДЛЯ САМОСТОЯТЕЛЬНОГО РЕШЕНИЯ
Обобщим весь изложенный материал на решении следующей задачи:
Задана двухмерная выборка XY. Для выборок X и Y необходимо:
1)составить интервальный ряд распределения;
2)найти выборочную среднюю, выборочную дисперсию и выборочное среднее квадратическое отклонение;
3)найти эмпирическую функцию распределения и построить
ееграфик;
4)построить гистограмму относительных частот;
5)по виду гистограммы выдвинуть гипотезу о типе распределения генеральной совокупности и проверить гипотезу с помощью критерия Пирсона при уровне значимости 0.05;
6)построить график теоретической плотности вероятности;
7)найти доверительный интервал для оценки неизвестного математического ожидания генеральной совокупности с надежно-
стью 0,95;
8)составить корреляционную таблицу и в предположении о линейной зависимости между X и Y найти выборочный коэффициент корреляции;
9)проверить гипотезу о значимости выборочного коэффициента корреляции при уровне значимости 0,05;
87
10) найти выборочные уравнения прямой линии регрессии Y на X и прямой линии регрессии X на Y и построить их графики на корреляционном поле.
ВЫБОРКА
X |
Y |
X |
У |
X |
Y |
X |
У |
X |
Y |
48 |
84 |
70 |
91 |
49 |
87 |
52 |
85 |
68 |
90 |
64 |
93 |
61 |
92 |
55 |
85 |
51 |
88 |
53 |
89 |
68 |
93 |
61 |
89 |
57 |
86 |
60 |
87 |
51 |
83 |
64 |
89 |
59 |
88 |
69 |
91 |
61 |
87 |
41 |
79 |
65 |
90 |
49 |
83 |
51 |
85 |
60 |
87 |
69 |
91 |
65 |
90 |
65 |
89 |
44 |
81 |
64 |
90 |
65 |
92 |
60 |
87 |
57 |
86 |
68 |
94 |
55 |
89 |
64 |
91 |
61 |
91 |
68 |
92 |
82 |
97 |
54 |
88 |
53 |
85 |
52 |
84 |
71 |
92 |
67 |
90 |
57 |
87 |
56 |
87 |
55 |
86 |
64 |
91 |
55 |
88 |
74 |
93 |
49 |
84 |
61 |
89 |
62 |
88 |
51 |
86 |
61 |
89 |
75 |
97 |
59 |
88 |
47 |
82 |
69 |
92 |
66 |
91 |
53 |
85 |
65 |
89 |
48 |
83 |
48 |
81 |
70 |
94 |
76 |
96 |
45 |
81 |
66 |
94 |
56 |
87 |
61 |
89 |
56 |
85 |
53 |
85 |
49 |
82 |
74 |
93 |
54 |
84 |
59 |
89 |
74 |
95 |
76 |
94 |
65 |
90 |
67 |
94 |
65 |
91 |
67 |
90 |
61 |
89 |
69 |
93 |
56 |
86 |
56 |
87 |
69 |
92 |
48 |
83 |
60 |
87 |
43 |
81 |
62 |
88 |
51 |
84 |
72 |
96 |
48 |
84 |
73 |
93 |
61 |
89 |
57 |
86 |
60 |
89 |
66 |
91 |
61 |
88 |
62 |
88 |
Определяем объем выборки: n =100
Производим расчет выборки X.
1. По значениям выборки X составляем вариационным ряд
(табл.6.1).
Таблица 6.1
xi |
41 |
43 |
44 |
45 |
47 |
48 |
49 |
51 |
52 |
53 |
54 |
55 |
56 |
57 |
59 |
mi |
1 |
1 |
1 |
1 |
1 |
5 |
4 |
5 |
2 |
4 |
2 |
4 |
5 |
4 |
3 |
88
xi |
60 |
61 |
|
|
62 |
64 |
65 |
66 |
|
67 |
68 |
69 |
70 |
71 |
72 |
73 |
74 |
75 |
|
mi |
5 |
10 |
|
3 |
5 |
7 |
3 |
3 |
4 |
5 |
2 |
1 |
1 |
1 |
3 |
1 |
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
xi |
76 |
82 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
mi |
2 |
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Определяем минимальное и максимальное значения выборки |
||||||||||||||||||
X: xmin =41, |
xmax =82. |
|
|
|
|
|
|
|
|
|
|
||||||||
|
Длину интервала находим по формуле Стерджеса |
||||||||||||||||||
|
|
|
|
|
|
|
|
hx = |
xmax − xmin |
. |
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
1+3,332 lg n |
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Вычисляем: hx = (82 – 41)/(1 + 3,332lg100) = 5,3497. Округля-
ем полученное значение до ближайшего целого числа. Принимаем длину интервала hx = 6. За начало первого интервала рекомендует-
ся принимать значение хнач = хmin – hx/2. В данном случае хнач = 38. Составляем интервальный ряд распределения. Варианту, значение которой совпадает с нижней границей интервала, включаем в i-й интервал, а варианту, значение которой совпадает с верхней границей интервала, включаем в следующий (i+1)-й интервал.
Данные заносим в расчетную таблицу (табл. 6.2).
Таблица 6.2
Нача- |
Конец |
Середи- |
Частота |
Отно- |
Плот- |
Накоп- |
на ин- |
сит. час- |
ность |
||||
ло ин- |
интерв. |
тервала |
интерва- |
тота |
частоты |
лен. час- |
терв. хi |
хi+1 |
~ |
ла ni |
wi= ni /n |
wi/hx |
тоты |
|
|
xi |
|
|
||
38 |
44 |
41 |
2 |
0,02 |
0,0333 |
0,02 |
44 |
50 |
47 |
12 |
0,12 |
0,0200 |
0,14 |
50 |
56 |
53 |
17 |
0,17 |
0,0283 |
0,31 |
56 |
62 |
59 |
27 |
0,27 |
0,0450 |
0,58 |
62 |
68 |
65 |
21 |
0,21 |
0,0350 |
0,79 |
68 |
74 |
71 |
14 |
0,14 |
0,0233 |
0,93 |
74 |
80 |
77 |
6 |
0,06 |
0,0100 |
0,99 |
80 |
86 |
83 |
1 |
0,01 |
0,0017 |
1,00 |
89