Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Статистика _Овсянникова (исправленный)

.pdf
Скачиваний:
177
Добавлен:
08.04.2015
Размер:
1.05 Mб
Скачать

Для отыскания минимума приравняем нулю соответствующие частные производные:

 

 

 

 

F

= 2n (ρxy xi + b yi )xi = 0 ;

 

 

 

 

 

 

 

 

 

ρxy

i=1

 

 

 

 

 

 

 

 

F

= 2n (ρxy xi + b yi )= 0 .

 

 

 

 

 

b

i=1

 

 

 

 

Выполнив элементарные преобразования, получим систему

двух линейных уравнений относительно ρxy

и b.

 

n

2

 

n

 

n

 

n

 

n

ρxy

xi

 

+

xi b

= xi yi ;

ρxy

xi

+nb = yi .

i=1

 

i=1

 

i=1

i=1

 

i=1

Решив эту систему, найдем искомые параметры:

 

 

 

 

n

 

 

 

n

 

n

 

 

ρxy =

nxi yi xi yi

 

 

i=1

 

 

 

i=1

i=1

;

(5.2)

 

 

2

 

 

2

 

 

 

 

n

 

 

 

n

 

 

 

 

nxi

 

xi

 

 

 

 

 

 

i=1

 

 

 

i=1

 

 

 

 

n

 

n

 

 

 

n

 

n

 

 

 

xi

2

yi xi xi yi

 

b = i=1

 

i=1

 

 

i=1

 

i=1

 

.

 

 

 

 

n

2

 

 

n

2

 

 

 

 

nxi

 

xi

 

 

 

 

 

 

i=1

 

 

i=1

 

 

 

Параметр ρxy может быть выражен следующим образом:

_____

yx y x .

ρxy = ____

x2 x 2

Так как знаменатель этого выражения есть не что иное, как дисперсия переменной x, формула коэффициента регрессии ρxy может быть записана как

 

_____

 

ρxy =

yx y x

.

2

 

σx

 

80

nxy .

Параметр b можно найти, разделив на n второе уравнение системы:

b = yxy x .

При большом числе наблюдений одно и то же значение х может встретиться nx раз, одно и то же значение у – ny раз, одна и та же пара чисел (х, у) может наблюдаться nxy раз. Поэтому данные наблюдений группируют, т.е. подсчитывают частоты nx , ny , Все сгруппированные данные записывают в виде таблицы, которую называют корреляционной. В первой строке таблицы указаны наблюдаемые значения признака X, а в первом столбце – наблюдаемые значения признака Y. На пересечении строк и столбцов находятся частоты nxy наблюдаемых пар значений признаков.

В последнем столбце записаны суммы частот строк. В последней строке записаны суммы частот столбцов. В клетке, расположенной в нижнем правом углу таблицы, помещена сумма всех частот (общее число всех наблюдений n).

Предполагалось, что значения X и соответствующие им значения Y наблюдались по одному разу. Теперь же допустим, что получено большое число данных (практически для удовлетворительной оценки искомых параметров должно быть хотя бы 50 наблюдений), среди них есть повторяющиеся, и они сгруппированы в виде корреляционной таблицы. Запишем формулу коэффициента регрессии ρxy так, чтобы она отражала данные корреляционной таблицы.

ρxy =

nxy xy nx y

 

 

2

.

 

 

 

 

nσx

 

 

Умножив обе части равенства на дробь σσx

:

 

 

 

 

y

 

σx

=

nxy xy nx y

(5.3)

ρxy σ

y

nσ σ

.

 

 

x

y

 

81

Подставим rxy = ρxy

σx

. Отсюда

 

σy

 

 

 

 

 

 

 

 

ρxy = rxy

σ y

.

(5.4)

 

 

 

 

 

 

σ

 

 

 

 

x

 

Последняя формула отражает связь коэффициента корреляции с коэффициентом регрессии.

Коэффициент парной корреляции изменяется от -1 (случай полной обратной связи) до +1 (случай полной прямой связи).

Коэффициент корреляции – это симметричная мера связи, т.е. это мера взаимосвязи между X и Y. Поэтому rxy = ryx .

Подставив правую часть равенства (5.4) в (5.3), окончательно получим выборочное уравнение прямой линии регрессии Y на X вида

yx y = rxy σ y (x x) .

σx

Аналогично находят выборочное уравнение прямой линии регрессии X на Y вида

x y x = rxy σx ( y y) .

σ y

При решении задачи расчет производится в два основных этапа. На первом – обрабатывают табличные данные для нахождения величин x, y , Qx , Qy , Qxy . При этом используется упрощенная схема вычисления, т.е. переход от xi и yi к условным вариантам.

Второй этап – вычисление основных параметров корреляционной зависимости по формулам и оценка их достоверности.

Задание 3 (Контрольная работа № 10)

Изучая зависимость между показателями X и Y, проведено обследование 10 объектов и получены следующие данные

x

120

70

100

55

75

85

110

80

60

95

y

4,6

2,6

4,3

2,4

3,1

3,8

4,2

2,9

2,7

3,4

82

Полагая, что между X и Y имеет место линейная корреляционная связь, определите выборочное уравнение регрессии

yx y = rxy σ y (x x) и выборочный коэффициент линейной регрессии

σx

rxy . Постройте диаграмму рассеяния и линию регрессии. Сделайте вывод о направлении и тесноте связи между показателями X и Y.

Решение. Построим диаграмму рассеяния (рис. 5), отметив в прямоугольной декартовой системе координат точки с координатами (x, y) – эмпирические данные. Из диаграммы рассеяния видно, что между показателями X и Y действительно наблюдается линейная связь.

Для определения коэффициентов выборочного уравнения регрессии вида yx = b0 +b1 (x x) можно воспользоваться, например, следующими формулами:

x = n x , y = n y , Qx = x2 (nx)2 ,

Qy = y2 (ny)2 ,

Qxy = xy xny .

Тогда параметры b0 и b1 уравнения линейной регрессии и выборочный коэффициент линейной корреляции rxy определим по формулам

b0

=

 

, b1

=

Qxy

, rxy =

Qxy

.

y

 

 

 

 

 

 

 

Qx

Qx Qy

Составим расчетную таблицу 5.1.

83

 

 

 

 

 

Таблица 5.1

 

 

 

 

 

 

 

x

y

x2

y2

xy

1

120

4,6

14400

21,16

552

2

70

2,6

4900

6,76

182

3

100

4,3

10000

18,49

430

4

55

2,4

3025

5,76

132

5

75

3,1

5625

9,61

232,5

6

85

3,8

7225

14,44

323

7

110

4,2

12100

17,64

462

8

80

2,9

6400

8,41

232

9

60

2,7

3600

7,29

162

10

95

3,4

9025

11,56

323

сумма

850

34

76300

121,12

3030,5

Используя суммы таблицы 5.1, найдем:

 

 

=

x

= 850 = 85 ,

 

= y

= 34 = 3,4

,

 

x

y

 

 

 

n

10

 

 

 

n

10

 

 

Qx = x2

(∑x)2

= 76300 8502

= 4050 ,

 

n

 

 

 

 

 

 

 

 

 

 

 

10

 

 

 

Qy

= y2

(∑y)2

=121,12

342

= 5,52

,

 

10

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

Qxy = xy

xy

= 3030,5

850 34

=140,5 ,

 

 

 

 

 

 

 

n

 

 

 

 

 

10

 

 

 

b0 = y = 3,4 ,

b1 = Qxy = 140,5 = 0,035 . Qx 4050

Тогда выборочное уравнение линейной регрессии примет вид

yx = 3,4 + 0,035(x 85)

или

yx = 0,035x + 0,425 .

84

Выборочный коэффициент линейной корреляции rxy

r =

Qxy

=

140,5

0,94

 

 

xy

Qx Qy

 

4050 5,52

 

 

 

 

Таким образом, расчеты подтвердили, что между показателями X и Y наблюдается положительная линейная корреляционная связь (связь прямая, так как rxy 0,94 > 0 ), которую согласно таблице Чеддока (таблица 5.2) можно считать весьма высокой ( rxy 0,94 ).

Для построения линии регрессии (прямой) найдем две точки.

В качестве одной

из них

можно

выбрать (

 

,

 

), то есть точку

x

y

(85;3,4). Вторую

точку

найдем

из уравнения регрессии

yx = 0,035x + 0,425 .

При x =120 : y120

= 0,035 120 + 0,425 = 4,625 4,63 ,

то есть точка (120; 4,63).

 

 

 

 

 

 

Замечание 1. Выборочный коэффициент линейной корреля-

ции rxy меняется в пределах 1 rxy

1. Знак rxy характеризует на-

правление, а абсолютная величина rxy – тесноту линейной корреляционной связи.

Если rxy > 0 , то увеличение признака x в среднем приводит к увеличению признака y, то есть связь между показателями x и y – прямая (положительная) линейная корреляционная связь. Если rxy < 0 , то с увеличением признака x в среднем признак y уменьшается, то есть связь между показателями x и y обратная (отрицательная) линейная корреляционная связь.

Замечание 2. Для качественной оценки тесноты корреляционной связи между x и y можно воспользоваться таблицей Чеддока

(табл. 5.2).

 

 

 

 

 

 

 

Таблица 5.2

 

 

 

 

 

 

 

Диапазон изме-

0,1-0,3

0,3-0,5

0,5-0,7

0,7-0,9

 

0,9-0,99

нения

rxy

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Характер тесно-

слабая

умерен-

замет-

высокая

 

весьма

ты связи

 

ная

ная

 

 

высокая

85

4,8

 

 

 

 

 

 

 

 

 

y = 0,035x + 0,425

 

 

4,7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4,6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4,5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4,4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4,3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4,2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4,1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3,9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3,8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3,7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3,6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3,5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3,4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3,3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3,2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3,1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2,9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2,8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2,7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2,6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2,5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2,4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2,3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2,2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2,1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

50

55

60

65

70

75

80

85

90

95

100

105

110

115

120

125

 

 

 

 

 

 

 

Рисунок 5.1

 

 

 

 

 

 

 

86

Тема 6.

ПРАКТИЧЕСКИЕ ЗАДАНИЯ ДЛЯ САМОСТОЯТЕЛЬНОГО РЕШЕНИЯ

Обобщим весь изложенный материал на решении следующей задачи:

Задана двухмерная выборка XY. Для выборок X и Y необходимо:

1)составить интервальный ряд распределения;

2)найти выборочную среднюю, выборочную дисперсию и выборочное среднее квадратическое отклонение;

3)найти эмпирическую функцию распределения и построить

ееграфик;

4)построить гистограмму относительных частот;

5)по виду гистограммы выдвинуть гипотезу о типе распределения генеральной совокупности и проверить гипотезу с помощью критерия Пирсона при уровне значимости 0.05;

6)построить график теоретической плотности вероятности;

7)найти доверительный интервал для оценки неизвестного математического ожидания генеральной совокупности с надежно-

стью 0,95;

8)составить корреляционную таблицу и в предположении о линейной зависимости между X и Y найти выборочный коэффициент корреляции;

9)проверить гипотезу о значимости выборочного коэффициента корреляции при уровне значимости 0,05;

87

10) найти выборочные уравнения прямой линии регрессии Y на X и прямой линии регрессии X на Y и построить их графики на корреляционном поле.

ВЫБОРКА

X

Y

X

У

X

Y

X

У

X

Y

48

84

70

91

49

87

52

85

68

90

64

93

61

92

55

85

51

88

53

89

68

93

61

89

57

86

60

87

51

83

64

89

59

88

69

91

61

87

41

79

65

90

49

83

51

85

60

87

69

91

65

90

65

89

44

81

64

90

65

92

60

87

57

86

68

94

55

89

64

91

61

91

68

92

82

97

54

88

53

85

52

84

71

92

67

90

57

87

56

87

55

86

64

91

55

88

74

93

49

84

61

89

62

88

51

86

61

89

75

97

59

88

47

82

69

92

66

91

53

85

65

89

48

83

48

81

70

94

76

96

45

81

66

94

56

87

61

89

56

85

53

85

49

82

74

93

54

84

59

89

74

95

76

94

65

90

67

94

65

91

67

90

61

89

69

93

56

86

56

87

69

92

48

83

60

87

43

81

62

88

51

84

72

96

48

84

73

93

61

89

57

86

60

89

66

91

61

88

62

88

Определяем объем выборки: n =100

Производим расчет выборки X.

1. По значениям выборки X составляем вариационным ряд

(табл.6.1).

Таблица 6.1

xi

41

43

44

45

47

48

49

51

52

53

54

55

56

57

59

mi

1

1

1

1

1

5

4

5

2

4

2

4

5

4

3

88

xi

60

61

 

 

62

64

65

66

 

67

68

69

70

71

72

73

74

75

mi

5

10

 

3

5

7

3

3

4

5

2

1

1

1

3

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

76

82

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

mi

2

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Определяем минимальное и максимальное значения выборки

X: xmin =41,

xmax =82.

 

 

 

 

 

 

 

 

 

 

 

Длину интервала находим по формуле Стерджеса

 

 

 

 

 

 

 

 

hx =

xmax xmin

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1+3,332 lg n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вычисляем: hx = (82 – 41)/(1 + 3,332lg100) = 5,3497. Округля-

ем полученное значение до ближайшего целого числа. Принимаем длину интервала hx = 6. За начало первого интервала рекомендует-

ся принимать значение хнач = хmin – hx/2. В данном случае хнач = 38. Составляем интервальный ряд распределения. Варианту, значение которой совпадает с нижней границей интервала, включаем в i-й интервал, а варианту, значение которой совпадает с верхней границей интервала, включаем в следующий (i+1)-й интервал.

Данные заносим в расчетную таблицу (табл. 6.2).

Таблица 6.2

Нача-

Конец

Середи-

Частота

Отно-

Плот-

Накоп-

на ин-

сит. час-

ность

ло ин-

интерв.

тервала

интерва-

тота

частоты

лен. час-

терв. хi

хi+1

~

ла ni

wi= ni /n

wi/hx

тоты

 

 

xi

 

 

38

44

41

2

0,02

0,0333

0,02

44

50

47

12

0,12

0,0200

0,14

50

56

53

17

0,17

0,0283

0,31

56

62

59

27

0,27

0,0450

0,58

62

68

65

21

0,21

0,0350

0,79

68

74

71

14

0,14

0,0233

0,93

74

80

77

6

0,06

0,0100

0,99

80

86

83

1

0,01

0,0017

1,00

89