Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Практикум по прикладой статистике

.pdf
Скачиваний:
120
Добавлен:
02.05.2015
Размер:
4.48 Mб
Скачать

40

41

42

43

Тема 3. Компонентный анализ

Теоретические основы

Компонентный анализ – это метод снижения размерности информационного пространства путем линейного преобразования исходных переменных.

Компонентный анализ широко применяется в исследованиях в области медицины, социологии, психологии. Одной из самых распространенных задач, решаемых с помощью компонентного анализа, является обработка результатов маркетинговых исследований. Также метод применяется для исследования различий в территориальном развитии, в частности, регионов, городов и пр.

В качестве основных задач, решаемых с помощью метода главных компонент, указывают следующие:

снижение числа анализируемых переменных;

классификация переменных.

Компонентный анализ содержит один метод – метод главных компонент. В методе главных компонент производится вращение исходной системы координат к новой системе в полном пространстве параметров – ортогональное преобразование, при котором каждый из m параметров является линейной комбинацией m главных компонент. Метод главных компонент имеет много общего с методом главных факторов, некоторые исследователи включает его в состав факторного анализа. Укажем основные отличия компонентного анализа от факторного:

во-первых, возможность одновременного вычисления всех главных компонент, число которых равно числу исходных переменных;

во-вторых, главные компоненты объясняют 100% вариации исходных переменных, тогда как в факторном анализе допускается существование характерности переменных;

в-третьих, компонентный анализ основан на объяснении дисперсии переменных (минимизация остаточной дисперсии переменных), а факторный анализ – на объяснении корреляции переменных (минимизация остаточной корреляции).

44

Идея метода главных компонент заключается в том, что каждая компонента учитывает максимум суммарной дисперсии параметров: первая главная компонента есть линейная комбинация исходных параметров, учитывающая максимум их суммарной дисперсии; вторая главная компонента не коррелирует с первой и учитывает максимум оставшейся дисперсии и т.д. до тех пор, пока вся дисперсия начальных параметров не будет учтена [7, с. 152]. Таким образом, главные компоненты образуют ортогональную систему координат.

Математическая модель метода главных компонент имеет следующий вид:

xij ai1 f1 j ai 2 f2 j ... aim fmj ,

( i 1, n; j 1, m; r 1, m )

где n – число объектов наблюдения; m – число показателей, характеризующих объект; r – число значимых общих факторов; xij – центрированное значение j-го показателя (переменной) у i-го объекта исследования; fr r-я главная компонента; a jr – весовой коэффициент j-й переменной на r-й главной компоненте.

Алгоритм метода главных компонент

1.Представление исходных данных в виде матрицы Х, размерностью n×m, где n - число объектов наблюдения, m - число признаков наблюдения.

2.Стандартизация матрицы исходных данных по формуле

z

 

 

xij

x j

и получение матрицы стандартизированных значений

ij

 

j

 

 

 

 

 

 

 

 

 

признаков (Z).

3.Расчет матрицы парных коэффициентов корреляции по формуле R 1n Z Z .

4.Определение матрицы собственных чисел Λ путем решения характеристического уравнения R E 0 .

45

5.Определение матрицы собственных векторов U путем решения матричного уравнения R E U 0 .

6.Определение матрицы нормированных собственных векторов V путем преобразования ненормированных собственных

векторов V

 

 

 

 

U j

 

 

.

j

 

 

U j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7. Определение матрицы факторного отображения A по

формуле A V 1 2 , элементы которой представляют собой частные коэффициенты корреляции между исходными переменными и главными компонентами.

8. Определение матрицы значений главных компонент по формуле F A 1Z .

Пример 3.1. В таблице представлены результаты обследования промышленных предприятий по четырем показателям:

х1 – годовой фонд оплаты труда, тыс. руб.; х2 – среднегодовая стоимость основных средств, тыс. руб.; х3 – производительность труда, тыс. руб.;

х4 – чистая прибыль предприятия за год, тыс. руб.

Необходимо найти матрицу значений главных компонент F.

 

 

 

Таблица 3.1

Показатели производственной деятельности предприятий

 

 

 

 

 

 

 

№ предприятия

 

Переменные (признаки)

 

х1

х2

х3

 

х4

 

 

1

3240

25344

1540

 

1050

2

2520

14805

1675

 

1280

3

4608

37128

1750

 

1350

4

4320

24800

1469

 

1187

5

5508

32400

1315

 

954

6

3420

20976

1705

 

1240

Решение:

Матрица исходных данных Х имеет вид:

46

3240

25344 1540

1050

 

 

 

 

 

 

 

2520

14805 1675

1280

 

 

4608

37128 1750

1350

 

X

.

4320

24800 1469

1187

 

5508

32400 1315

954

 

 

 

 

3420

20976 1705

1240

 

 

 

Стандартизированная матрица исходных значений Z

принимает вид:

 

 

 

 

 

 

- 0,64

-0,07

-0,22

-0,85

 

 

 

 

 

 

 

 

-1,31

-1,39

0,60

0,69

 

 

0,62

1,41

1,05

1,17

 

Z

.

0,36

-0,14

-0,64

0,07

 

 

 

0,81

-1,57

-1,50

 

1,46

 

 

- 0,48 -0,62 0,78

0,42

 

 

 

На основе стандартизированной матрицы определяется

матрица парных коэффициентов корреляции R:

 

 

1,00

0,84

-0,58

-0,40

 

 

 

 

 

 

 

 

0,84

1,00

-0,20

-0,15

 

R

- 0,58

-0,20

1,00

0,89

.

 

 

 

- 0,40

-0,15

0,89

1,00

 

 

 

Далее составляется и решается характеристическое уравнение (для решения уравнения применяется метод множителей Лагранжа):

 

 

1

-

0,84

-0,58

-0,40

 

 

 

 

 

 

 

1 -

 

 

 

 

 

 

 

0,84

-0,20

-0,15

 

 

R E

 

 

-

0,58

-0,20

1 -

0,89

 

0 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

-

0,40

-0,15

0,89

1 -

 

 

 

 

 

 

 

Решение уравнения представляется в виде диагональной матрицы собственных чисел:

47

2,56

0

0

0

 

 

 

 

 

 

 

 

0

1,25

0

0

 

 

0

0

0,17

0

.

 

 

 

0

0

0

 

 

 

0,03

На основе собственных значений определяются доля объясненной дисперсии исходных переменных каждой компонентой: первая главная компонента объясняет 63,9% вариации переменных (2,56/4*100%=63,9%), вторая главная компонента – 31,1% (1,25/4*100%=31,1%), третья главная компонента – (0,17/4*100%=4,3%), четвертая главная компонента –

0,7% (0,03/4*100%=0,7%).

Из матричного

уравнения

R E U 0 определяются

собственные вектора

U j . Для

нахождения решения системы

уравнений, составляемой для каждого вектора, одна из неизвестных

координат

вектора

U j

u1 j ,u2 j , u3 j , u4 j

принимается равной

единице.

При u4 j

1

матрица ненормированных

собственных

векторов принимает вид:

 

 

 

 

 

 

-1,12

0,75

0,85

-1,40

 

 

 

 

 

 

 

 

 

 

 

 

- 0,84

1,27

-0,84

1,05

 

 

U

 

0,83

-0,69

-1,54

.

 

 

1,10

 

 

 

 

 

1,00

1,00

1,00

 

 

 

1,00

 

Матрица нормированных значений собственных векторов:

- 0,55

0,38

0,50

-0,55

 

 

 

 

 

 

 

- 0,41

0,65

-0,49

0,41

 

V

 

 

 

 

.

 

0,54

0,42

-0,41

 

 

-0,61

 

0,49

0,51

0,59

0,39

 

 

 

Матрица факторного отображения принимает вид:

48

- 0,88

0,43

0,20

-0,10

 

 

 

 

 

 

 

 

- 0,66

0,72

-0,20

0,07

 

A

 

 

 

 

.

 

0,86

0,47

-0,17

-0,10

 

 

 

0,78

0,57

0,24

0,07

 

 

 

Элементы матрицы факторного отображения представляют собой коэффициенты парной корреляции между главными компонентами и исходными переменными.

На основе элементов матрицы осуществляется расчет коэффициента информативности и) главной компоненты, который позволяет определить достаточность набора объясняющих переменных для содержательной интерпретации главных компонент. Коэффициент информативности для каждой компоненты определяется как отношение суммы квадратов значимых коэффициентов корреляции к сумме квадратов всех коэффициентов корреляции соответствующей компоненты с начальными переменными. К множеству значимых коэффициентов относятся коэффициенты, значения которых равны или больше 0,7.

Набор объясняющих переменных считается достаточным при значении коэффициента информативности равным 0,75-0,95.

Коэффициент информативности первой главной компоненты равен 0,83:

Kи

 

0,88 2

0,862

0,782

 

0,83.

0,88 2

0.66 2

0,862

0,782

 

 

 

Коэффициент информативности второй главной компоненты равен 0,42:

Kи

 

 

0,722

 

0,42 .

 

0,722 0,472

0,572

 

0,432

 

Таким образом, набор объясняющих переменных для первой главной компоненты является достаточным, а для второй главной компоненты – недостаточным. Отметим, что применение процедуры вращения главных компонент позволит улучшить решение.

49