Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Практикум по прикладой статистике

.pdf
Скачиваний:
120
Добавлен:
02.05.2015
Размер:
4.48 Mб
Скачать

объектов. При этом продолжается пересчет эталонов и наращивание их весов.

Третья итерация. Рассчитывается расстояние от первого объекта до эталонов:

d11 d Е12 , X1 4 4 2 5,9 5,9 2 0 ;

d21 d Е22 , X1 1,93 4 2 2,77 5,9 2 3,75 .

На этом шаге состав эталонов остается без изменений, процесс завершается. Образовано два кластера: S1{1}, S2{2,3,4}. Далее определяются центры тяжести кластеров, в общем случае центры тяжести кластеров не совпадают с эталонами:

S1=(4; 5,9) – центр первого кластера; S2=(1,93; 2,77) – центр второго кластера.

После этого строится окончательное разбиение путем определения расстояний от каждого объекта до центров кластера. Каждый объект относится к тому кластеру, к центру которого он ближе всего расположен.

Таблица 4.6 Расстояния от объектов до центров кластеров

Кластеры

 

Объекты

 

 

 

 

 

1

2

3

4

 

S1

0,00

2,97

4,12

4,53

S2

3,75

0,93

1,38

1,13

В результате реализации метода k-средних образовано два кластера: S1{1}, S2{2,3,4}.

80

Решение типовой задачи с помощью ППП Statistica

Задача. Демографическая ситуация в 12 регионах Сибирского федерального округа (СФО) характеризуется следующими четырьмя показателями:

х1 – ожидаемая продолжительность жизни при рождении, число лет;

х2 – коэффициенты миграционного прироста населения, на 10 000 человек населения;

х3 – естественный прирост (+), убыль (-), на 1 000 человек населения;

х4 – население моложе трудоспособного возраста, в % от общей численности населения.

Значения показателей представлены в таблице. Требуется построить классификацию регионов по демографическому положению с помощью иерархического агломеративного алгоритма кластерного анализа.

Таблица 4.7 Показатели демографической ситуации в регионах СФО

 

Субъект СФО

 

Показатели

 

 

х1

х2

х3

х4

 

 

1.

Республика Алтай

68,9

17

2,8

23,6

2.

Республика Бурятия

69,5

-37

0,3

20,3

3.

Республика Тыва

63,8

-39

7,0

28,7

4.

Республика Хакасия

70,8

-3

-2,8

18,0

5.

Алтайский край

73,2

-28

-5,1

15,9

6.

Красноярский край

72,2

-13

-2,9

17,1

7.

Иркутская область

70,2

-24

-2,8

18,6

8.

Кемеровская область

70,4

16

-6,0

16,3

9.

Новосибирская область

73,4

12

-4,7

15,3

10. Омская область

73,0

-1

-4,3

16,4

11. Томская область

72,9

13

-2,4

15,8

12. Забайкальский край

68,6

-38

-1,6

20,5

Среднее значение x j

70,6

-10,4

-1,9

18,9

 

 

 

 

 

СКО j

2,6

19,6

3,2

3,5

 

 

 

 

 

 

 

 

81

 

 

 

Решение:

1.Ввод данных в программу ППП Statistica путем непосредственного набора в рабочий лист (Spreadsheet) или переноса подготовленной таблицы данных из Excel.

2. Нормирование исходных данных в ППП Statistica. Открыть меню Данные (Data), выбрать команду Стандартизация (Standardize) (рис. 4.6). В открывшемся окне выбрать переменные (Variables) и соответствующие строки (Cases) для нормирования и нажать кнопку Ok. Исходные данные в рабочем листе автоматически нормируются.

Рис. 4.6. Диалоговое окно стандартизации переменных

3.После нормирования можно приступить к реализации иерархического алгоритма. Открыть меню Статистика (Statistics) и выбрать команду Многомерные исследовательские методы

(Multivariate Exploratory Techniques) → Анализ кластера (Cluster Analysis).

4.В открывшемся диалоговом окне методов кластерного анализа выбрать метод древовидной кластеризации (Joining (Tree Clustering)) (рис. 4.7).

5.В диалоговом окне метода древовидной кластеризации

(Joining (Tree Clustering)) на вкладке Дополнительно (Advanced) с

помощью кнопки Переменные (Variables) выбрать переменные, участвующие в анализе. В поле Файл ввода (Input file) нужно указать Необработанные данные (Raw data). В строке Кластер (Cluster) в качестве объектов кластеризации указать Строки (Cases

82

(rows)). В следующей строке Принцип объединения (связи)

(Amalgamation (Linkage) rule) указать Метод Уорда (Ward’s method),

в строке Мера расстояния (Distance measures) указать Евклидово расстояние (Euclidean distance) (рис. 4.8). Нажать кнопку Ok.

Рис. 4.7. Диалоговое окно методов кластерного анализа

Рис. 4.8. Диалоговое окно кластерного анализа

6. Появится диалоговое окно результатов кластерного анализа

(Joining Results) (рис. 4.9).

83

Рис. 4.9. Диалоговое окно результатов кластерного анализа

7.В окне результатов кластерного анализа выбрать опцию Матрица расстояний (Distance matrix). Появится матрица евклидовых расстояний между объектами (рис. 4.10).

8.В окне результатов кластерного анализа выбрать опцию Схема объединения (Amalgamation schedule). Появится табличное

представление процедуры объединения объектов в кластеры

(рис. 4.11).

9. Выбрать Вертикальный график (Vertical icicle plot). В результате появится вертикальная дендрограмма, которая является графическим представлением процедуры кластерного анализа

(рис. 4.12).

На основе матрицы евклидовых расстояний, схемы объединения и графика принимается решение о количестве выделяемых кластеров.

84

Рис. 4.10. Матрица Евклидовых расстояний между объектами

Рис. 4.11. Схема объединения объектов в кластеры

85

Рис. 4.12. Вертикальная дендрограмма процедуры кластерного анализа

Выводы:

В результате реализации агломеративного алгоритма кластерного анализа выделено два класса субъектов СФО, различающихся между собой значениями показателей, характеризующих демографическую ситуацию в регионе. В первый кластер вошли 4 региона: Республика Алтай, Республика Бурятия, Республика Тыва, Забайкальский край; во второй кластер вошли 8 регионов: Республика Хакасия, Алтайский край, Красноярский край, Иркутская область, Кемеровская область, Новосибирская область, Омская область, Томская область.

86

Метод k-средних

Для демонстрации процедуры метода воспользуемся вышеприведенным примером. Для обеспечения сопоставимости результатов кластерного анализа будем использовать стандартизированную матрицу исходных данных.

Решение:

1.Открыть меню Статистика (Statistics), выбрать команду Многомерные исследовательские методы (Multivariate Exploratory Techniques) →Анализ кластера (Cluster Analysis).

2.В открывшемся диалоговом окне методов кластерного анализа выбрать метод k-средних (K-means Clustering) (рис. 4.13).

Рис. 4.13. Диалоговое окно методов кластерного анализа

3.В окне кластерного анализа (рис. 4.14) на вкладке Advanced

спомощью кнопки Переменные (Variables) выбрать переменные, участвующие в анализе. В строке Кластер (Cluster) в качестве объектов кластеризации указать Строки (Cases (rows)). В следующем поле Число кластеров (Number of clusters) указать число выделяемых кластеров равное 2 (число кластеров указано в соответствии с результатами иерархического алгоритма). Число итераций (Number of iterations) оставить по умолчанию равное 10. В блоке Начальные приближения «центров тяжести» кластеров (Initial cluster centers) выбрать один из предложенных вариантов: выбрать наблюдения, максимизирующие начальные межкластерные расстояния (Choose observations to maximize initial between-cluster distances); сортировать расстояния и выбрать наблюдения из

87

постоянных интервалов (Sort distances and take observations at constant intervals); выбрать первые N (число кластеров) наблюдений

(Choose the first N (Number of clusters) observations). В окне метода k-средних по умолчанию выбран второй способ задания начальных приближений. Нажать кнопку Ok.

Рис. 4.14. Диалоговое окно кластерного анализа

4.Появится диалоговое окно результатов кластерного анализа

(K-Means Clustering Results) (рис. 4.15).

5.В окне результатов кластерного анализа выбрать опцию Результат: «Центры тяжести кластеров и Евклидовы расстояния»

(Summary: Cluster means & Euclidean distances). Появится матрица евклидовых расстояний между кластерами, в которой под диагональю представлены евклидовы расстояния, а над диагональю

квадрат евклидового расстояния (рис. 4.16).

6.На вкладке «Центры тяжести» кластеров (Cluster means)

представлены средние значения переменных по кластерам

(рис. 4.17).

7. Для наглядного представления средних значений переменных по кластерам необходимо в окне результатов кластерного анализа выбрать опцию График средних значений

(Graph of means) (рис. 4.18).

88

Рис. 4.15. Диалоговое окно результатов кластерного анализа

Рис. 4.16. Матрица Евклидовых расстояний между кластерами

Рис. 4.17. «Центры тяжести» кластеров

89