Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебное пособие 700489.doc
Скачиваний:
7
Добавлен:
01.05.2022
Размер:
12.64 Mб
Скачать

Список литературы

  1. Адаптация человека к трудовой деятельности и ее психофизиологическая оценка: Межотраслевые методические рекомендации / НИИ труда - М.: 2007. - С. 26.

  2. Адаптация человека к трудовой деятельности и ее психофизиологическая оценка //Профессиональная подготовка рабочих кадров: Тенденции и проблемы / НИИтруда - М.: 2005. - С. 51-60.

  3. Зеер Э.Ф., Сыманюк Э.Э. Психология профессиональных деструкций. Учебное пособие для ВУЗов, М., Академический Проект; Екатеринбург "Деловая книга,2005. – 240с.

  4. Управление персоналом. 2-е издание, переработанное и дополненное. Под ред.Базарова Т.Ю., Еремина Б.Л. – М.: ЮНИТИ, 2007. – 560с.

УДК 658.5

Кластерный анализ, как перспективный многомерный метод классификации в строительстве

Т.А. Свиридова, ст. преп., У.Г. Глушенкова, О.В. Карасёва, А.В. Пахомова, студенты гр.4331

Научный руководитель - ст. преп. Т.А. Свиридова20

В настоящее время кластерная политика является одной из важнейших и, пожалуй, главных направлений, используемых для классификации в различных областях, в том числе и в сфере строительства, но в частности опирается на социально-экономическую сферу.

По мнению различных учёных впервые термин «кластерный анализ» был упомянут в 1939 году ученым Р. Трионом. Именно Трион сделал первое описание кластерного анализа. В переводе с английского «cluster» означает «гроздь» или «пучок». Данный термин включает в себя около ста всевозможных алгоритмов.

Важнейшая и главная задача кластерного анализа – это разделение большого количества исследуемых объектов и признаков на однородные (однотипные) в соответствующем понимании группы или кластеры. Кластерный анализ можно использовать даже когда речь идёт о самых обычных случаях, например, в элементарной группировке, где необходимо создать группы по определенному сходству [1].

Кластерный анализ имеет огромное достоинство, которое заключается в том, что он производит разделение всех объектов не только по единичному параметру, а по целому ряду признаков. И, кроме того, кластерный анализ в отличие от большинства других математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов, и позволяет рассматривать множество исходных данных практически произвольной природы.

Кластерный анализ в отличие от других схожих анализов позволяет рассмотреть довольно большой размер информации и грубо уменьшать и сжимать огромные массивы социально-экономической информации, делать их более компактными и наглядными.

Основные задачи любого прогнозирования – это очень перспективное сочетание кластерного анализа с какими-либо другими количественными способами (к примеру, с регрессионным анализом) [8].

Итак, перейдём непосредственно к методам кластерного анализа.

Существует три основных метода кластерного анализа:

1. Иерархические алгоритмы – это так называемая древовидная кластеризация. Основу данных алгоритмов составляет последовательная кластеризация. На начальном этапе все объекты по отдельности рассматриваются как отдельный кластер. На следующем этапе уже некоторые из ближайших друг к другу кластеров будут объединяться в отдельный кластер. 

2. Метод К-средних. Этот метод используется наиболее часто. Он относится к группе так называемых эталонных методов кластерного анализа. Число кластеров К задаётся пользователем.

3. Двухвходовое объединение. При использовании этого метода кластеризация проводится одновременно как по переменным (столбцам), так и по результатам наблюдений (строкам). Процедура двухвходового объединения производится в тех случаях, когда можно ожидать, что одновременная кластеризация по переменным и наблюдениям даст возможность получить осмысленные результаты. Результатами процедуры являются описательные статистики по переменным и наблюдениям, а также двумерная цветная диаграмма, на которой цветом отмечаются значения данных. По распределению цвета можно составить представление об однородных группах [7].

Итак, где же используется кластерный анализ? В маркетинге это сегментация соперников и потребителей. В строительстве: разбиение персонала на разные по уровню мотивации группы, классификация поставщиков, обнаружение похожих производственных ситуаций, при которых появляется брак. В медицине - классификация симптомов, пациентов, препаратов. В социологии - разбиение респондентов на однородные группы [2].

По сути, кластерный анализ отлично зарекомендовал себя во всех сферах жизнедеятельности человека.

Прелесть предоставленного способа - он работает даже тогда, когда данных недостаточно и не выполняются запросы нормальности распределений случайных величин и остальных запросов классических способов статистического разбора [3].

Рассмотрим такой пример (Задача 1). Допустим, мы провели анкетирование рабочих строительной компании и желаем найти, каким образом разрешено эффективнее управлять персоналом. То есть мы желаем поделить рабочих на группы и для каждой из них отметить более действенные связи управления.

При этом различия меж группами обязаны быть очевидными, а внутри группы респонденты обязаны быть очень схожи.

Для решения задачки предлагается применять иерархический кластерный анализ.

В итоге мы получим древо, смотря на которое мы обязаны сделать свой выбор, на сколько классов (кластеров), мы желаем разбить персонал.

Предположим, что мы решили разбить работников на три группы, тогда для исследования респондентов, попавших в любой кластер, получим табл. 1.

Таблица 1

Данные к Задаче 1

Кластер

Муж

30-50 лет

>50 лет

Рук.

Мед

Льготы

з/п

Стаж

Образов.

1

70%

80%

1%

60%

5%

17%

85%

20%

20%

2

30%

25%

35%

8%

50%

60%

50%

30%

10%

3

40%

60%

5%

1%

20%

10%

60%

10%

40%

Поясним, как сформирована приведенная данная матрица:

В главном столбце размещен номер кластера - группы, данные по которой отражены в строке. Например, первый кластер на 70% составляют мужчины. 80% главного кластера попадают в возрастную категорию от 30 до 50 лет, а 17% респондентов считает, что льготы чрезвычайно важны. И так дальше.

Попытаемся собрать портреты работников строительной компании всякого кластера. Первая группа - в основном мужчины взрослого возраста, занимающие управляющие позиции. Соц. пакет их не интересует. Они выбирают получать неплохую зарплату, а не содействие от работодателя. Группа два напротив дает отличие соц. пакету. Состоит она, в главном, из людей "в возрасте", занимающих низкие посты. Зарплата для них непременно принципиальна, но имеется и остальные ценности. Третья группа более "юная". В отличие от прошлых 2-х групп, очевиден энтузиазм к способностям обучения и профессионального роста. У данной категории служащих имеется неплохой шанс в быстром времени пополнить первую группу.

Таким образом, планируя кампанию по внедрению действенных способов управления персоналом, разумеется, что в нашей ситуации разрешено увеличить соц. пакет у 2-ой группы в ущерб, к например, зарплате. Если говорить о том, каких профессионалов следует ориентировать на обучение, то разрешено, несомненно, направить интерес на третью группу.

Итак, рассмотрим следующий пример (задача 2). Сделаем расчет кластерного анализа. К примеру, известно две переменны x1 и x2 (заработная плата зарубежных строителей) и количество зарубежных строителей - 10. Необходимо объединить данные и изучить, кому требуется повысить заработную плату. Кому необходим соц. пакет и т.д. С помощью принципа «ближайшего соседа» образуем 3 кластера. Измерения в тыс.р. Данные приведены в таблице. Исходные данные.

Таблица 2

Исходные данные к задаче 2

№ п/п

1

2

3

4

5

6

7

8

9

10

x1

5

12

34

43

21

8

32

54

14

12

x2

13

14

56

34

7

76

23

37

23

76

1. Воспользуемся агломеративным иерархическим алгоритмом классификации. В качестве расстояния между объектами примем обычное евклидовое расстояние. Тогда согласно формуле:

где l - признаки; k - количество признаков

2. Полученные данные помещаем в табл. 3 (матрицу расстояний).

Таблица 3

Матрица расстояний к Задаче 2

№ п/п

1

2

3

4

5

6

7

8

9

10

1

0

7.07

51.87

43.42

17.09

63.07

28.79

54.56

13.45

63.39

2

7.07

0

47.41

36.89

11.4

62.13

21.93

47.89

9.22

62

3

51.87

47.41

0

23.77

50.7

32.8

33.06

27.59

38.59

29.73

4

43.42

36.89

23.77

0

34.83

54.67

15.56

11.4

31.02

52.2

5

17.09

11.4

50.7

34.83

0

70.21

19.42

44.6

17.46

69.58

6

63.07

62.13

32.8

54.67

70.21

0

58.18

60.31

53.34

4

7

28.79

21.93

33.06

15.56

19.42

58.18

0

26.08

18

56.65

8

54.56

47.89

27.59

11.4

44.6

60.31

26.08

0

42.38

57.31

9

13.45

9.22

38.59

31.02

17.46

53.34

18

42.38

0

53.04

3. Поиск наименьшего расстояния.

Из матрицы расстояний следует, что объекты 6 и 10 наиболее близки P6;10 = 4 и поэтому объединяются в один кластер.

Таблица 4

Расчёт к Задаче 2

№ п/п

1

2

3

4

5

[6]

7

8

9

[10]

1

0

7.07

51.87

43.42

17.09

63.07

28.79

54.56

13.45

63.39

2

7.07

0

47.41

36.89

11.4

62.13

21.93

47.89

9.22

62

3

51.87

47.41

0

23.77

50.7

32.8

33.06

27.59

38.59

29.73

4

43.42

36.89

23.77

0

34.83

54.67

15.56

11.4

31.02

52.2

5

17.09

11.4

50.7

34.83

0

70.21

19.42

44.6

17.46

69.58

[6]

63.07

62.13

32.8

54.67

70.21

0

58.18

60.31

53.34

4

7

28.79

21.93

33.06

15.56

19.42

58.18

0

26.08

18

56.65

8

54.56

47.89

27.59

11.4

44.6

60.31

26.08

0

42.38

57.31

9

13.45

9.22

38.59

31.02

17.46

53.34

18

42.38

0

53.04

При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №6 и №10.

В результате имеем 9 кластера: S(1), S(2), S(3), S(4), S(5), S(6,10), S(7), S(8), S(9) Из матрицы расстояний следует, что объекты 1 и 2 наиболее близки P1;2 = 7.07 и поэтому объединяются в один кластер.

Таблица 5

Расчёт к Задаче 2

№ п/п

[1]

[2]

3

4

5

6,10

7

8

9

[1]

0

7.07

51.87

43.42

17.09

63.07

28.79

54.56

13.45

[2]

7.07

0

47.41

36.89

11.4

62

21.93

47.89

9.22

3

51.87

47.41

0

23.77

50.7

29.73

33.06

27.59

38.59

4

43.42

36.89

23.77

0

34.83

52.2

15.56

11.4

31.02

При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №1 и №2. В результате имеем 8 кластера: S(1,2), S(3), S(4), S(5), S(6,10), S(7), S(8), S(9) Из матрицы расстояний следует, что объекты 1,2 и 9 наиболее близки P1,2;9 = 9.22 и поэтому объединяются в один кластер.

Таблица 6

Расчёт к Задаче 2

№ п/п

[1,2]

3

4

5

6,10

7

8

[9]

[1,2]

0

47.41

36.89

11.4

62

21.93

47.89

9.22

3

47.41

0

23.77

50.7

29.73

33.06

27.59

38.59

4

36.89

23.77

0

34.83

52.2

15.56

11.4

31.02

5

11.4

50.7

34.83

0

69.58

19.42

44.6

17.46

6,10

62

29.73

52.2

69.58

0

56.65

57.31

53.04

7

21.93

33.06

15.56

19.42

56.65

0

26.08

18

8

47.89

27.59

11.4

44.6

57.31

26.08

0

42.38

[9]

9.22

38.59

31.02

17.46

53.04

18

42.38

0

При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №1,2 и №9.

В результате имеем 7 кластера: S(1,2,9), S(3), S(4), S(5), S(6,10), S(7), S(8) Из матрицы расстояний следует, что объекты 1,2,9 и 5 наиболее близки P1,2,9;5 = 11.4 и поэтому объединяются в один кластер.

Таблица 7

Расчёт к Задаче 2

№ п/п

[1,2,9]

3

4

[5]

6,10

7

8

[1,2,9]

0

38.59

31.02

11.4

53.04

18

42.38

3

38.59

0

23.77

50.7

29.73

33.06

27.59

4

31.02

23.77

0

34.83

52.2

15.56

11.4

[5]

11.4

50.7

34.83

0

69.58

19.42

44.6

6,10

53.04

29.73

52.2

69.58

0

56.65

57.31

7

18

33.06

15.56

19.42

56.65

0

26.08

8

42.38

27.59

11.4

44.6

57.31

26.08

0

При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №1,2,9 и №5.

В результате имеем 6 кластера: S(1,2,9,5), S(3), S(4), S(6,10), S(7), S(8).Из матрицы расстояний следует, что объекты 4 и 8 наиболее близки P4;8 = 11.4 и поэтому объединяются в один кластер.

Таблица 8

Расчёт к Задаче 2

№ п/п

1,2,9,5

3

[4]

6,10

7

[8]

1,2,9,5

0

38.59

31.02

53.04

18

42.38

3

38.59

0

23.77

29.73

33.06

27.59

[4]

31.02

23.77

0

52.2

15.56

11.4

6,10

53.04

29.73

52.2

0

56.65

57.31

7

18

33.06

15.56

56.65

0

26.08

[8]

42.38

27.59

11.4

57.31

26.08

0

При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №4 и №8. В результате имеем 5 кластера: S(1,2,9,5), S(3), S(4,8), S(6,10), S(7). Из матрицы расстояний следует, что объекты 4,8 и 7 наиболее близки P4,8;7 = 15.56 и поэтому объединяются в один кластер.

Таблица 9

Расчёт к Задаче 2

№ п/п

1,2,9,5

3

[4,8]

6,10

[7]

1,2,9,5

0

38.59

31.02

53.04

18

3

38.59

0

23.77

29.73

33.06

[4,8]

31.02

23.77

0

52.2

15.56

6,10

53.04

29.73

52.2

0

56.65

[7]

18

33.06

15.56

56.65

0

При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №4,8 и №7. В результате имеем 4 кластера: S(1,2,9,5), S(3), S(4,8,7), S(6,10). Из матрицы расстояний следует, что объекты 1,2,9,5 и 4,8,7 наиболее близки P1,2,9,5;4,8,7 = 18 и поэтому объединяются в один кластер.

Таблица 10

Расчёт к Задаче 2

№ п/п

[1,2,9,5]

3

[4,8,7]

6,10

[1,2,9,5]

0

38.59

18

53.04

3

38.59

0

23.77

29.73

[4,8,7]

18

23.77

0

52.2

6,10

53.04

29.73

52.2

0

При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №1,2,9,5 и №4,8,7. В результате имеем 3 кластера: S(1,2,9,5,4,8,7), S(3), S(6,10)

Таблица 11

Расчёт к Задаче 2

№ п/п

1,2,9,5,4,8,7

3

6,10

1,2,9,5,4,8,7

0

23.77

52.2

3

23.77

0

29.73

6,10

52.2

29.73

0

Результаты иерархической классификации объектов представлены на рис. в виде дендрограммы (Рис. 1).

Рис. 1. Дендрограмма к Задаче 2

Таким образом, стоит отметить, что 1 группа (кластер) составляют те строители, которые явно недовольны своей заработной платой и их стоит поощрять к труду, следовательно, им требуется повысить з/п, им же необходим соц.пакет. Возможно. Это новые рабочие или рабочие, работающие не на полную ставку. Вторая группа, пожалуй, самая довольная. В неё вошёл только один рабой (по списку третий). Его з/п составляет 90 т.р. И в итоге третий кластер – это рабочие под номером 6 и 10. Эти рабочие вероятнее всего будут довольны своей заработной платой и дополнительные поощрения им не требуются.

Строительство является одной из наиболее важных отраслей экономики. По общему объему производимой продукции и количеству занятых работников на строительную отрасль приходится приблизительно десятая часть всей экономики страны. Однако мировой финансовый кризис привел к сложной ситуации на жилищно-строительном рынке России. Увеличение стоимости банковских кредитов, а так же сокращение продаж жилья повлияло негативно на данный сектор. Привело к дефициту средств для финансирования и снизило рентабельность компаний, занимающихся строительным бизнесом [9, 10]. По сравнению с докризисным периодом уменьшилось количество выдаваемых кредитов. Это связано с риском невозврата денег и крупными задолженностями перед банками строительных организаций. Иногда строительные организации идут на мошеннические операции, чтобы получить кредит и подделывают документацию, скрывая реальное положение дел на фирме. Следующая задача, рассмотренная нами, основывается на теории эволюции (задача 3). Этот подход кластерного анализа помогает сгруппировать интересующие нас объекты по определённым признакам и выявить закономерности для последующих группировок. Помогает отличить оригиналы от подделок, выявить скрытые схемы и фиктивную документацию. Далее попробуем объяснить основные этапы группировки.

  1. Формируется случайная популяция группированных решений (рис. 2). Каждая группа представляет собой вид последовательности целых чисел длины N, кодирующих номера кластеров. Для каждой последовательности определяется свой критерий качества.

2

2

2

1

1

3

3

3 2

2

2

1

1

1

1

1

1

1

1

1

1

2

2

33

3

3

1

1

2

2

2

...

3

3

3

3

3

1

1

1 1

1

1

2

2

2

2

2

Рис. 2. Популяция хромосом; число классов K=3, число объектов N=1

  1. Затем путём внедрения эволюционных операторов генерируем последующую популяцию. Оператор селекции служит для случайного выбора «родительских» хромосом, самых выгодных с точки зрения критерия качества. Рекомбинация служит для образования из отобранных хромосом новых группировок с новыми последовательностями. Существует популярный оператор рекомбинации «кроссовер». Этот оператор для каждой пары «родительских» хромосом образует пару хромосом-копий с помощью перестановки одного или нескольких сегментов (Рис.3).

Существует правило, благодаря которому оператор мутации случайным образом меняет последовательность (как пример, можно заменить в случайно отобранном сегменте один номер группы на другой). Для получившейся популяции вычисляются следующие значения критерия.

  1. Шаг 2 повторяется, пока не будет выполняться заданное условие остановки.

2

2

2

1

1

3

3

3 2 2 2 1 1 1 11

точка

кроссовера

1

1

1

1

1

2

2

3

3

3

3

1

1

2

2

2

продукт 1

AutoShape 7

продукт 2

2 2 2 1 1 3 3 3 3 3 3 1 1 2 2 2

копия 1

1 1 1 1 1 2 2 3 2 2 2 1 1 1 1 1

копия 2

Рис. 3. Оператор кроссовера

Описанный оператор рекомбинации имеет несколько существенных недостатков, среди которых можно отметить недействительность группированных решений и восприимчивость к определённым контекстам. Недействительность решений может возникнуть тогда, когда образуются копии с наименьшим числом кластеров. Например, после применения оператора кроссовера к последовательностям (2 2 1 1 3 3) и (3 3 1 2 1 2) в точке между вторым и третьим элементами, возникают две новые последовательности (3 3 1 1 3 3) и (2 2 1 2 1 2), у которых только два кластера [6]. Восприимчивость к контексту проявляется, когда одно и то же группированное решение кодируется разными последовательностями. Например, последовательности (1 1 1 2 2 2) и (2 2 2 1 1 1) представляют одно и то же разбиение объектов на группы. При этом копии этих последовательностей (1 1 1 1 1 1) и (2 2 2 2 2 2) значительно отличаются от продуктов-оригиналов [4].

Таким образом, мы рассмотрели 3 примера, связанные с кластерным анализом. Это иерархический кластерный анализ, эволюционный (генетический) подход и принцип «ближайшего соседа» в кластерном анализе. Следовательно, можно сделать вывод, что, несмотря на достаточно огромное количество существующих способов группировки, кластерный анализ остаётся самой актуальной методологией, используемой для группировки в строительстве и других сферах.