Лекция №4 Методы кластеризации

Кластеризация полным перебором объектов
Схемы использования информации, предназначенной для кластеризации
Измерение характеристик объектов и их представление в задачах кластеризации
Целевые функции кластеризации

I. Кластеризация полным перебором объектов

Методически этот способ кластеризации наиболее прост, но довольно трудоемок. Применяется при небольшом числе объектов и обычно дает до 5-6 кластеров.

При полном переборе непреодолимые сложности составляют не только большой объем вычислений, но и невозможность интерпретации огромного количества вариантов кластеризации, многие из которых не имеют практического смысла, совпадают друг с другом или не удовлетворяют каким-либо формальным критериям кластеризации. Поэтому полный перебор должен сопровождаться алгоритмом исключения ненужных вычислительных процедур, изъятия из рассмотрения большого числа вариантов группировки, не удовлетворяющих целям исследования.

Для использования метода полного перебора и сокращения вычислений используются алгоритмы динамического программирования.

II. Кластеризация методом перебора фиксированных расстояний от центров сфер (алгоритм «форель»).

Существует последовательность действий, характерная для большинства известных процедур алгоритма «Форель»:

1. Случайно-интуитивным способом выбирается точка (объект классификации) в некотором метрическом пространстве.

2. Вычисляются расстояния от выбранной точки до всех остальных объектов. Затем эти расстояния заносятся в матрицу в упорядоченном виде. Полученная матрица нужна только для установления фиксированного радиуса сферы, являющейся границей кластера.

3. Радиус сферы выбирается произвольно. При выборе радиуса удобно придерживаться принципа попадания в сферу определенного количества объектов, вычисленных в предыдущей итерации. К примеру, это может быть одна треть от общего числа объектов.

4. Все объекты, попавшие в построенную сферу, становятся элементами кластера. Далее выбирается какой-либо новый элемент из сферы, который становится центром новой сферы того же радиуса.

5. Для выбора координат нового центра предпочтительно иметь какой-либо формальный критерий. Одним из логичных критериев может быть минимум расстояния от выбранного объекта до оболочки сферы.

6. Вновь построенная сфера включает в себя как объекты из первой сферы, так и новые. Старые объекты исключаются из рассмотрения, затем процедура построения сфер постоянного радиуса повторяется до тех пор, пока в сферу не попадет ни один новый объект. Это произойдет обязательно, потому что или в кластер войдут все рассматриваемые объекты, или расстояние между какими-либо объектами окажется больше радиуса сферы.

7. Кластером в этом алгоритме будут называться все объекты, которые вошли хотя бы в одну из построенных сфер. Очевидно, независимо от количества попаданий объекта в разные сферы в кластере он учитывается только один раз.

В алгоритме «Форель» качество классификации во многом зависит от рациональности выбора объектов - центров сфер и радиуса поиска. Если фазовое пространство метрики имеет три, два или одно измерение, то оценить исходные данные алгоритма можно визуально, а в случае неудачи изменить их. В многомерном пространстве исходные параметры выбираются вслепую, и при неудачах приходится рассматривать все новые и новые варианты, количество которых может быть весьма значительно.

Исследователь может менять параметры алгоритма «Форель». В зависимости от правильности выбора начальной точки - центра сферы конфигурация кластера и число кластеров существенно меняются. Поэтому имеет смысл провести кластеризацию несколько раз, меняя начальную точку и сравнивая полученные варианты. В том случае, если исследователя не удовлетворяет количество объектов, вошедших в кластер, или число сфер, то для измерения этих параметров можно варьировать значения радиуса сферы. Очевидно, увеличение радиуса приведет к расширению состава кластера, и наоборот.

Алгоритм «Форель» имеет существенные недостатки:

отсутствуют автоматические критерии качества кластеризации
границы между кластерами могут не иметь явно выраженных функций «водораздела».
нет возможностей изменения правил выбора граничных значений кластеров, как следствие - ограниченные возможности для практического использования.

<<< < Предыдущая 1 2 34 / 84 5 6 7 8 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
06.02.2016101.38 Кб62Лек 6 Методы и средства БЖД..DOC
#
06.02.2016100.86 Кб18лекции 2 блок.doc
#
19.09.2019203.26 Кб5Лекции банковское дело-Дёмин Я.А..doc
#
06.02.201693.47 Кб12Лекции РЦБ.docx
#
18.09.2019520.19 Кб9Лекции_КИС.doc
#
22.08.2019366.59 Кб26Лекции_класт.doc
#
06.02.201636.46 Mб793лекции_сборник.docx
#
06.02.201652.22 Кб41Лекция 9 КЛАССИФИКАЦИЯ ПОЧВ.doc
#
06.02.2016198.66 Кб136Лекция - Компьютерная графика.doc
#
06.02.2016149.5 Кб23Лекция -Сети.doc
#
06.02.201653.25 Кб59Лекция 1 Денежные средства.doc