Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции_класт.doc
Скачиваний:
26
Добавлен:
22.08.2019
Размер:
366.59 Кб
Скачать

III. Сферический метод двухступенчатой кластеризации с выделением ядра (сгущения) объектов классификации

Метод разработан на основе алгоритма «Форель», устраняя некоторые его недостатки. Сферический принцип построения кластеров более жесткий и предполагает минимальное вмешательство исследователя в классификацию на стадии вычисления и группировки кластеров. Множество объектов в сфере (гиперсфере) разделяется на ядро (наибольшее сгущение) и менее плотную часть.

Сферический метод кластеризации позволяет строго очертить границы между кластерами и однозначно присваивать каждому объекту принадлежность к какой-либо сфере. Но такие строгие границы оставляют достаточно много объектов (до 60 %) за пределами классифицированных множеств. Повышение качества кластеризации требует значительного уменьшения диаметра сфер, что приводит к увеличению кластеров, вплоть до числа, сопоставимого с числом объектов. Но в этом случае кластеризация не упрощает, а усложняет систему управления и теряет практический смысл.

Поэтому метод сферической кластеризации применим для такого расположения множества объектов, при котором существуют плотные ядра с малыми расстояниями между элементами и значительные межгрупповые расстояния, позволяющие пренебречь теми объектами, которые неизбежно окажутся вне сформированных кластеров. Сферический метод предполагает равноудаленность объектов от зоны сгущения с постепенным разрежением по мере удаления от центра сферы или зоны ядра.

IV. Метод определения центра кластера с помощью вычисления среднеарифметических расстояний между объектами

Рассматриваемый метод предполагает наличие определенных сведений о содержании кластеров до начала вычислительных процедур. Естественно, априорные предположения могут быть достаточно приближенными. Во избежание ошибочных предположений исследователь может рассмотреть несколько вариантов начальной группировки объектов. Этот метод кластеризации не предполагает каких-либо ограничений геометрической формы кластера.

Предлагаемый алгоритм кластеризации состоит из следующих блоков:

1. Некоторой точке, принадлежащей множеству изучаемых объектов, присваивается геометрический признак центра координатной системы, причем первый объект в этой системе является началом отсчета.

2. Выбирается определенное число объектов (только количество), которые будут участвовать в расчетах условного центра кластера.

3. Далее необходимо задать какой-либо критерий, ограничивающий содержание кластера. В качестве примера ограничений может быть использовано предельное количество объектов в кластере или максимально допустимое расстояние от условного центра до наиболее удаленного объекта, или максимально возможный «водораздел» между наиболее близкими объектами. Исследователь, как правило, самостоятельно решает, какому критерию отдать предпочтение или выработать собственное ограничение на процесс формирования кластера.

4. В зависимости от выбранного алгоритма определения критерия, необходимого для завершения формирования кластера, вычисляется максимально допустимое расстояние между объектами d. Расстояние может задаваться исследователем, исходя из анализа содержательного образа кластера или из соображений насыщенности кластера.

5. Методом перебора определяется объект АК, наиболее близкий к объекту-центру Ац. Далее проверяется выполнение неравенства: К - АЦ|d и, в случае безусловного выполнения этого неравенства, объект АК заносится в матрицу данного кластера. Из дальнейшего рассмотрения объект АЦ исключается.

6. В дальнейшем операции перебора повторяются, причем объект АК становится центром рассматриваемой композиции. Итерации предыдущего блока выполняются до тех пор, пока не останется ни одного объекта вблизи любой из рассматриваемых точек, т. е. будет превышено пороговое значение d.

Варианты классификации предлагаемым методом определяются перебором значений d и начального объекта Ац. При этом достаточно проблематично найти «водораздел» между кластерами из-за случайных помех на поле, в промежутках между сгустками объектов информации. Поскольку метод уравнивает значимость в замкнутом кластере сгущений и одиночных объектов, качество классификации случайно и требует специального изучения. Кроме того, в ряде случаев возможно объединение всех объектов информационного поля в один-два кластера. И наоборот, жестко заданные граничные условия способны вытеснить за пределы кластеров значительное число объектов.

В связи с последовательным включением объектов в кластеры разница между характеристиками начальных и конечных объектов может быть весьма существенной. Это может послужить одной из причин неоднородности кластеров.