- •Лекция № 1. Статистическая классификация.
- •Лекция № 2. Кластерный анализ.
- •Лекция №3 Информационное обеспечение Кластеризации
- •Лекция №4 Методы кластеризации
- •III. Сферический метод двухступенчатой кластеризации с выделением ядра (сгущения) объектов классификации
- •V. Метод постоянных кластеров и характеристик
- •VI. Кластеризация с учетом критерия качества и последующим выбором лучшего варианта по этому критерию (алгоритм «краб»)
- •VIII. Кластеризация методом определения «ближайших соседей», включая иерархическое распределение объектов.
V. Метод постоянных кластеров и характеристик
Этот метод удобен в тех случаях, когда классифицируемая система хорошо изучена, и у исследователя существует опреде-ленная ясность относительно наиболсе значимых характери-стик кластеров. При этом исследователь может установить ра-циональные границы количества кластеров и их характеристи-ки, не производя сложных вычислений. Тогда распределение объектов по кластерам происходит в результате простых ариф-метических расчетов, без циклических повторений, а в резуль-тате одной-двух итераций.
Алгоритм предлагаемого метода основан на содержатель-ном анализе информационного поля до начала процедур кла-стеризации. На этом этапе исследователь должен определить рациональное число кластеров. исходя из физических возмож-ностей оценки поля объектов, полезности для управления и возможности получения нетривиальных результатов. Введем обозначения: л - рациональное количество кластеров; Аш (1с, I, т) ~ центр «массы» /-го кластера, имеющий координаты ^, /, т.
Рассмотрим алгоритм метода постоянных кластеров и их характеристик:
1-й шаг. Изучение содержательных характеристик инфор-мационного поля, анализ данных и определение количества кластеров, их основных характеристик - граничных условий.
2-й шаг. Распределение объектов по кластерам в зависимости от включения координат объекта в граничные условия кластера.
3-й шаг. Вычисленис координат центров «массы» кластеров Аш как средних арифметических координат объектов, входящих в рассматриваемый кластер.
4-й шаг. Замена априорных характеристик - границ класте-ров на новые критсрии кластеризации.
5-й шаг. Принимая точки Ащ,А,а, •••, Ац„ за центры «масс» кластеров (их количество сохранилось), начинаем формирова-ние кластеров заново. При этом используем принцип наиболь-шей близости объекта к какому-либо центру кластера.
6-й шаг. Пересчитав все расстояния от объектов до каждого из центров и присоединив их к ближайшему, получим новое поле кластеров, при котором все объекты будут принадлежать какому-либо кластеру из определенных заранее.
7-й шаг. Для вновь сформированных кластеров производит-ся перерасчет центров «массы», вычисляются типовые характе-ристики.
Рассматриваемый метод позволяет включить все объекты в кластеры. Это серьезный недостаток метода, потому что содер-жательный анализ информационного поля классификации сви-детельствует о существовании достаточно большого количества объектов, которые не могут быть без искажения свойств причис-лены ни к одному из существующих кластеров. Вообще говоря, этот недостаток можно устранить введением вспомогательных функций максимально допустимых расстояний от центра кла-стера до наиболее удаленного объекта. Эта функция не можст быть постоянной величиной, а должна вычисляться для каждого кластера в зависимости от плотности ядра кластера, количсства объектов, дисперсии характеристик и других признаков. Впро-чем, это отдельная научная задача.
Вторым недостатком рассматриваемого метода является не-обходимость предварительного определения количества класте-ров и их типовых характеристик. Класс подобных задач чрсзвы-чайно узок и, скорее всего, может быть вторым этапом классифи-кации. То есть вначале каким-либо методом классификация уже проведена, а предлагаемый метод используется для подтвержде-ния или опровержения полученных рсзультатов.
Ограниченный объем вычислений и простота логических процедур позволяют менять количество кластеров при решении одной задачи и выбирать наиболее удобный для интерпретации вариант классификации. .