Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
конспект_АИД_полный_2017.doc
Скачиваний:
41
Добавлен:
08.07.2017
Размер:
4.26 Mб
Скачать

4.4.4. Иерархические процедуры группировки

Здесь количество групп С не определено четко, оно меняется от N (число выборок) до 1.

Основаны на построении деревьев, описывающих взаимосвязи между кластерами.

4.4.4.1. Агломеративная процедура

Имеется N выборок. В начале полагается, что С=N

x1, x2, x3, … xN

* * * … *

Используем матрицу взаимных расстояний, т.к. каждый кластер состоит из 1-го элемента

Ищутся классы, ближайшие по данной ветке. Получаем следующее разбиение S(2), которой соответствует расстояние и так далее:

S(1),

Но на каком-то этапе можем получить довольно устойчивую кластеризацию.

Базовую процедуру кластеризации можно сформулировать следующим образом:

С- количество кластеров

1) Пусть ,N - количество элементов выборок

цикл:

2) Если , то остановка

- заданное количество кластеров, текущее количество кластеров

3) Найти ближайшую пару кластеров xi , xj

4) Объединяем xi и xj и уничтожаем хi . Положить -1

5) Переход к циклу.

Аналогично можно осуществлять эту процедуру и снизу.

4.5. Статистические модели группировки

Статистические модели группировки основываются на вероятностной оценки наших данных , при этом мы предполагаем, что наши данные могут относится к одному из возможных распределений (количеству групп).

Для каждой группы задается априорная вероятность Р12 ,…Рс

Для каждой группы имеется условная плотность распределения:

Общая функция плотности вероятности определяется следующим образом:

Мы имеем объекты, которые описываются моделью конечной смеси - это и есть

С точки зрения задачи кластеризации задача ставится следующим образом: есть некоторый многомерный параметр, которым описывается конечная смесь.

(С; p1,p2,…pc,)=

- многомерный параметр.

Мы должны оценить вектор этого многомерного параметра.

Каждый максимум соответствует некоторому параметру этой смеси.

Предполагается, что смесь различима, если можно однозначно восстановить эти параметры.

Восстановить эти параметры можно из условия:

если из этого условия однозначно следует выполнение следующего:

  1. С=С1

В общем виде эта задача решается как задача оценки многомерного параметра. Лучше всего решать ее по методу максимального правдоподобия

С - известно.

Строится функция правдоподобия:

Эта задача по постановке и по решению достаточно сложная . Аналитическое решение получить достаточно сложно.

Конечные решения достаточно непростые. В основном процедуры основаны на рекуррентных методах.

Для случаев нормального распределения и когда С- известно эту задачу можно решать приближенно более простым способом (например методом к-средних).

Метод к-средних позволяет найти центры соответствующих локальных максимумов:

  1. Находим mi i =1..C

  2. Разбиваем выборку на кластеры

Далее мы считаем , что метод к-средних дает нам правильное разбиение на кластеры

  1. Мы должны для любого i оценить :

, где -матрица ковариации

В результате этой деятельности мы для каждого кластера получаем следующее:

Далее мы строим f(x) следующим образом:

Мы для заданной выборки построим аппроксимацию ее нормального распределения.

Мы можем найти сложные решающие функции. Это функции равной плотности некоего распределения.

Далее функцию сложной плотности можно представить в виде суммы простых функций распределений.

Статистическое решающее правило можно представить в следующем виде:

Есть 2 способа провести классификацию:

  1. отношение правдоподобия

  2. классификация по минимуму расстояния

расстояние Махланобиса.

Соседние файлы в предмете Анализ и интерпретация данных