Анализ главных компонент
Для сведения задачи к поэтапному решению двуклассовой задачи в качестве двух объединяемых классов было решено выбрать наиболее сгруппированные (плохо линейно-разделяемые) классы. Для этого были найдены главные компоненты тренировочной выборки (рисунок 1).
|
Рис.1. – Скаттерограмма двух первых главных компонент Скаттерограмма имеет отношение к ВСР! А здесь распределение объектов на плоскости первых двух ГК. |
А достаточно двух первых ГК???
Классы ЖТ и ФЖ сильно пересекаются, а класс НР линейно отделим, значит, на первом этапе можно взять классы 'ЖТ+ФЖ' и 'НР'. Благодаря такому разделению классов методы k ближайших соседей и по критерию Фишера смогут точно опознать нормальный ритм, но, возможно, неточно опознать степень патологии между менее серьезной ЖТ и более серьезной ФЖ.
Код программы для выполнения анализа главных компонент приведен в приложении Б.
Классификация по минимуму расстояния Нормировку данных вы проводили?
Сначала были найдены весовые вектора для первых двух этапов:
Как найдены???
W1 = [0.17; 0.64; 0.74; 0.02; 0.11; -0.07; -0.02], W2 = [0.24; -0.09; -0.93; 0.07; -0.04; 0.21; 0.13]
Также были найдены пороги класификации для обоих этапов:
A1 = 0.19, A2 = -0.18
Далее были найдены проекции наблюдений двух классов тренировочной выборки и построены гистограммы этих проекций на весовой вектор (рисунок 2).
Пороги нельзя найти ранее проекций.
|
Рис.2. – Гистограммы проекций наблюдений на весовые вектора для метода по минимуму расстояния
По этим гистограммам были найдены их дисперсии и мат. ожидания (таблица 17).
Не по гистограммам, а по соотв. расчетным формулам.
Таблица 17 – Характеристики нормального распределения по гистограмме проекций для метода по минимуму расстояния
Этап |
Класс |
Мат. ожидание |
Дисперсия |
1 |
ЖТ+ФЖ |
0.29 |
0.05 |
НР |
0.09 |
0.04 |
|
2 |
ЖТ |
-0.13 |
0.08 |
ФЖ |
-0.23 |
0.08 |
По этим значениям были построены нормальные распределения. На рисунке 3 построены эти распределения и также указаны пороги класификации, найденные по точке пересечения гауссиан (0.18 для этапа 1 и -0.18 для этапа 2).
|
Рис.3. – Нормальные распределения, построенные по гистограммам проекций наблюдений на весовые вектора для метода по минимуму расстояния
По ответам модели, полученным с помощью обоих порогов, были расчитаны точнось, чувствительность и специфичность, указанные в таблицах 18 и 19.
Что понимается под моделью?
Таблица 18 – Характеристики классификатора по минимуму расстояния при пороге, найденном по формуле
По какой формуле?
Этап |
Точность, % |
Чувствительность, % |
Специфичность, % |
1 |
100.00 |
100.00 |
100.00 |
2 |
70.00 |
68.75 |
71.43 |
Таблица 19 – Характеристики классификатора по минимуму расстояния при пороге, найденном по пересечению гауссиан
Этап |
Точность, % |
Чувствительность, % |
Специфичность, % |
1 |
100.00 |
100.00 |
100.00 |
2 |
70.00 |
68.75 |
71.43 |
Оба порога дают одинаковые точности, чувствительности и специфичности. Значит, для классификации на каждом из этапов можно выбрать любой из этих порогов.
Получены две разделяющие плоскости для каждого из этапов:
1) 0.17 * x0 + 0.64 * x1 + 0.74 * x2 + 0.02 * x3 + 0.11 * x4 - 0.07 * x5 - 0.02 * x6 - -0.19 = 0.
2) 0.24 * x0 - 0.09 * x1 - 0.93 * x2 + 0.07 * x3 - 0.04 * x4 + 0.21 * x5 + 0.13 * x6 + -0.18 = 0.
В итоге было сформулировано решающее правило для метода классификации по минимуму расстояния:
1) Вычислить значение D1 как разность скалярного произведения вектора наблюдения X и (0.17; 0.64; 0.74; 0.02; 0.11; -0.07; -0.02) и значения порога 0.19.
2) Если D1 меньше 0, то наблюдение принадлежит классу 'НР', иначе перейти к следующему шагу.
3) Вычислить значение D2 как разность скалярного произведения векторов X и (0.24; -0.09; -0.93; 0.07; -0.04; 0.21; 0.13) и значения порога -0.18.
4) Если D2 больше 0, то наблюдение принадлежит классу 'ЖТ', иначе – к классу 'ФЖ'.
Код программы для классификатора по методу минимума расстояния приведен в приложении В.