2 Метод главных компонент
Для решения трехклассовой задачи классификации объектов, требуется свести эту задачу к поэтапному решению двухклассовых задач. На первом этапе идентифицируются объекты 1 класса (ФЖ – трепетание и фибрилляция желудочков), а объекты, принадлежащие двум другим классам, временно объединяются как 2-ой общий класс (НР+ЖТ – нормальный фоновый ритм и желудочковая тахикардия). Если классифицируемый объект не принадлежит классу 1, то помещается во второй этап классификации, в котором определяется принадлежность к одному из двух оставшихся классов – нормальному фоновому ритму (НР) или желудочковой тахикардии (ЖТ). Изображение трех классов в пространстве первых двух главных компонент представлено на рисунке 3.
Рисунок 3 – Объекты в пространстве двух первых главных компонент
Доля дисперсии первых двух главных компонент составляет 93,06 % и 2,80 % соответственно. На первом этапе было решено выделить особо опасный класс нарушений ритма сердца – трепетание и фибрилляция желудочков (ФЖ). Элементы этого класса обладают наименьшей дисперсией и легко линейно разделимы, как показано на рисунке 3.
3 Метод классификации по минимуму расстояния
Для того, чтобы провести классификацию по минимуму расстояния необходимо определить весовой вектор , пронормировать этот вектор , сделав его единичным вектором, и спроецировать точки обоих классов на прямую линию, определяемую положением W. На этом этапе также будет полезно построить одномерные гистограммы двух классов. Порог классификации выбирается в соответствии с формулой (1).
|
(1) |
где и – средние значения первого и второго классов, соответственно; – евклидова норма.
Разделяющая гиперплоскость определяется как и ей соответствует следующий алгоритм распознавания:
то класс 1;
то класс 2.
Т.е. процедура распознавания заключается в вычислении проекции вектора X на направление весового вектора W и сравнении полученной величины с порогом a (см. рисунок 4).
Рисунок 4 – Проекция на весовой вектор
Ниже представлены гистограммы и соответствующие им огибающие, построенные по распределению Гаусса, для первого этапа (рисунок 5) и для второго этапа (рисунок 6). На первом этапе классифицируются объекты, принадлежащие к первому классу (ФЖ – трепетание и фибрилляция желудочков), на втором этапе дифференцируются оставшиеся два класса – нормы (НР) и желудочковой тахикардии (ЖТ).
Рисунок 5 – Классификация по минимуму расстояния НР+ЖТ / ФЖ
Рисунок 6 – Классификация по минимуму расстояния НР / ЖТ
Оценим получившие средние выборочные и дисперсию классов в таблице 3.
Таблица 3 – Среднее и дисперсии проекций
Этап классификации |
Класс |
Среднее |
Дисперсия |
Этап 1 (проекции на вектор W1) |
ФЖ |
-302.00 |
3.76 103 |
НР + ЖТ |
-604.00 |
51.22 103 |
|
Этап 2 (проекции на вектор W2) |
НР |
– 403.00 |
26.74 103 |
ЖТ |
– 511.13 |
30.08 103 |
Запишем получившиеся коэффициенты весового вектора и соответствующие им пороги классификации.
ФЖ / НР+ЖТ: W1 = [-0.96; -0.06; -0.11; 0.02; 0.11; -0.06; -0.08; -0.05; -0.06; -0.06; -0.04; -0.04; -0.05; -0.04; -0.03] при a = – 415;
НР / ЖТ: W2 = [-0.62; -0.26; -0.45; -0.50; -0.18; - 0.07; -0.15; -0.08; -0.04; -0.01; -0.01; 0.01; 0.04; 0.04; 0.05] при a = – 470;
Несмотря на то, что порог был вычислен по формуле (1), было решено уточнить это значение исходя из визуальной оценки получившихся гистограмм и их огибающих, чтобы повысить точность классификации.
Запишем уравнения дискриминантной функции.
ФЖ / НР+ЖТ: – 0.96(x1) – 0.06(x2) – 0.11(x3) + 0.02(x4) + 0.1(x5) – 0.06(x6) – 0.08(x7) – 0.05(x8) – 0.06(x9) – 0.06(x10) – 0.04(x11) – 0.04(x12) – 0.05(x13) – 0.04(x14) – 0.03(x15) + 415 = 0;
НР / ЖТ: – 0.62(x1) – 0.26(x2) – 0.45(x3) – 0.50(x4) – 0.18(x5) – 0.07(x6) – 0.15(x7) – 0.08(x8) – 0.04(x9) – 0.01(x10) – 0.01(x11) + 0.01(x12) + 0.04(x13) + 0.04(x14) + 0.05(x15) + 470 = 0;
Получив скалярную проекцию на весовой вектор W и вычтя пороговое значение , применяем следующие решающие правила:
Если , то данный объект принадлежит классу ФЖ, иначе объект принадлежит объединённому классу НР+ЖТ и переходит на второй этап классификации. На втором этапе снова сверяем, если , то данный объект принадлежит классу ЖТ, иначе НР.
Проведем оценку точности, чувствительности и специфичности алгоритма классификации по минимуму расстояний (см. таблица 4 и 5), а также построим ROC-кривые (рисунок 7).
Рисунок 7 – ROC кривые по гистограммам и оценкам Гаусса для первого этапа классификации (слева) и для второго (справа)
Чувствительность – ;
Специфичность – ;
Точность – ;
где TP – число правильно определенных положительных исходов, FP – число исходов, ошибочно отнесённых к положительным; TN – число правильно определенных отрицательных исходов; FN – число исходов, ошибочно отнесенных к отрицательным.
Таблица 4 – Оценка ошибок классификации по гистограммам
Этап классификации |
TP |
FP |
TN |
FN |
Чувствительность, % |
Специфичность, % |
Точность, % |
1 этап |
29 |
13 |
47 |
1 |
96.6 |
78.3 |
84.4 |
2 этап |
15 |
6 |
24 |
15 |
50.0 |
80.0 |
65.0 |
Таблица 5 – Оценка ошибок классификации по оценке распределения Гаусса
Этап классификации |
TP, % |
FP, % |
TN, % |
FN, % |
Чувствительность, % |
Специфичность, % |
Точность, % |
1 этап |
96.6 |
20.0 |
79.6 |
3.3 |
96.6 |
79.9 |
88.3 |
2 этап |
59.2 |
34.0 |
65.9 |
40.7 |
59.2 |
65.9 |
62.5 |
Вывод: при использовании метода классификации по минимуму расстояния достигнута точность 84.4 % на первом этапе и 65.0 % на втором этапе. Для гауссовского распределения точность на первом и втором этапе соответственно составили 88.3 % и 62.5 %. Пересечения классов в проекции на весовой вектор – основной фактор резкого снижения показателей точности на втором этапе классификации.