4 Линейный дискриминант фишера
4.1 Двухклассовая задача
Определим линейный дискриминант Фишера как линейную функцию максимизирющую отношение разброса между классами к «среднему» разбросу внутри классов (см. формулу (2)).
|
(2) |
|
(3) |
|
(4) |
C учетом выражений (3) и (4) вышеприведенный критерий можно перезаписать как:
где – матрица разброса между классами;
и – вектора средних значений, ;
– усредненная матрица внутриклассового разброса, эквивалентна матрице ковариации j-го класса;
;
W – искомый весовой вектор единичной длины.
При этом максимум достигается при . После получения его следует про нормировать, разделив на . Линейная дискриминантная функция, являющаяся разделяющей гиперплоскостью, принимает вид , где – скалярная пороговая величина, X – неизвестный объект, принадлежащий к одной из групп.
Заметим, что выведенное выражение совпадает с для случая нормально распределенных классов с равными ковариационными матрицами.
Ниже представлены гистограммы и соответствующие им огибающие, построенные по распределению Гаусса, для первого этапа (рисунок 8) и для второго этапа (рисунок 9). На первом этапе классифицируются объекты, принадлежащие к первому классу (ФЖ – трепетание и фибрилляция желудочков), на втором этапе дифференцируются оставшиеся два класса – нормы (НР) и желудочковой тахикардии (ЖТ).
Рисунок 8 – Классификация при равных ковариационных матрицах НР+ЖТ / ФЖ
Рисунок 9 – Классификация при равных ковариационных матрицах НР / ЖТ
Оценим получившие средние выборочные и дисперсию классов в таблице 6.
Таблица 6 – Средние и дисперсии проекций
Этап классификации |
Класс |
Среднее |
Дисперсия |
Этап 1 (проекции на вектор w1) |
ФЖ |
-12.189 |
18.099 |
НР + ЖТ |
15.597 |
23.053 |
|
Этап 2 (проекции на вектор w2) |
НР |
8.200 |
8.804 |
ЖТ |
-7.598 |
17.771 |
Запишем получившиеся коэффициенты весового вектора и соответствующие им пороги классификации.
ФЖ / НР+ЖТ: W1 = [0.006; 0.062; 0.050; -0.107; -0.129; 0.043; 0.303; 0.147; -0.060; -0.284; -0.061; -0.127; -0.068; 0.327; 0.300] при = 1.1;
НР / ЖТ: W2 = [0.016; -0.035; -0.053; 0.001; -0.036; -0.020; -0.136; -0.070; 0.015; -0.138; -0.273; 0.117; 0.462; -0.007; 0.048] при = 1.5;
Запишем уравнения дискриминантной функции.
ФЖ / НР+ЖТ: 0.006(x1) + 0.062(x2) + 0.050(x3) – 0.107(x4) – 0.129(x5) + 0.043(x6) + 0.303(x7) + 0.147(x8) – 0.060(x9) – 0.284(x10) – 0.061(x11) – 0.127(x12) – 0.068(x13) + 0.327(x14) + 0.300(x15) – 1.1 = 0;
НР / ЖТ: 0.016(x1) – 0.035(x2) – 0.053(x3) + 0.001(x4) – 0.036(x5) – 0.020(x6) – 0.136(x7) – 0.070(x8) + 0.015(x9) – 0.138(x10) – 0.273(x11) + 0.117(x12) + 0.462(x13) – 0.007(x14) + 0.048(x15) – 1.5 = 0;
Получив скалярную проекцию на весовой вектор W и вычтя пороговое значение , применяем следующие решающие правила:
Если , то данный объект принадлежит классу ФЖ, иначе объект принадлежит объединённому классу НР+ЖТ и переходит на второй этап классификации. На втором этапе снова сверяем, если , то данный объект принадлежит классу НР, иначе ЖТ.
Проведем оценку точности, чувствительности и специфичности алгоритма классификации по критерию Фишера для двухклассовой задачи (см. таблица 7 и 8), а также построим ROC-кривые (рисунок 10).
Рисунок 10 – ROC кривые по гистограммам и оценкам Гаусса для первого этапа классификации (слева) и для второго (справа)
Чувствительность – ;
Специфичность – ;
Точность – ;
где TP – число правильно определенных положительных исходов, FP – число исходов, ошибочно отнесённых к положительным; TN – число правильно определенных отрицательных исходов; FN – число исходов, ошибочно отнесенных к отрицательным.
Таблица 7 – Оценка ошибок классификации по гистограммам
Этап классификации |
TP |
FP |
TN |
FN |
Чувствительность, % |
Специфичность, % |
Точность, % |
1 этап |
30 |
0 |
60 |
0 |
100 |
100 |
100 |
2 этап |
30 |
0 |
30 |
0 |
100 |
100 |
100 |
Таблица 8 – Оценка ошибок классификации по распределению Гаусса
Этап классификации |
TP, % |
FP, % |
TN, % |
FN, % |
Чувствительность, % |
Специфичность, % |
Точность, % |
1 этап |
99.8 |
0.1 |
99.8 |
0.1 |
99.8 |
99.8 |
99.8 |
2 этап |
98.5 |
1.3 |
98.6 |
1.4 |
98.5 |
98.6 |
98.6 |