книги из ГПНТБ / Галушкин, А. И. Синтез многослойных систем распознавания образов
.pdfГ л а в а в т о р а я
ПОСТРОЕНИЕ ОПТИМАЛЬНЫХ МОДЕЛЕЙ СР
2-1. Общая структура оптимальной модели
Под оптимальной (эталонной) моделью СР, как и в лю бой другой оптимальной системе (рис. 2-1), понимается оптимальное преобразование, осуществляемое системой над входным сигналом [х (п), г (п) 1 для получения выходного сигнала хк (п), с точки зрения выбранного критерия пер
вичной оптимизации. На рис. 2-1 верхний |
блок — управ |
|||||||
ляемая система, нижний |
блок — оптимальная |
модель, по |
||||||
|
которой |
|
настраивается упра |
|||||
|
вляемая система. Общий под |
|||||||
|
ход к построению оптимальных |
|||||||
|
моделей |
систем |
распознавания |
|||||
|
образов в режиме обучения со |
|||||||
|
стоит в том, что система строит |
|||||||
|
ся при |
произвольных |
характе |
|||||
|
ристиках входного сигнала, со |
|||||||
Рис. 2-1. К определению |
ставляющих два, К и континуум |
|||||||
классов образов, для произволь |
||||||||
оптимальной модели. |
||||||||
ного числа решений, осуще |
||||||||
|
||||||||
решений имеет также две, |
ствляемых |
СР. |
Пространство |
|||||
/Ср и континуум |
градаций. |
Ха |
||||||
рактеристики указаний учителя (классов) |
и решений |
вы |
||||||
бираются априори независимо. |
|
|
|
|
|
|
||
Построение оптимальной модели |
производится |
по |
вы |
|||||
бранному критерию первичной оптимизации, |
а |
описание |
ее осуществляется, в частности, в виде выражения для разделяющей поверхности. Разделяющая поверхность де лит многомерое пространство признаков на непересекающиеся области с указанием принадлежности соответствую щей области к тому или иному классу.
В табл. 2-1 представлена классификация СР по харак теристикам входного сигнала и пространства решений для частного вида одномерных сигналов е (п) и хк (п). Остано вимся коротко на отдельных типах систем.
Система распознавания 1, рассчитанная на два класса образов с двоичным выходом, наиболее широко представ лена в литературе. Система распознавания 2 рассчитана на К классов образов с числом решений Кр, равным К- Исследование оптимальных моделей подобных СР прове дено в [Л. 46 и 49 ] для различных критериев первичной
30
Пространство |
|
|
(число) |
два |
класса |
решений |
||
Два |
|
1 |
|
II О. |
СО |
Кр
К р = const
Континуум 5
|
|
|
Т а б л и ц а 2-1 |
|
Входной сигнал |
|
|
|
К классов |
|
Континуум |
|
|
классов |
|
|
7 |
|
8 |
|
К < К р |
9 |
|
За |
|
|
|
|
К = К Р |
2 |
10 |
36 |
К > Кр |
4 |
|
|
6 |
|
11 |
оптимизации СР и различной априорной информации о характеристиках входного сигнала. Необходимо отметить, что представление о том, что задача обучения при распозна вании К классов образов может быть сведена к последова тельному применению на каждом шаге алгоритма обучения для двух классов, является неверным. Это самостоятель ная задача, для оптимального решения которой уже на пер вом шаге строится эквивалентная разделяющая поверх ность, делящая пространство признаков на К непересекающихся областей.
Пространство решений СР характеризуется числом уров ней квантования по амплитуде выходного сигнала xk (п) по каждому из каналов. Системы распознавания с конти нуумом решений, например типа 5 или 6, имеют непрерыв ный выходной сигнал. Системы распознавания 8, 10, 11 характеризуются непрерывным распределением /е (е) ука заний учителя СР, когда текущему образу на входе при писывается не индекс класса из дискретного множества индексов, а некоторая количественная (континуальная) оценка принадлежности.
2-2. Аналитическое представление разделяющих поверхностей в типовых СР
Методика построения оптимальных моделей СР К клас сов образов достаточно подробно описана в работах автора [Л. 49, 53 ] и в данной книге ввиду ее ограниченного объема
31
не приводится. В принципе оптимальные модели некоторых СР К классов образов можно получить из выражений для оптимальных моделей СР более общего типа, рассматри ваемых ниже. В случае К классов образов, так же как и в любом другом случае, получение выражений для опти мальных разделяющих поверхностей производится следую щим путем: записывается выражение для минимизируе
мого |
функционала первичной оптимизации, решается за |
|
дача |
минимизации функционала первичной оптимизации |
|
с учетом существующих |
ограничений. |
|
Оптимальная модель |
СР К классов образов опреде |
ляется системой неравенств, определяющих деление ис ходного пространства признаков на К областей с отнесе нием каждой области к тому или иному классу.
Рассмотрим построение оптимальных моделей СР, при веденных в табл. 2 -1 .
Система распознавания 3. Система распознавания образов, оптимальная по критерию максимума апостериорной вероятности (в случае двух решений), преобразует входной сигнал х (п) в выход ной х/, («) в соответствии со следующим соотношением:
|
1 |
I |
при / ( е = |
1 / х ) > /( е = — 1/х), |
|
|||
Хк |
1 |
— 1 |
при / (е, = |
— 1/х) > / |
(8 = 1/х). |
|
||
Разделяющая поверхность проводится по тем точкам х, для ко |
||||||||
торых апостериорные вероятности |
принадлежности к первому и |
|||||||
|
|
|
|
второму классу равны. Т^эбласть |
||||
|
|
|
|
многомерного |
пространства |
при |
||
|
|
|
|
знаков, где апостериорная вероят |
||||
|
|
|
|
ность принадлежности х к |
пер |
|||
|
|
|
|
вому классу больше, чем апосте |
||||
|
|
|
|
риорная |
вероятность принадлеж |
|||
|
|
|
|
ности ко второму классу, прини |
||||
|
|
|
|
мается за область первого класса. |
||||
|
|
|
|
Однако |
во многих практических |
|||
|
|
|
|
задачах |
принадлежность |
точек |
||
|
|
|
|
многомерного |
пространства |
при |
||
Рис. 2-2. К делению простран |
знаков к тому |
или иному классу |
||||||
должна указываться с определен |
||||||||
ства признаков двумя разде |
ной уверенностью. В случае одной |
|||||||
ляющими поверхностями. |
разделяющей поверхности, харак |
|||||||
|
|
|
|
терной для системы 1, эта уверен |
ность уменьшается по мере приближения к разделяющей поверх ности и равна нулю на ней.
Система распознавания двух классов образов типа За имеет две разделяющие поверхности. Эти поверхности делят пространство признаков на три части (/, II, III , рис. 2-2) с зоной нечувствитель ности, в которых СР указывает принадлежность текущего образа на входе: I область — к первому классу, II область — ко второму классу, III область — ни к первому, ни ко второму (либо и к пер вому и ко второму) классу.
32
Уверенность ответа системы распознавания образов о принад лежности текущего образа х на входе, например, к первому классу должна определяться разницей апостериорных вероятностей при надлежности к первому и ко второму классу. В этом плане много мерное пространство признаков должно делиться на три части:
область / соответствует решению СР о принадлежности ее к первому классу
г ( е = - 1 / х ) - ^ > / " ( 8 = 1/х);
область I I соответствует решению СР о принадлежности ее ко
второму классу
Г (е = — 1/х) |- d2< /" (8 = 1/х);
область I I I , в которой СР либо вообще не может ответить на
вопрос о принадлежности текущего образа к первому или второму
классу, либо отвечает на |
этот |
вопрос |
с |
некоторой |
вероятностью |
|||
Г (в = - |
1/х) — <*!</" (е = |
1/х); |
|
/" (8 = |
- |
1/х) + dt > |
r (е = 1/х). |
|
Здесь |
величины dx и d2 (0 |
< |
< |
1, |
0 < d2 < |
1) |
определяют |
степень уверенности СР в отнесении образов на входе к первому или второму классу. В частном случае возможно, что d1 = d2 — d или rfi = d2 = d — 0; в последнем случае вариант с двумя разде ляющими поверхностями вырождается Ввариант с одной разделяю
щей поверхностью. В случае двух разделяющих поверхностей си стема распознавания образов с оптимальными параметрами разде-
/ляющих поверхностей преобразует входной сигнал х (га) в выходной xk(n) (указание системы о принадлежности текущего образа к тому или иному классу) следующим образом: х (га) в области / — х* (га) =
= — 1 (1-й класс); |
х (га) в |
области |
I I |
— х* (га) = 1 (2-й класс); |
х (га) в области I I I |
— х* (га) |
= 0 (1-й |
и |
2-й класс). |
Общее выражение для разделяющих поверхностей, оптималь ных по величине апостериорной вероятности, имеет вид:
Pi/i (х)_______ d |
= |
Р2/2 (х) |
, |
|
Pl/l (х) + Р2/2 (х) |
1 |
Pl/l (X) + р 2/2 (х) |
’ |
|
Pl/l(x) |
| d |
Pifi (х) |
|
|
Pl/l (х) + Pifi (X) |
2 |
Pi/i (х) + p2f2 (х) |
' |
|
Преобразовывая, получаем: |
|
|
|
|
S' (Х) = |
^ W |
_ |
(! — di) Pi . |
|
|
/1 (х) |
|
(1 + d i ) р 2 |
|
( 2- 1)
5" лл _ / 2
/ 1
(х) _ (1 -f- Д?г) Pi
(х) |
(1 — d2) p 2 |
Это окончательное выражение для разделяющих поверхностей, когда в качестве критерия первичной оптимизации используется величина апостериорной вероятности. В работе автора (Л. 52] представлена более подробная интерпретация величин d1 и d2 через условные плотности [' (х/е) и /" (г]х).
Система распознавания, оптимальная по критерию ми нимума средней функции риска, делит многомерное про
2 |
З а к а з № 975 |
33 |
странство признаков на три части: область, относимую СР к первому классу; область, относимую СР ко второму классу; область, в которой СР отказывается от принятия решения о принадлежности образов к тому или иному классу:
S' ( х )< 0 ; |
|
S" (х)> 0; |
(2-2) |
S " (x )< 0 < S '(x ). |
|
Условная функция риска есть сумма потерь при отне сении образа г-го класса к /-й области. Потери вычисляются как соответствующие вероятности, умноженные на вели
чины коэффициентов 1ц (i = 1 , 2 ; / = |
1, 0 , 2 ) |
матрицы |
|||||
потерь L |
|
|
|
Ао |
|
|
|
|
|
|
^11 |
^12 |
|
|
|
|
|
|
_ ^21 |
^20 |
^22 |
|
|
Коэффициенты |
/10, /20 — коэффициенты потерь |
при от |
|||||
казе системы от |
распознавания. Очевидно, что |
|
|||||
|
hi < ^1о |
^12» |
hi^> ho^> 4г- |
|
|||
Выражения для условной функции риска имеют сле |
|||||||
дующий вид: |
|
|
|
|
|
|
|
|
N |
|
|
|
N |
|
|
О = |
J • • • |
j lufi (х) d x + |
j . . . j |
/ю/i (x) dx + |
|||
|
S ’ (x)<0 |
|
|
S" (x)<0<S' (x) |
|
||
|
|
+ j |
• • • [ |
/12/1 (x) dx\ |
|
(2-3) |
|
|
N |
S" ( X )> 0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
r 2 = |
f • ■• j |
4 iM x) dx + |
j |
• • • f |
W a (x)dx + |
||
|
S' (x)<0 |
|
N |
S" (x)<0<Sr (x) |
|
||
|
|
|
|
|
|
|
|
|
|
+ f |
• ■• J W 2 (x) dx. |
|
(2-4) |
||
|
|
S" (x)>0 |
|
|
|
|
|
Усредняя условные функции риска, получаем выраже |
|||||||
ние для средней функции риска |
|
|
|
||||
|
N |
|
|
|
|
|
|
|
R ~ J • |
• • j" UnPifi (х) -f- /21Р2/2 (х) ] dx -j- |
|
||||
|
s' |
(x)<d |
|
|
|
|
|
34
|
+ |
|
f |
‘ |
[ |
KioPi/i (x) + |
hoPifz (x)l dx~{- |
||||||||
|
|
S" |
(x)<0< S ' |
(x) |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
N |
|
|
|
|
|
|
|
|
|
|
|
|
|
+ |
j • |
• • |
j [^2PlM x)-M 22P2/2(x)]dx. |
|
|||||||||
|
|
|
S" |
(x)>0 |
|
|
|
|
|
|
|
|
|
|
|
Учитывая, |
что |
|
|
|
|
|
|
|
|
|
|
|
|||
|
N |
|
|
|
N |
|
|
N |
|
|
|
N |
|
||
J |
- . |
f |
|
S" |
(x)<0 |
S' (x)<0 |
|
Г |
ч |
= |
|||||
S" (x)<0<S' (x) |
|
S"(x)>0 |
|||||||||||||
|
|
|
|
|
|
N |
|
|
N |
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
- |
S |
|
- |
H |
- |
|
S |
|
|
|
|
а также то, что |
|
|
|
|
|
S ’’ |
(x)<0 |
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
N |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
j |
. . . J [lizPxfi (x) -j- hiPifi (x)] dx = |
/i2P i+ |
/22p2> |
||||||||||||
выражение |
для |
средней |
функции |
|
риска |
можно записать |
|||||||||
в следующем виде: |
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
N |
|
|
|
|
|
|
|
|
R = |
(^i2Pi+ 4гРг)+ j |
' ' ' j t^nPi/i (х) + |
4 1 Р2/2 (х)— |
||||||||||||
|
|
|
|
|
|
|
S' (х)<0 |
|
|
Л/ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
— /10Р1/1 (х) — 4 оР2М х)М х + |
j |
|
• • • |
J UloPlfl(X) + |
|||||||||||
|
|
|
|
|
|
|
|
|
S" (х)<О |
|
|
|
|||
|
|
+ |
koPvh Сх ) — |
/i2 p i/i( x ) — |
/22Р2/2 (х )1 dx. |
|
|||||||||
Отсюда следует окончательное выражение для средней |
|||||||||||||||
функции |
риска: |
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
N |
|
|
|
|
|
|
|
R |
= |
Ц 1 2 Р 1 + ^ггРг) ~Ь j* |
• • • |
J |
[(^11 |
^10) P i f i |
Iх) ~"Ь |
||||||||
|
|
|
|
|
|
|
о' (х)<0 |
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
N |
|
|
|
|
|
|
|
+ { k i — |
^20) Р2/2 (х)1 ^х + |
j • • |
• |
j |
К^о— /12) P l/l(X) + |
||||||||||
|
|
|
|
|
|
|
|
S” (x)<0 |
|
|
|
|
|
||
|
|
|
|
~f~(^20 |
^22) P2/2 (x)l dx. |
|
|
(2-5) |
2 |
35 |
Необходимо найти выражения для S' (х) и S " (х), обес печивающие минимум R. Достаточно просто показать, что минимум R обеспечивается в том случае, когда подынтег ральные выражения отрицательны внутри соответствую щей области интегрирования и положительны вне ее, т. е. минимум R обеспечивается при условии
S '(x )~ |
(ln |
l10) Pi/i (х) -f- (/2i — /20) Ра/а (х); |
\ |
5 (х) = |
(/10 |
ll2) px/i (х) -J- (/2о — ^22) Р2/2 (х)- |
I |
Выражения (2-2) и (2-6) определяют оптимальную мо дель СР двух классов образов с двумя разделяющими по верхностями. Рассмотрим несколько подробнее частный случай, который более физически отражает сущность СР двух классов образов с дву мя разделяющими поверх
ностями. Примем
Рис. 2-3. Исследование струк |
S '(x) = |
туры СР в зависимости от коэф |
= (1 — Ш я (х)— hf\ (X), |
фициента потерь при отказе си |
|
стемы от распознавания. |
S"(x) = |
|
= Ы г (х)—(1 — /о) h (х). |
На рис. 2-3 представлена иллюстрация (в одномерном случае) зависимостей изменения порогов Лх и /г2 от /0.
Анализ выражений для разделяющих поверхностей позволяет сделать следующие выводы:
а) При /0 = 0 зона, в которой СР отказывается от распознава ния, занимает все пространство признаков. Это естественно, так как в данном случае потери при отказе от распознавания равны нулю.
б) При 10 = 1/2 СР с двумя разделяющими поверхностями вырождается в СР с одной разделяющей поверхностью. Это случай, когда потери при отказе от распознавания в 2 раза меньше потерь при неправильном распознавании, а потери от правильного рас познавания равны нулю.
в) При конечном значении 10 в пределах 1/2]> /о^>0 сущест вует зона нечувствительности, где СР не относит текущий образ на входе ни к первому, ни ко второму классу.
г) При значении /0 в пределах 1 > /„ > 0 ,5 СР имеет две разде ляющие поверхности, причем в зоне между ними СР относит теку щие образы на входе и к первому и ко второму классу. На рис. 2-3
кривые |
изменения порогов симметричны как относительно линии |
ti (х) = |
1г (х)> так и относительно уровня /0 = 1/2. |
36
На рис. 2-3 кг — порог, которым определяется (в одномерном случае) поверхность S' (х), h2 — порог, которым определяется по верхность S ” (х).
д) При l0 = 1 все многомерное пространство признаков счи тается принадлежащим и первому и второму классу.
Если сравнить оптимальные модели СР, построенные по крите рию апостериорной вероятности (2-1) и критерию минимума сред ней функции риска (2-5), то видно, что при условии
j |
(1ц 4" Al)-- |
(^1 0 ~W2o), . j |
(/j2 + ^2 2 ) — (ho + 4o) |
dl=* |
-------------- 2-------------- |
’ |
2 |
оптимальные решения по указанным критериям совпадают. Кроме того, данные равенства являются дополнительной интерпретацией коэффициентов dt и d2. Использование того или другого критерия возможно при наличии априорной информации о коэффициенте di или 1ц.
Анализ выражения для средней функции риска показы вает возможность рассмотрения критериев первичной оп тимизации при следующих ограничениях:
1) равенство отдельных составляющих средней функции риска
|
Piri = p2r2; |
(2-7) |
2 ) постоянная величина составляющей средней функ |
||
ции риска для одного из классов |
|
|
|
р2г2 = а = const. |
(2 -8 ) |
Для решения задачи минимизации с учетом первого |
||
ограничения запишем функционал Лагранжа в виде |
|
|
I |
= R + K(p1r1 — р2г2). |
|
Подставив в уравнение (2-7) значения функций |
и г2 |
|
из (2-3) и (2-4), получим: |
|
|
|
N |
|
P1A 2 + J • • • j (/1 1 — /1 0 ) Р1 / 1 (х) dx -f- |
|
|
|
S ' (х)<0 |
|
N |
|
|
+ f • |
• • f (/lO— /l2)P lfl(x)dX = |
|
S" (x)<0 |
|
|
|
N |
|
= P2^22+ |
j • • • |(* 21— /20)Р 2М*МХ + |
|
|
S' (x)«) |
|
|
N |
|
+ j |
. . . j (/20- / 22) P%f2(X) d x . |
(2-9) |
S " (x)<0
37
Уравнения оптимальных разделяющих поверхностей, имеющие вид:
S' ( х ) = (1п — /ю) P i f i (х) (1 -)- X) -f-
+ (4 i |
4 о) Р2/2 (х) (1 ^); |
|
|
5 ,/(х) = |
(/ю— /12) Pifi (х) (1 + + |
' |
' |
+ (4о— 4г) Р2/2 (х) (1 —^)> |
|
|
есть результат минимизации функционала I. Значение X, обеспечивающее минимум /, получается из условия ра венства нулю производной dlldX, т. е. при подстановке (2-10) в уравнение (2-9) для соответствующего ограниче ния.
Для критерия минимума составляющей средней функ ции риска для одного из классов при заданном значении составляющей средней функции риска для другого класса, т. е. с учетом ограничения (2 -8 ), выражения для оптималь ных разделяющих поверхностей имеют следующий вид:
S ' (х) = |
(/п ко) P i f i (х) + |
Л.(/21— /2о) P i h (х) = |
0; |
| |
S " ( x ) = |
( h o - h i ) P i f i ( x ) + |
b ( l i o - l i i ) P i f i ( * ) = |
0. |
J (2' И) |
Выражение для X получается подстановкой (2-11) в уравнение для соответствующего ограничения, имеющее вид:
N
Р^2 = Р21 ц + \ ■ ■ ■ [ ( 4 l — 4о) Р2 / 2 (х) ^Х +
"s' (x)<d"
N
+ !’ • • • j (l20— li i ) P i f i ( x ) d x = a.
' s" (x)<o
Рассмотрим систему распознавания 36 (табл. 2-1) на два класса образов, имеющую (Кр—1) разделяющую по верхность. Для данной системы д р = const означает, что число (целое) решений равно или больше четырех.
Определим оптимальную модель СР по критерию сравнения апостериорных вероятностей. По аналогии со случаем двух клас сов образов и двух разделяющих поверхностей определим деление многомерного пространства признаков на области следующим об разом.
Область kp (kp = 1, . . . , Кр) определяется следующей систе мой неравенств:
/(е = —1/х) — dk |
k < / ( е = 1/х)< / (е = —1/х) — dk k A l, |
|
Р |
р |
р ’ р 1 |
38
при d0 1 = 1, dk k +1 = —1 и следующем условии:
dk |
. к |
+ i > ° |
ПРИ /(e = |
—l / x ) > / ( s = |
1/x); |
|
P |
P |
|
|
|
dk |
,k |
n < ° |
ПРИ / ( 8 = |
— l/x)<i/(e = |
1/x). |
p’ |
p ' 1 |
|
|
|
Иллюстрация такого деления пространства признаков в одно мерном случае приведена на рис. 2-4. Выходной сигнал СР должен иметь kp градаций по уровню, т. е. СР принимает при наличии двух классов образов kp решений. Из рис. 2-4 следует, что отнесение той или иной области многомерного пространства признаков к первому
Области
Рис. 2-4. К рассмотрению критерия первичной опти мизации СР по величине апостериорной вероятно сти в случае двух классов образов и (/Ср — 1)-й разделяющей поверхности.
или второму классу производится с определенным запасом по апо стериорной вероятности, например в области йр с запасом, равным
m in{|V - ь kv\’ I V p '-'I).
Учитывая известные выражения для апостериорных вероятно стей I (е = 1/х) и f (в = — 1/х), можно получить выражение для области kp решения СР в исходном многомерном пространстве при знаков в следующем виде:
* ~ V U P < Р2/ 2(х) |
1- |
У р +1 |
|
Х+ \ - х , k p |
Pi/xW |
l + |
dkp, k p + l |
Определим оптимальную модель СР по критерию ми нимума средней функции риска. В данном случае СР по сле обучения делит многомерное пространство признаков на Кр частей, в каждой из которых существуют априори
39