Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Галушкин, А. И. Синтез многослойных систем распознавания образов

.pdf
Скачиваний:
11
Добавлен:
22.10.2023
Размер:
12.65 Mб
Скачать

Г л а в а в т о р а я

ПОСТРОЕНИЕ ОПТИМАЛЬНЫХ МОДЕЛЕЙ СР

2-1. Общая структура оптимальной модели

Под оптимальной (эталонной) моделью СР, как и в лю­ бой другой оптимальной системе (рис. 2-1), понимается оптимальное преобразование, осуществляемое системой над входным сигналом [х (п), г (п) 1 для получения выходного сигнала хк (п), с точки зрения выбранного критерия пер­

вичной оптимизации. На рис. 2-1 верхний

блок — управ­

ляемая система, нижний

блок — оптимальная

модель, по

 

которой

 

настраивается упра­

 

вляемая система. Общий под­

 

ход к построению оптимальных

 

моделей

систем

распознавания

 

образов в режиме обучения со­

 

стоит в том, что система строит­

 

ся при

произвольных

характе­

 

ристиках входного сигнала, со­

Рис. 2-1. К определению

ставляющих два, К и континуум

классов образов, для произволь­

оптимальной модели.

ного числа решений, осуще­

 

решений имеет также две,

ствляемых

СР.

Пространство

/Ср и континуум

градаций.

Ха­

рактеристики указаний учителя (классов)

и решений

вы­

бираются априори независимо.

 

 

 

 

 

 

Построение оптимальной модели

производится

по

вы­

бранному критерию первичной оптимизации,

а

описание

ее осуществляется, в частности, в виде выражения для разделяющей поверхности. Разделяющая поверхность де­ лит многомерое пространство признаков на непересекающиеся области с указанием принадлежности соответствую­ щей области к тому или иному классу.

В табл. 2-1 представлена классификация СР по харак­ теристикам входного сигнала и пространства решений для частного вида одномерных сигналов е (п) и хк (п). Остано­ вимся коротко на отдельных типах систем.

Система распознавания 1, рассчитанная на два класса образов с двоичным выходом, наиболее широко представ­ лена в литературе. Система распознавания 2 рассчитана на К классов образов с числом решений Кр, равным К- Исследование оптимальных моделей подобных СР прове дено в [Л. 46 и 49 ] для различных критериев первичной

30

Пространство

 

 

(число)

два

класса

решений

Два

 

1

 

II О.

СО

Кр

К р = const

Континуум 5

 

 

 

Т а б л и ц а 2-1

 

Входной сигнал

 

 

 

К классов

 

Континуум

 

 

классов

 

7

 

8

 

К < К р

9

 

За

 

 

 

 

К = К Р

2

10

36

К > Кр

4

 

 

6

 

11

оптимизации СР и различной априорной информации о характеристиках входного сигнала. Необходимо отметить, что представление о том, что задача обучения при распозна­ вании К классов образов может быть сведена к последова­ тельному применению на каждом шаге алгоритма обучения для двух классов, является неверным. Это самостоятель­ ная задача, для оптимального решения которой уже на пер­ вом шаге строится эквивалентная разделяющая поверх­ ность, делящая пространство признаков на К непересекающихся областей.

Пространство решений СР характеризуется числом уров­ ней квантования по амплитуде выходного сигнала xk (п) по каждому из каналов. Системы распознавания с конти­ нуумом решений, например типа 5 или 6, имеют непрерыв­ ный выходной сигнал. Системы распознавания 8, 10, 11 характеризуются непрерывным распределением /е (е) ука­ заний учителя СР, когда текущему образу на входе при­ писывается не индекс класса из дискретного множества индексов, а некоторая количественная (континуальная) оценка принадлежности.

2-2. Аналитическое представление разделяющих поверхностей в типовых СР

Методика построения оптимальных моделей СР К клас­ сов образов достаточно подробно описана в работах автора [Л. 49, 53 ] и в данной книге ввиду ее ограниченного объема

31

не приводится. В принципе оптимальные модели некоторых СР К классов образов можно получить из выражений для оптимальных моделей СР более общего типа, рассматри­ ваемых ниже. В случае К классов образов, так же как и в любом другом случае, получение выражений для опти­ мальных разделяющих поверхностей производится следую­ щим путем: записывается выражение для минимизируе­

мого

функционала первичной оптимизации, решается за­

дача

минимизации функционала первичной оптимизации

с учетом существующих

ограничений.

Оптимальная модель

СР К классов образов опреде­

ляется системой неравенств, определяющих деление ис­ ходного пространства признаков на К областей с отнесе­ нием каждой области к тому или иному классу.

Рассмотрим построение оптимальных моделей СР, при­ веденных в табл. 2 -1 .

Система распознавания 3. Система распознавания образов, оптимальная по критерию максимума апостериорной вероятности (в случае двух решений), преобразует входной сигнал х (п) в выход­ ной х/, («) в соответствии со следующим соотношением:

 

1

I

при / ( е =

1 / х ) > /( е = — 1/х),

 

Хк

1

— 1

при / (е, =

— 1/х) > /

(8 = 1/х).

 

Разделяющая поверхность проводится по тем точкам х, для ко­

торых апостериорные вероятности

принадлежности к первому и

 

 

 

 

второму классу равны. Т^эбласть

 

 

 

 

многомерного

пространства

при­

 

 

 

 

знаков, где апостериорная вероят­

 

 

 

 

ность принадлежности х к

пер­

 

 

 

 

вому классу больше, чем апосте­

 

 

 

 

риорная

вероятность принадлеж­

 

 

 

 

ности ко второму классу, прини­

 

 

 

 

мается за область первого класса.

 

 

 

 

Однако

во многих практических

 

 

 

 

задачах

принадлежность

точек

 

 

 

 

многомерного

пространства

при­

Рис. 2-2. К делению простран­

знаков к тому

или иному классу

должна указываться с определен­

ства признаков двумя разде­

ной уверенностью. В случае одной

ляющими поверхностями.

разделяющей поверхности, харак­

 

 

 

 

терной для системы 1, эта уверен­

ность уменьшается по мере приближения к разделяющей поверх­ ности и равна нулю на ней.

Система распознавания двух классов образов типа За имеет две разделяющие поверхности. Эти поверхности делят пространство признаков на три части (/, II, III , рис. 2-2) с зоной нечувствитель­ ности, в которых СР указывает принадлежность текущего образа на входе: I область — к первому классу, II область — ко второму классу, III область — ни к первому, ни ко второму (либо и к пер­ вому и ко второму) классу.

32

Уверенность ответа системы распознавания образов о принад­ лежности текущего образа х на входе, например, к первому классу должна определяться разницей апостериорных вероятностей при­ надлежности к первому и ко второму классу. В этом плане много­ мерное пространство признаков должно делиться на три части:

область / соответствует решению СР о принадлежности ее к первому классу

г ( е = - 1 / х ) - ^ > / " ( 8 = 1/х);

область I I соответствует решению СР о принадлежности ее ко

второму классу

Г (е = — 1/х) |- d2< /" (8 = 1/х);

область I I I , в которой СР либо вообще не может ответить на

вопрос о принадлежности текущего образа к первому или второму

классу, либо отвечает на

этот

вопрос

с

некоторой

вероятностью

Г = -

1/х) — <*!</" (е =

1/х);

 

/" (8 =

-

1/х) + dt >

r (е = 1/х).

Здесь

величины dx и d2 (0

<

<

1,

0 < d2 <

1)

определяют

степень уверенности СР в отнесении образов на входе к первому или второму классу. В частном случае возможно, что d1 = d2 — d или rfi = d2 = d — 0; в последнем случае вариант с двумя разде­ ляющими поверхностями вырождается Ввариант с одной разделяю­

щей поверхностью. В случае двух разделяющих поверхностей си­ стема распознавания образов с оптимальными параметрами разде-

/ляющих поверхностей преобразует входной сигнал х (га) в выходной xk(n) (указание системы о принадлежности текущего образа к тому или иному классу) следующим образом: х (га) в области / — х* (га) =

= — 1 (1-й класс);

х (га) в

области

I I

х* (га) = 1 (2-й класс);

х (га) в области I I I

х* (га)

= 0 (1-й

и

2-й класс).

Общее выражение для разделяющих поверхностей, оптималь­ ных по величине апостериорной вероятности, имеет вид:

Pi/i (х)_______ d

=

Р2/2 (х)

,

Pl/l (х) + Р2/2 (х)

1

Pl/l (X) + р 2/2 (х)

Pl/l(x)

| d

Pifi (х)

 

Pl/l (х) + Pifi (X)

2

Pi/i (х) + p2f2 (х)

'

Преобразовывая, получаем:

 

 

 

S' (Х) =

^ W

_

(! — di) Pi .

 

 

/1 (х)

 

(1 + d i ) р 2

 

( 2- 1)

5" лл _ / 2

/ 1

(х) _ (1 -f- Д?г) Pi

(х)

(1 — d2) p 2

Это окончательное выражение для разделяющих поверхностей, когда в качестве критерия первичной оптимизации используется величина апостериорной вероятности. В работе автора (Л. 52] представлена более подробная интерпретация величин d1 и d2 через условные плотности [' (х/е) и /" (г]х).

Система распознавания, оптимальная по критерию ми­ нимума средней функции риска, делит многомерное про­

2

З а к а з № 975

33

странство признаков на три части: область, относимую СР к первому классу; область, относимую СР ко второму классу; область, в которой СР отказывается от принятия решения о принадлежности образов к тому или иному классу:

S' ( х )< 0 ;

 

S" (х)> 0;

(2-2)

S " (x )< 0 < S '(x ).

 

Условная функция риска есть сумма потерь при отне­ сении образа г-го класса к /-й области. Потери вычисляются как соответствующие вероятности, умноженные на вели­

чины коэффициентов 1ц (i = 1 , 2 ; / =

1, 0 , 2 )

матрицы

потерь L

 

 

 

Ао

 

 

 

 

 

 

^11

^12

 

 

 

 

 

_ ^21

^20

^22

 

 

Коэффициенты

/10, /20 — коэффициенты потерь

при от­

казе системы от

распознавания. Очевидно, что

 

 

hi < ^1о

^12»

hi^> ho^> 4г-

 

Выражения для условной функции риска имеют сле­

дующий вид:

 

 

 

 

 

 

 

N

 

 

 

N

 

 

О =

J • • •

j lufi (х) d x +

j . . . j

/ю/i (x) dx +

 

S ’ (x)<0

 

 

S" (x)<0<S' (x)

 

 

 

+ j

• • • [

/12/1 (x) dx\

 

(2-3)

 

N

S" ( X )> 0

 

 

 

 

 

 

 

 

 

 

 

r 2 =

f • ■• j

4 iM x) dx +

j

• • • f

W a (x)dx +

 

S' (x)<0

 

N

S" (x)<0<Sr (x)

 

 

 

 

 

 

 

 

 

 

+ f

• ■• J W 2 (x) dx.

 

(2-4)

 

 

S" (x)>0

 

 

 

 

Усредняя условные функции риска, получаем выраже­

ние для средней функции риска

 

 

 

 

N

 

 

 

 

 

 

R ~ J •

• • j" UnPifi (х) -f- /21Р2/2 (х) ] dx -j-

 

 

s'

(x)<d

 

 

 

 

 

34

 

+

 

f

[

KioPi/i (x) +

hoPifz (x)l dx~{-

 

 

S"

(x)<0< S '

(x)

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

+

j •

• •

j [^2PlM x)-M 22P2/2(x)]dx.

 

 

 

 

S"

(x)>0

 

 

 

 

 

 

 

 

 

 

Учитывая,

что

 

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

N

 

 

N

 

 

 

N

 

J

- .

f

 

S"

(x)<0

S' (x)<0

 

Г

ч

=

S" (x)<0<S' (x)

 

S"(x)>0

 

 

 

 

 

 

N

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

-

S

 

-

H

-

 

S

 

 

 

 

а также то, что

 

 

 

 

 

S ’’

(x)<0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

. . . J [lizPxfi (x) -j- hiPifi (x)] dx =

/i2P i+

/22p2>

выражение

для

средней

функции

 

риска

можно записать

в следующем виде:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

 

 

 

 

R =

(^i2Pi+ 4гРг)+ j

' ' ' j t^nPi/i (х) +

4 1 Р2/2 (х)—

 

 

 

 

 

 

 

S' (х)<0

 

 

Л/

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

/10Р1/1 (х) — 4 оР2М х)М х +

j

 

• • •

J UloPlfl(X) +

 

 

 

 

 

 

 

 

 

S" (х)<О

 

 

 

 

 

+

koPvh Сх ) —

/i2 p i/i( x ) —

/22Р2/2 (х )1 dx.

 

Отсюда следует окончательное выражение для средней

функции

риска:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

 

 

 

 

R

=

Ц 1 2 Р 1 + ^ггРг) ~Ь j*

• • •

J

[(^11

^10) P i f i

Iх) ~"Ь

 

 

 

 

 

 

 

о' (х)<0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

 

 

 

 

+ { k i —

^20) Р2/2 (х)1 ^х +

j • •

j

К^о— /12) P l/l(X) +

 

 

 

 

 

 

 

 

S” (x)<0

 

 

 

 

 

 

 

 

 

~f~(^20

^22) P2/2 (x)l dx.

 

 

(2-5)

2

35

Необходимо найти выражения для S' (х) и S " (х), обес­ печивающие минимум R. Достаточно просто показать, что минимум R обеспечивается в том случае, когда подынтег­ ральные выражения отрицательны внутри соответствую­ щей области интегрирования и положительны вне ее, т. е. минимум R обеспечивается при условии

S '(x )~

(ln

l10) Pi/i (х) -f- (/2i — /20) Ра/а (х);

\

5 (х) =

(/10

ll2) px/i (х) -J- (/2о — ^22) Р2/2 (х)-

I

Выражения (2-2) и (2-6) определяют оптимальную мо­ дель СР двух классов образов с двумя разделяющими по­ верхностями. Рассмотрим несколько подробнее частный случай, который более физически отражает сущность СР двух классов образов с дву­ мя разделяющими поверх­

ностями. Примем

Рис. 2-3. Исследование струк­

S '(x) =

туры СР в зависимости от коэф­

= (1 — Ш я (х)— hf\ (X),

фициента потерь при отказе си­

стемы от распознавания.

S"(x) =

 

= Ы г (х)—(1 — /о) h (х).

На рис. 2-3 представлена иллюстрация (в одномерном случае) зависимостей изменения порогов Лх и /г2 от /0.

Анализ выражений для разделяющих поверхностей позволяет сделать следующие выводы:

а) При /0 = 0 зона, в которой СР отказывается от распознава­ ния, занимает все пространство признаков. Это естественно, так как в данном случае потери при отказе от распознавания равны нулю.

б) При 10 = 1/2 СР с двумя разделяющими поверхностями вырождается в СР с одной разделяющей поверхностью. Это случай, когда потери при отказе от распознавания в 2 раза меньше потерь при неправильном распознавании, а потери от правильного рас­ познавания равны нулю.

в) При конечном значении 10 в пределах 1/2]> /о^>0 сущест­ вует зона нечувствительности, где СР не относит текущий образ на входе ни к первому, ни ко второму классу.

г) При значении /0 в пределах 1 > /„ > 0 ,5 СР имеет две разде­ ляющие поверхности, причем в зоне между ними СР относит теку­ щие образы на входе и к первому и ко второму классу. На рис. 2-3

кривые

изменения порогов симметричны как относительно линии

ti (х) =

(х)> так и относительно уровня /0 = 1/2.

36

На рис. 2-3 кг — порог, которым определяется (в одномерном случае) поверхность S' (х), h2 — порог, которым определяется по­ верхность S ” (х).

д) При l0 = 1 все многомерное пространство признаков счи­ тается принадлежащим и первому и второму классу.

Если сравнить оптимальные модели СР, построенные по крите­ рию апостериорной вероятности (2-1) и критерию минимума сред­ ней функции риска (2-5), то видно, что при условии

j

(1ц 4" Al)--

(^1 0 ~W2o), . j

(/j2 + ^2 2 ) — (ho + 4o)

dl=*

-------------- 2--------------

2

оптимальные решения по указанным критериям совпадают. Кроме того, данные равенства являются дополнительной интерпретацией коэффициентов dt и d2. Использование того или другого критерия возможно при наличии априорной информации о коэффициенте di или 1ц.

Анализ выражения для средней функции риска показы­ вает возможность рассмотрения критериев первичной оп­ тимизации при следующих ограничениях:

1) равенство отдельных составляющих средней функции риска

 

Piri = p2r2;

(2-7)

2 ) постоянная величина составляющей средней функ­

ции риска для одного из классов

 

 

р2г2 = а = const.

(2 -8 )

Для решения задачи минимизации с учетом первого

ограничения запишем функционал Лагранжа в виде

 

I

= R + K(p1r1 — р2г2).

 

Подставив в уравнение (2-7) значения функций

и г2

из (2-3) и (2-4), получим:

 

 

N

 

P1A 2 + J • • • j (/1 1 — /1 0 ) Р1 / 1 (х) dx -f-

 

 

S ' (х)<0

 

N

 

+ f •

• • f (/lO— /l2)P lfl(x)dX =

 

S" (x)<0

 

 

N

 

= P2^22+

j • • • |(* 21— /202М*МХ +

 

 

S' (x)«)

 

 

N

 

+ j

. . . j (/20- / 22) P%f2(X) d x .

(2-9)

S " (x)<0

37

Уравнения оптимальных разделяющих поверхностей, имеющие вид:

S' ( х ) = (1п — /ю) P i f i (х) (1 -)- X) -f-

+ (4 i

4 о) Р2/2 (х) (1 ^);

 

 

5 ,/(х) =

(/ю— /12) Pifi (х) (1 + +

'

'

+ (4о— 4г) Р2/2 (х) (1 —^)>

 

 

есть результат минимизации функционала I. Значение X, обеспечивающее минимум /, получается из условия ра­ венства нулю производной dlldX, т. е. при подстановке (2-10) в уравнение (2-9) для соответствующего ограниче­ ния.

Для критерия минимума составляющей средней функ­ ции риска для одного из классов при заданном значении составляющей средней функции риска для другого класса, т. е. с учетом ограничения (2 -8 ), выражения для оптималь­ ных разделяющих поверхностей имеют следующий вид:

S ' (х) =

(/п ко) P i f i (х) +

Л.(/21— /2о) P i h (х) =

0;

|

S " ( x ) =

( h o - h i ) P i f i ( x ) +

b ( l i o - l i i ) P i f i ( * ) =

0.

J (2' И)

Выражение для X получается подстановкой (2-11) в уравнение для соответствующего ограничения, имеющее вид:

N

Р^2 = Р21 ц + \ ■ ■ ■ [ ( 4 l — 4о) Р2 / 2 (х) ^Х +

"s' (x)<d"

N

+ !’ • • • j (l20— li i ) P i f i ( x ) d x = a.

' s" (x)<o

Рассмотрим систему распознавания 36 (табл. 2-1) на два класса образов, имеющую (Кр1) разделяющую по­ верхность. Для данной системы д р = const означает, что число (целое) решений равно или больше четырех.

Определим оптимальную модель СР по критерию сравнения апостериорных вероятностей. По аналогии со случаем двух клас­ сов образов и двух разделяющих поверхностей определим деление многомерного пространства признаков на области следующим об­ разом.

Область kp (kp = 1, . . . , Кр) определяется следующей систе­ мой неравенств:

/(е = —1/х) — dk

k < / ( е = 1/х)< / (е = —1/х) — dk k A l,

Р

р

р ’ р 1

38

при d0 1 = 1, dk k +1 = —1 и следующем условии:

dk

. к

+ i > °

ПРИ /(e =

—l / x ) > / ( s =

1/x);

 

P

P

 

 

 

dk

,k

n < °

ПРИ / ( 8 =

— l/x)<i/(e =

1/x).

p’

p ' 1

 

 

 

Иллюстрация такого деления пространства признаков в одно­ мерном случае приведена на рис. 2-4. Выходной сигнал СР должен иметь kp градаций по уровню, т. е. СР принимает при наличии двух классов образов kp решений. Из рис. 2-4 следует, что отнесение той или иной области многомерного пространства признаков к первому

Области

Рис. 2-4. К рассмотрению критерия первичной опти­ мизации СР по величине апостериорной вероятно­ сти в случае двух классов образов и (/Ср — 1)-й разделяющей поверхности.

или второму классу производится с определенным запасом по апо­ стериорной вероятности, например в области йр с запасом, равным

m in{|V - ь kv\’ I V p '-'I).

Учитывая известные выражения для апостериорных вероятно­ стей I (е = 1/х) и f (в = — 1/х), можно получить выражение для области kp решения СР в исходном многомерном пространстве при­ знаков в следующем виде:

* ~ V U P < Р2/ 2(х)

1-

У р +1

Х+ \ - х , k p

Pi/xW

l +

dkp, k p + l

Определим оптимальную модель СР по критерию ми­ нимума средней функции риска. В данном случае СР по­ сле обучения делит многомерное пространство признаков на Кр частей, в каждой из которых существуют априори

39

Соседние файлы в папке книги из ГПНТБ