Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Галушкин, А. И. Синтез многослойных систем распознавания образов

.pdf
Скачиваний:
11
Добавлен:
22.10.2023
Размер:
12.65 Mб
Скачать

ления входного сигнала системы распознавания образов. Именно представление f, (х) многомодальной функцией позволяет использо­ вать в режиме самообучения в качестве критерия первичной опти­ мизации специальную среднюю функцию риска, предложенную М. И. Шлезингером, развитую в [Л. 48] и используемую ниже.

2-6. Оптимальные модели СР в режиме самообучения и при произвольной квалификации учителя

Предположим, что образы сгруппированы вокруг не­ которых неизвестных центров bftp классов. При введении

в рассмотрение функции расстояния образов от множеств

£-го

класса р (х,

ЬАр) =

|| х — Ь*р ||2

условная

функция

риска, возникающего

при

отнесении

образа

х

к области

6 р-го

решения, может

быть

представлена в

следующем

виде:

% =

 

 

 

 

 

 

 

 

 

J

IIх — b*p ||2 /(x)dx,

 

 

 

 

 

s(V(x) >0

 

 

 

 

 

 

где || — || означает

норму вектора. Средняя функция

риска

равна:

 

 

 

 

 

 

 

 

 

Кр

I

 

|| х — Ь*

||2/ (х) dx.

 

 

(2-24)

 

R -- 2

 

 

 

 

 

* P = I S ( * p ) < x » 0

 

 

 

 

 

В данном случае область

&р-го решения

(6 р =

1, . . .

...,КР), удовлетворяющая условию минимума R , определя­

ется

следующей системой неравенств:

 

 

 

 

S (fep)(x) = IIх —hk' ||2— ||х — bftJ 2> 0

 

 

 

 

( К ф к р = 1. .... К р).

 

 

(2-25)

Уравнение, определяющее координаты центров классов, удовлетворяющих условию минимума R, имеет следующий вид:

Ь,

" р

j

X [ f

( х ) dx

 

s (kр ) ( х ) > 0

 

i = 1 ,

N-,

 

 

I

f (х) dx

 

s ( kp ) ( x ) > 0

 

 

6 Р=

1 ,

. . . . Кр.

(2-26)

Системы (2-25), (2-26) определяют оптимальную модель СР в режиме самообучения. Отметим, что функция потерь

60

р (х, b*p) = ||x —ЬАр ||2 определяет довольно грубую ап­

проксимацию распределения в классе. Более точная аппрок­ симация может быть достигнута усложнением оптимальной модели, достигаемым за счет усложнения функции потерь, например, следующим образом:

или взятием р (х, Ь*р) в еще более сложной форме.

Подобно тому как в режиме обучения вектор-функция (е), . . . , /йр (е)] заменяется функцией I (хк, е) двух

переменных при переходе к случаю континуума решений, в режиме самообучения вводится в рассмотрение функция потерь в виде р [х, b (хА)], где функция b (хк) является либо конечным [Л, 48], либо промежуточным результатом синтеза СР. В случае дискретного множества решений СР средняя функция риска имеет следующий вид:

где

 

 

 

 

 

 

(

1 ,

если

x £ S ^ ( x ) > 0 ,

С(х, *„)=

 

если

(*р)

( х )> 0 .

( 0 ,

x(£S

Для континуума решений СР имеем

аналогично

R = JJР [х,

b (хА)] G(х, х*) f (х) dxdxk,

x k x

 

 

 

 

 

 

где

М ,

если xk = P(x),

 

 

 

(х, х а)— j Q)

если X k ^ p

^

t

или, иначе,

 

 

 

 

 

 

R = [ Р [х,

b (х)] ] / (х) dx.

(2-27)

х

 

 

 

 

 

 

Выражение для оптимальной модели СР получается отсюда дифференцированием R по хк = Р (х) и b анало­ гично тому, как это было сделано в режиме обучения

f(x )—'— р[х, Ь(х*)]

= 0,

 

дхк

хк=Р (х)

 

f ( x ) - £ —p[x, Ь (**)] =

0, i= 1, • •

N,

dbi

 

 

61

при использовании дополнительных условий Сильвестра для матрицы смешанных производных второго порядка R по компонентам вектора b (хк).

Рассмотрим оптимальную модель

СР

с Кр = К реше­

ниями при произвольной квалификации учителя Ь.

Необходимо так определить функцию

потерь

I (х, Ь*. ,

b, lkpk) , чтобы в режиме обучения

при

b = 1

/==/* и .

в режиме самообучения

при b — О

I =

р (х, Ь*.

), а при

b — 1 определялся

функционал

первичной

оптимиза­

ции с обратной экстремальностью по отношению к режиму

обучения. Такая

функция потерь может быть записана

в следующем виде:

/ (х, b*p,

b, lkpk) = blkpk + ( \ — Ь2)р(х, bftp).

Выражение для средней функции риска имеет вид:

R

к

I

2 р Л ( х) ijkpk

b+

2

 

* Р = 1

о ( * р ) ,

k=l

 

 

 

s K P ' ( x ) > 0

 

 

 

+

(1 b2) Ix— bAp |2 / (x)j dx.

(2-28)

Оптимальная область kp-ro решения может быть пред­ ставлена следующим образом:

S ( P\ x ) = g ' (х)—gk ( х )> 0 , ko =£k = 1 , . . . , К п.

Выражение для оптимальных значений Ьк ; имеет вид, аналогичный (2-26).

Выше предполагалось, что квалификация учителя из­ вестна точно при построении оптимальной модели СР. Не­ точное знание квалификации учителя имеет место, напри­ мер, при решении задач медицинской диагностики, когда известно, что квалификация обучающей выборки сделана врачом, имеющим конечную, неточно известную конструк­ тору СР квалификацию. При этом объективная квалифи­ кация b учителя определяет вид распределения входного сигнала, а субъективная квалификация учителя Ьс, сооб­ щаемая системе, определяет вид функционала оптимиза­

ции. В случае К =

Кр классов и решений СР

 

.

к

 

 

R

V

{21 [bcPkhkpu ь

'6с)р(х- Ь* )]х

'

—J

* р = 1

(х) > О

 

х /'(х /е — k)} dx.

62

С учетом выражения для закона распределения вход­ ного сигнала оптимальная модель СР, в данном случае оп­ ределяемая системой К неравенств, запишется в следую­ щем виде:

V lbc ^pklkkp- p klkk^ + ( \ - b l ) Гр(х, Ь*р) - р | х , b / j lj x

fe=l

р

V

р. J

 

к

 

 

 

Pk'fk' (хУ°кк'

 

(2-29)

 

X -£=*----------------- > о,

 

 

2 Pk'akk’

 

 

где kp = 1,

k'=l

 

 

. . . , К.

 

 

В этом случае предполагается, что субъективная квали­ фикация учителя, сообщаемая СР, не зависит от номера класса.

Из (2-29) следует, что в случае bc = 1 и ] = A lt

где А 1 — единичная матрица (см. § 1-3), имеют дело с ре­ жимом обучения. В случае Ьс = 0 при произвольных зна­ чениях ak,k система работает в режиме самообучения. В об­

щем случае, когда объективная b и субъективная Ьс квали­ фикации учителя совпадают, система способна к настройке. В том случае, когда учитель имеет нулевую квалификацию, а систему принуждают работать в режиме обучения, она оказывается неспособной к настройке.

Вышеизложенный материал позволяет следующим образом классифицировать априорную информацию, необходимую для по­ строения оптимальной модели СР: а) число классов образов (два, К, континуум); б) характер нестационарное™ входного сигнала; в) функция квалификации учителя СР от двух аргументов, являю­ щихся индексами соответствующих классов; г) функция «собствен­ ного мнения учителя СР о своих способностях»; это также функция двух аргументов, являющихся индексами соответствующих клас­ сов; д) априорные вероятности появления классов; е) структура пространства решений СР (два, К р, континуум решений); ж) класс критериев первичной оптимизации СР; з) функция потерь при от­ несении СР образов одного класса к другому.

Это указывает на значительность объема априорной информа­ ции, необходимой для построения оптимальной модели СР. Необ­ ходимо отметить, что иногда отпадает необходимость в некотором виде априорной информации, например в априорных вероятностях появления классов при использовании минимаксного критерия или эмпирического байесовского подхода.

Как было указано во введении, количество априорной инфор­ мации о виде I' (х/е) определяет пути реализации оптимальных мо­ делей СР, указанные в табл. В-1.

63

Г л а в а т р е т ь я

ПОСТРОЕНИЕ СР, НАСТРАИВАЮЩИХСЯ ПО РАЗОМКНУТОМУ ЦИКЛУ

3-1. Классификация типовых распределений

Построение СР, настраивающихся по разомкнутому циклу, предполагает априорное знание в той или иной

форме

общего

вида

условных плотностей распределений

/' (х/е)

с

точностью

до

неизвестных

параметров,

которые

 

 

 

 

 

определяются в процессе настройки

х(п)

 

 

Х к (п )

по реализациям входного сигнала.

 

 

 

= >

 

Подобное априорное задание /' (х/е),

 

 

а(п)

 

естественно,

ограничивает возмож­

 

 

 

ности СР при распознавании обра­

 

 

 

 

 

 

 

 

 

 

зов с характеристиками, изменя­

 

I

=t>

л

 

ющимися в широких пределах.

е(п)

 

 

 

 

Однако если

информация

о

виде

t---

 

 

условной плотности имеется,

то ее

ш

 

 

 

 

 

 

 

использование приводит к упроще­

Рис. 3-1.

Общая струк­

нию реализации СР. При наличии

турная схема СР, на­

данной информации и выражения,

страивающихся

по ра­

описывающего оптимальную

мо­

зомкнутому циклу.

 

дель СР конкретного вида, задача

 

 

 

 

 

синтеза СР,

настраивающихся по

разомкнутому циклу, заключается в подстановке выраже­ ния для f' (х/е) в формулу, описывающую оптимальную модель. Общая структурная схема СР, настраивающихся по разомкнутому циклу, представлена на рис. 3-1, где / — блок оценки параметров условных плотностей /' (х/е), II — блок расчета параметров разделяющей поверхности, III — априорная информация о виде условных плотностей.

Решение задачи синтеза СР, настраивающихся по ра­ зомкнутому циклу, возможно для любой оптимальной ма­ тематической модели СР и любой функции распределения. Использование информации о типовых распределениях при синтезе СР, по сути дела, есть использование опыта, накопленного математической статистикой при описании существующих в природе процессов детерминированными характеристиками.

Типовые распределения могут быть классифицированы, следующим образом: дискретные (одномерные и много­ мерные), непрерывные первообразные; непрерывные выбо­ рочные.

64

Перечень наиболее часто встречающихся распределе­ ний каждого из классов представлен в табл. 3-1. Конкрет­ ные выражения для данных распределений можно найти в известной литературе [Л. 16, 18, 25, 27, 32, 34, 37, 38, 39, 43, 45] по математической статистике.

 

 

Т а б л и ц а 3-1

 

Н епрерывные распределения

 

распределения

первообразные

выборочные

 

ГипергеометриРавномерное (прямо-

X2 — распределение *

ческое

угольное)

t — Стьюдента *

Биномиальное

Симпсона (треугольное)

Пуассона

Нормальное (Гаусса)*

у — распределение *

Геометрическое

Релеевское *

р — распределение *

Паскаля

Обобщенное релеевское

F (или V2)

Пойа

Коши *

Уишарта

Полиномиальное

Экспоненциальное

г — Ришера *

Пуассона

Лапласа

Т2 — Хэттелинга

Многомерное

Гиперэкспоненциальное

W — распределение

 

Показательно-степенное

нецентральное

 

Логарифмическое

Т — распределение

 

Логнормальное

S2 — распределение

 

Вейбулла *

Вилкоксона

 

Арксинус *

II — распределение

 

Логистическое

X —

»

 

Пойа — Эттли

R —

»

 

Sech 2

Г

»

 

 

rxy г ~~

* Распределения

охваченные системой Пирсон а.

 

 

3-2. Построение СР, оптимальных для совокупностей образов, распределенных по некоторым типовым законам

Нормальное распределение

В случае нормальных распределений

fi (х)

1

ехр — —

( х -

mi)T Ul I (x ~ - m■>]

 

JL

 

2

v

(2л;) 2

| U t |

 

 

 

выражение для оптимальной разделяющей поверхности (СР двух классов образов на два р<ешения) имеет следующий вид:

S (х) = хт( и ^ ' - и ^ 1) х + 2хг ( l/f 'm ,

m2) — Го = 0.

3 З а к а з № Э75

65

Здесь индекс Т означает операцию транспонирования вектора х.

Пороги Т0 для критериев: минимума средней функции риска

R (Г j),

минимума R при условии

р ггх — р 2г2 (Т2),

минимума R при ус­

ловии р 1г1 = а

 

(Т3) — имеют следующий вид:

 

 

 

 

 

 

In

Ui 1

+

 

 

т/ 7 — 1,

 

 

 

 

 

U, I

 

1ш1 m2 U2

‘т 2 +

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

+ 2 In - ^ + 2 In /и ~ /и-

 

 

 

 

 

 

 

 

 

Pl

 

/ц //2

 

 

 

 

Т2 =

In

 

I U l

-f

Ul 1Ш1— 1П2

U2 }m2 + 2 \ n

P2 -f

 

 

 

 

I/.

 

 

 

 

1 — X _

 

Pi

 

 

 

 

 

2 1 n ./22- / 21_

In

 

 

 

 

 

 

 

 

^li — hi

1 +Я, ’

 

 

 

 

 

 

 

 

 

 

 

 

T„ =

In

'

i'll

, T , t-

1,

 

 

 

2 In

+

 

 

+ шГУ,

‘m, — nij U2 ‘m +

 

3

 

I и |

1

1

1

J

г

2

 

Pi

 

 

 

 

 

+ 2 1 п-/ и _ / г 1 + In X.

 

 

 

 

 

 

 

 

 

Л1 h

 

 

 

 

 

 

Множители Лагранжа в T2 и T3 определяются

подстановкой

fl (х) и S (х) в уравнения для

соответствующих ограничений.

Релеевское распределение.

В данном

случае

при

М = 1

(один

признак) имеем:

 

 

 

 

 

х-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

х2а\

h W = — е • ai

Для системы распознавания 2 (табл. 2-1) при оптимизации по критерию минимума средней функции риска имеем:

 

in £l + -L in ( J n - J u

£1

 

 

Т = 20^2

аi 2 l /22-/21 Рг

 

 

Ямин — Pl^ll — Pl^2l — Pi (^11 — ^1 2 ) x

Oo—a21

Pi (^11 — ^12)

/ °2 \ 2

 

P2 (^21 — ^2 2 ) X

. P2 (^22 — ^2l)

\ 0l / -

 

 

a21

 

 

 

 

 

 

2

 

 

 

Oo—О

Pi (hi — ^1 2 )

/ g2 \ 2

1

 

. P2 ( ^ 2 2 ~~ ^2 1 )

\ CTl / .

 

66

 

В случае критерия минимума R при условии р хгг = р 2г2 по­

рог

равен:

_____________________________ __

 

 

^°?°2

(^11 ^1 2 ) ^ 1°2

к

 

а1 -°1

(^2*— 'м) Р*°1 <* — Х) *

Система для определения множителя Лагранжа Я имеет сле­ дующий вид:

1

— Я .

(У2 (Л 7 / + В) + С = 0; а =

 

U

+ Я '

Оо СТ.

1

 

 

 

а

2

 

 

2

л = Pl (/12— /ц)

ВPi (1ц -- /22)

С— Pi/ц — Рг^21-

Распределение Пуассона.

(^22 ^2l) ^2°1

Л 1и ~ 1п) рА _

•?

а\—а21

(^22 ^2l) ^2gl

(*11 “ 'м) Pl°2 _

В данном случае при N = 1

/< W =

J ?

о<5■*<3 °°-

 

Г ( * + 1)

Первый начальный, второй начальный и второй центральный моменты данного распределения равны Я, Я2 + Я, Я. Оптимальный порог имеет вид:

 

 

Т

Яг— Я2

 

 

 

In Яа — 1пЯ2

 

Треугольное распределение.

В данном случае (рис.

3-2) при

N = 1

 

 

 

 

 

f i ( * ) = J -

f 1 -

! * т А Ц ;

f t , - « , < * < & , +

а , ;

a i

\

a i

/

 

 

 

 

«1«2 :

alb

a^a2 -f- 0 ^ 2

 

Ti,:

2V 1

 

 

 

af ± aS

 

 

 

 

 

Я =

-f- 2a^ 2 - ■a2a|ft2-

a\a2b + a,ft —

+ a^a\b

 

 

 

 

 

при определенных ограничениях на pi и 1ц .

3*

67

Равномерное распределение. В данном случае при N = 1

Рис. 3-2. К построению СР, оптимальной для сово­ купности образов, подчиняющихся треугольным рас­ пределениям.

В случае, изображенном на рис. 3-3, имеем a1< t a 2< i a 3<£ai -, при этом

Т\-—й2, Т2—йд;

а3— я2

при Pl = р2, ^22 0 ;

------- —

 

“4 — “1

 

 

1ц — 1ц =

1.

Рис. 3-3. К построению СР,

Рис. 3-4. К построению СР,

оптимальной для совокуп­

оптимальной для совокуп­

ности образов, подчиняю­

ности образов,

подчиняю­

щихся равномерному рас­

щихся

равномерному рас­

пределению.

 

пределению.

В случае, изображенном на рис. 3-4, аг

aj <5

<$ а^; при этом

формулы для порога и средней функции риска равны:

а, — а.

Т = а%\ R = ■

при аналогичных ограничениях на р{ и .

68

3-3. Построение СР, оптимальных для совокупности различных законов распределений вероятностей

Здесь ставится задача отыскать функциональную форму, удачно описывающую совокупность распределений и обладающую достаточно широким охватом встречающихся на практике распре­ делений. В [Л. 37] рассмотрены следующие системы распределений вероятностей: система, основанная на преобразовании Кэптайна— Джонсона, система, основанная на разложении в ряд Грамма— Шарлье (I), система Пирсона (III).

Сравнение показало, что система Пирсона обладает преиму­ ществами по сравнению с остальными, так как позволяет при наи­ большей простоте описания охватить широкий круг известных распределений. Классификация распределений Пирсона исходит из стремления описать совокупность плотностей вероятностей еди­ ным уравнением, в частности в одномерном случае:

 

 

 

 

 

d m

 

х а

 

 

 

 

 

 

 

 

 

 

 

 

dx

 

/(*).

 

 

 

 

(3-1)

 

 

 

 

 

 

 

G(x)

 

 

 

 

 

 

где

а — мода

распределения,

G (х) =

Ь0 +

Ьгх +

Ь2х2 + • • •

 

Обозначая

через

ai

и

 

соответственно

t-e

начальные и

центральные моменты распределений и принимая в G (х) равными

нулю b3, t>4, . . . , можно выразить b0,

blt b2 через

следующим

образом:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Иг (4^2^4—Mi)

a — bi

 

И-з (и-4 ~Ь Зн|)

 

10p2P4 — 13^2

12рз

ЮР2Р4

 

13Р2 ~

 

 

 

 

 

 

 

 

 

 

_

 

2р2р4— З^з,— 6^2

 

 

 

 

(3-2)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10р2р4— 8Рг— 121*1

 

 

 

 

 

 

При

введении

обозначений

Pt = р|/р2,

Рг = Щ/Рз

УРавнение

для f (х'),

где х' =

х — а 1( принимает вид:

 

 

 

 

 

 

 

 

 

 

 

1

df (х')

 

 

 

 

 

 

 

 

 

 

 

 

f (х')

 

dx'

 

 

 

 

 

 

 

 

 

 

У

tA. К Р (Ра + 3) '

2 (5Ра —

бр 4 —

9)

 

 

 

 

 

2 ( 5 Р 2 - б р 1 - 9 ) J

>

 

 

 

 

 

 

р 2 (4р2 -

3P j) +

Vvi V h (Pa + 3) *' +

(2p2 -

ЗРх -

6) *'» (3-3)

из

Критерий

классификации

распределений

Пирсона

вытекает

анализа корней

уравнения:

Ь0 +

Ьгх + Ь2х2 =

0.

Вводится

в рассмотрение следующий коэффициент:

 

 

 

 

 

 

 

К

 

1

 

 

 

M P i + 3)»

 

 

 

 

 

 

° = 4Ь0Ь2

4 (2р2- 3 р 1- 6 ) ( 4 р 2- 3 р 1) '

 

 

Три диапазона изменения Ко дают (по Пирсону) три основных

типа распределений: (I) К о < 0 , (IV) 0<5 Ко<С 1. (VI) К0>

1- Осталь-

69

Соседние файлы в папке книги из ГПНТБ