книги из ГПНТБ / Галушкин, А. И. Синтез многослойных систем распознавания образов
.pdfления входного сигнала системы распознавания образов. Именно представление f, (х) многомодальной функцией позволяет использо вать в режиме самообучения в качестве критерия первичной опти мизации специальную среднюю функцию риска, предложенную М. И. Шлезингером, развитую в [Л. 48] и используемую ниже.
2-6. Оптимальные модели СР в режиме самообучения и при произвольной квалификации учителя
Предположим, что образы сгруппированы вокруг не которых неизвестных центров bftp классов. При введении
в рассмотрение функции расстояния образов от множеств
£-го |
класса р (х, |
ЬАр) = |
|| х — Ь*р ||2 |
условная |
функция |
||||
риска, возникающего |
при |
отнесении |
образа |
х |
к области |
||||
6 р-го |
решения, может |
быть |
представлена в |
следующем |
|||||
виде: |
% = |
|
|
|
|
|
|
|
|
|
J |
IIх — b*p ||2 /(x)dx, |
|
|
|
||||
|
|
s(V(x) >0 |
|
|
|
|
|
|
|
где || — || означает |
норму вектора. Средняя функция |
риска |
|||||||
равна: |
|
|
|
|
|
|
|
|
|
|
Кр |
I |
|
|| х — Ь* |
||2/ (х) dx. |
|
|
(2-24) |
|
|
R -- 2 |
|
|
|
|
||||
|
* P = I S ( * p ) < x » 0 |
|
|
|
|
|
|||
В данном случае область |
&р-го решения |
(6 р = |
1, . . . |
||||||
...,КР), удовлетворяющая условию минимума R , определя |
|||||||||
ется |
следующей системой неравенств: |
|
|
|
|||||
|
S (fep)(x) = IIх —hk' ||2— ||х — bftJ 2> 0 |
|
|
||||||
|
|
( К ф к р = 1. .... К р). |
|
|
(2-25) |
Уравнение, определяющее координаты центров классов, удовлетворяющих условию минимума R, имеет следующий вид:
Ь,
" р
j |
X [ f |
( х ) dx |
|
s (kр ) ( х ) > 0 |
|
i = 1 , |
N-, |
|
|
||
I |
f (х) dx |
|
|
s ( kp ) ( x ) > 0 |
|
|
|
6 Р= |
1 , |
. . . . Кр. |
(2-26) |
Системы (2-25), (2-26) определяют оптимальную модель СР в режиме самообучения. Отметим, что функция потерь
60
р (х, b*p) = ||x —ЬАр ||2 определяет довольно грубую ап
проксимацию распределения в классе. Более точная аппрок симация может быть достигнута усложнением оптимальной модели, достигаемым за счет усложнения функции потерь, например, следующим образом:
или взятием р (х, Ь*р) в еще более сложной форме.
Подобно тому как в режиме обучения вектор-функция (е), . . . , /йр (е)] заменяется функцией I (хк, е) двух
переменных при переходе к случаю континуума решений, в режиме самообучения вводится в рассмотрение функция потерь в виде р [х, b (хА)], где функция b (хк) является либо конечным [Л, 48], либо промежуточным результатом синтеза СР. В случае дискретного множества решений СР средняя функция риска имеет следующий вид:
где |
|
|
|
|
|
|
( |
1 , |
если |
x £ S ^ ( x ) > 0 , |
|||
С(х, *„)= |
|
если |
(*р) |
( х )> 0 . |
||
( 0 , |
x(£S |
|||||
Для континуума решений СР имеем |
аналогично |
|||||
R = JJР [х, |
b (хА)] G(х, х*) f (х) dxdxk, |
|||||
x k x |
|
|
|
|
|
|
где |
М , |
если xk = P(x), |
|
|||
|
|
|||||
(х, х а)— j Q) |
если X k ^ p |
^ |
t |
|||
или, иначе, |
|
|
|
|
|
|
R = [ Р [х, |
b [Р (х)] ] / (х) dx. |
(2-27) |
||||
х |
|
|
|
|
|
|
Выражение для оптимальной модели СР получается отсюда дифференцированием R по хк = Р (х) и b анало гично тому, как это было сделано в режиме обучения
f(x )—'— р[х, Ь(х*)] |
= 0, |
|
дхк |
хк=Р (х) |
|
f ( x ) - £ —p[x, Ь (**)] = |
0, i= 1, • • |
N, |
dbi |
|
|
61
при использовании дополнительных условий Сильвестра для матрицы смешанных производных второго порядка R по компонентам вектора b (хк).
Рассмотрим оптимальную модель |
СР |
с Кр = К реше |
||
ниями при произвольной квалификации учителя Ь. |
||||
Необходимо так определить функцию |
потерь |
I (х, Ь*. , |
||
b, lkpk) , чтобы в режиме обучения |
при |
b = 1 |
/==/* и . |
|
в режиме самообучения |
при b — О |
I = |
р (х, Ь*. |
), а при |
b — — 1 определялся |
функционал |
первичной |
оптимиза |
ции с обратной экстремальностью по отношению к режиму
обучения. Такая |
функция потерь может быть записана |
в следующем виде: |
|
/ (х, b*p, |
b, lkpk) = blkpk + ( \ — Ь2)р(х, bftp). |
Выражение для средней функции риска имеет вид:
R |
к |
I |
2 р Л ( х) ijkpk |
b+ |
2 |
||||
|
* Р = 1 |
о ( * р ) , |
k=l |
|
|
|
s K P ' ( x ) > 0 |
|
|
|
+ |
(1 b2) Ix— bAp |2 / (x)j dx. |
(2-28) |
Оптимальная область kp-ro решения может быть пред ставлена следующим образом:
S ( P\ x ) = g ' (х)—gk ( х )> 0 , ko =£k = 1 , . . . , К п.
Выражение для оптимальных значений Ьк ; имеет вид, аналогичный (2-26).
Выше предполагалось, что квалификация учителя из вестна точно при построении оптимальной модели СР. Не точное знание квалификации учителя имеет место, напри мер, при решении задач медицинской диагностики, когда известно, что квалификация обучающей выборки сделана врачом, имеющим конечную, неточно известную конструк тору СР квалификацию. При этом объективная квалифи кация b учителя определяет вид распределения входного сигнала, а субъективная квалификация учителя Ьс, сооб щаемая системе, определяет вид функционала оптимиза
ции. В случае К = |
Кр классов и решений СР |
|||
|
. |
к |
|
|
R |
V |
{21 [bcPkhkpu ь |
'6с)р(х- Ь* )]х |
|
' |
—J |
* р = 1 |
(х) > О |
|
х /'(х /е — k)} dx. |
62
С учетом выражения для закона распределения вход ного сигнала оптимальная модель СР, в данном случае оп ределяемая системой К неравенств, запишется в следую щем виде:
V lbc ^pklkkp- p klkk^ + ( \ - b l ) Гр(х, Ь*р) - р | х , b / j lj x
fe=l |
р |
V |
р. J |
|
к |
|
|
|
Pk'fk' (хУ°кк' |
|
(2-29) |
|
X -£=*----------------- > о, |
|
|
|
2 Pk'akk’ |
|
|
где kp = 1, |
k'=l |
|
|
. . . , К. |
|
|
В этом случае предполагается, что субъективная квали фикация учителя, сообщаемая СР, не зависит от номера класса.
Из (2-29) следует, что в случае bc = 1 и ] = A lt
где А 1 — единичная матрица (см. § 1-3), имеют дело с ре жимом обучения. В случае Ьс = 0 при произвольных зна чениях ak,k система работает в режиме самообучения. В об
щем случае, когда объективная b и субъективная Ьс квали фикации учителя совпадают, система способна к настройке. В том случае, когда учитель имеет нулевую квалификацию, а систему принуждают работать в режиме обучения, она оказывается неспособной к настройке.
Вышеизложенный материал позволяет следующим образом классифицировать априорную информацию, необходимую для по строения оптимальной модели СР: а) число классов образов (два, К, континуум); б) характер нестационарное™ входного сигнала; в) функция квалификации учителя СР от двух аргументов, являю щихся индексами соответствующих классов; г) функция «собствен ного мнения учителя СР о своих способностях»; это также функция двух аргументов, являющихся индексами соответствующих клас сов; д) априорные вероятности появления классов; е) структура пространства решений СР (два, К р, континуум решений); ж) класс критериев первичной оптимизации СР; з) функция потерь при от несении СР образов одного класса к другому.
Это указывает на значительность объема априорной информа ции, необходимой для построения оптимальной модели СР. Необ ходимо отметить, что иногда отпадает необходимость в некотором виде априорной информации, например в априорных вероятностях появления классов при использовании минимаксного критерия или эмпирического байесовского подхода.
Как было указано во введении, количество априорной инфор мации о виде I' (х/е) определяет пути реализации оптимальных мо делей СР, указанные в табл. В-1.
63
Г л а в а т р е т ь я
ПОСТРОЕНИЕ СР, НАСТРАИВАЮЩИХСЯ ПО РАЗОМКНУТОМУ ЦИКЛУ
3-1. Классификация типовых распределений
Построение СР, настраивающихся по разомкнутому циклу, предполагает априорное знание в той или иной
форме |
общего |
вида |
условных плотностей распределений |
|||||
/' (х/е) |
с |
точностью |
до |
неизвестных |
параметров, |
которые |
||
|
|
|
|
|
определяются в процессе настройки |
|||
х(п) |
|
|
Х к (п ) |
по реализациям входного сигнала. |
||||
|
|
|
= > |
|
Подобное априорное задание /' (х/е), |
|||
|
|
а(п) |
|
естественно, |
ограничивает возмож |
|||
|
|
|
ности СР при распознавании обра |
|||||
|
|
|
|
|
||||
|
|
|
|
|
зов с характеристиками, изменя |
|||
|
I |
=t> |
л |
|
ющимися в широких пределах. |
|||
е(п) |
|
|
|
|
Однако если |
информация |
о |
виде |
t--- |
|
|
условной плотности имеется, |
то ее |
||||
ш |
|
|
||||||
|
|
|
|
|
использование приводит к упроще |
|||
Рис. 3-1. |
Общая струк |
нию реализации СР. При наличии |
||||||
турная схема СР, на |
данной информации и выражения, |
|||||||
страивающихся |
по ра |
описывающего оптимальную |
мо |
|||||
зомкнутому циклу. |
|
дель СР конкретного вида, задача |
||||||
|
|
|
|
|
синтеза СР, |
настраивающихся по |
разомкнутому циклу, заключается в подстановке выраже ния для f' (х/е) в формулу, описывающую оптимальную модель. Общая структурная схема СР, настраивающихся по разомкнутому циклу, представлена на рис. 3-1, где / — блок оценки параметров условных плотностей /' (х/е), II — блок расчета параметров разделяющей поверхности, III — априорная информация о виде условных плотностей.
Решение задачи синтеза СР, настраивающихся по ра зомкнутому циклу, возможно для любой оптимальной ма тематической модели СР и любой функции распределения. Использование информации о типовых распределениях при синтезе СР, по сути дела, есть использование опыта, накопленного математической статистикой при описании существующих в природе процессов детерминированными характеристиками.
Типовые распределения могут быть классифицированы, следующим образом: дискретные (одномерные и много мерные), непрерывные первообразные; непрерывные выбо рочные.
64
Перечень наиболее часто встречающихся распределе ний каждого из классов представлен в табл. 3-1. Конкрет ные выражения для данных распределений можно найти в известной литературе [Л. 16, 18, 25, 27, 32, 34, 37, 38, 39, 43, 45] по математической статистике.
|
|
Т а б л и ц а 3-1 |
|
|
Н епрерывные распределения |
|
|
распределения |
первообразные |
выборочные |
|
|
|||
ГипергеометриРавномерное (прямо- |
X2 — распределение * |
||
ческое |
угольное) |
t — Стьюдента * |
|
Биномиальное |
Симпсона (треугольное) |
||
Пуассона |
Нормальное (Гаусса)* |
у — распределение * |
|
Геометрическое |
Релеевское * |
р — распределение * |
|
Паскаля |
Обобщенное релеевское |
F (или V2) |
|
Пойа |
Коши * |
Уишарта |
|
Полиномиальное |
Экспоненциальное |
г — Ришера * |
|
Пуассона |
Лапласа |
Т2 — Хэттелинга |
|
Многомерное |
Гиперэкспоненциальное |
W — распределение |
|
|
Показательно-степенное |
нецентральное |
|
|
Логарифмическое |
Т — распределение |
|
|
Логнормальное |
S2 — распределение |
|
|
Вейбулла * |
Вилкоксона |
|
|
Арксинус * |
II — распределение |
|
|
Логистическое |
X — |
» |
|
Пойа — Эттли |
R — |
» |
|
Sech 2 |
Г— |
» |
|
|
rxy г ~~ |
>у |
* Распределения |
охваченные системой Пирсон а. |
|
|
3-2. Построение СР, оптимальных для совокупностей образов, распределенных по некоторым типовым законам
Нормальное распределение
В случае нормальных распределений
fi (х) |
1 |
ехр — — |
( х - |
mi)T Ul I (x ~ - m■>] |
|
||||
JL |
|
2 |
v |
|
(2л;) 2 |
| U t | |
|
|
|
выражение для оптимальной разделяющей поверхности (СР двух классов образов на два р<ешения) имеет следующий вид:
S (х) = хт( и ^ ' - и ^ 1) х + 2хг ( l/f 'm , — |
m2) — Го = 0. |
3 З а к а з № Э75 |
65 |
Здесь индекс Т означает операцию транспонирования вектора х.
Пороги Т0 для критериев: минимума средней функции риска |
R (Г j), |
|||||||||||
минимума R при условии |
р ггх — р 2г2 (Т2), |
минимума R при ус |
||||||||||
ловии р 1г1 = а |
|
(Т3) — имеют следующий вид: |
|
|
|
|||||||
|
|
|
In |
Ui 1 |
+ |
|
|
т/ 7 — 1, |
|
|
||
|
|
|
U, I |
|
1ш1 — m2 U2 |
‘т 2 + |
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
+ 2 In - ^ + 2 In /и ~ /и- |
|
|
|
|
|||||
|
|
|
|
|
Pl |
|
/ц — //2 |
|
|
|
|
|
Т2 = |
In |
|
I U l |
-f |
Ul 1Ш1— 1П2 |
U2 }m2 + 2 \ n |
P2 -f |
|
||||
|
|
|
I/. |
|
|
|
|
1 — X _ |
|
Pi |
|
|
|
|
|
|
2 1 n ./22- / 21_ |
In |
|
|
|
||||
|
|
|
|
|
^li — hi |
1 +Я, ’ |
|
|
|
|||
|
|
|
|
|
|
|
|
|
||||
T„ = |
In |
' |
i'll |
, T , t- |
1, |
|
|
|
2 In |
+ |
|
|
|
+ шГУ, |
‘m, — nij U2 ‘m + |
|
|||||||||
3 |
|
I и | |
1 |
1 |
1 |
J |
г |
2 |
|
Pi |
|
|
|
|
|
|
+ 2 1 п-/ и _ / г 1 + In X. |
|
|
|
|
||||
|
|
|
|
|
Л1 — h |
|
|
|
|
|
|
|
Множители Лагранжа в T2 и T3 определяются |
подстановкой |
|||||||||||
fl (х) и S (х) в уравнения для |
соответствующих ограничений. |
|||||||||||
Релеевское распределение. |
В данном |
случае |
при |
М = 1 |
(один |
|||||||
признак) имеем: |
|
|
|
|
|
х- |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
х2а\
h W = — е • ai
Для системы распознавания 2 (табл. 2-1) при оптимизации по критерию минимума средней функции риска имеем:
|
in £l + -L in ( J n - J u |
£1 |
|
|
|
Т = 20^2 |
аi 2 l /22-/21 Рг |
|
|
|
Ямин — Pl^ll — Pl^2l — Pi (^11 — ^1 2 ) x
Oo—a21
Pi (^11 — ^12) |
/ °2 \ 2 |
|
P2 (^21 — ^2 2 ) X |
. P2 (^22 — ^2l) |
\ 0l / - |
|
|
|
a21 |
||
|
|
|
|
|
|
|
2 |
|
|
|
Oo—О |
Pi (hi — ^1 2 ) |
/ g2 \ 2 |
1 |
|
|
|||
. P2 ( ^ 2 2 ~~ ^2 1 ) |
\ CTl / . |
|
66
|
В случае критерия минимума R при условии р хгг = р 2г2 по |
||
рог |
равен: |
_____________________________ __ |
|
|
|
^°?°2 |
(^11 ^1 2 ) ^ 1°2 |
к |
|
а1 -°1 |
(^2*— 'м) Р*°1 <* — Х) * |
Система для определения множителя Лагранжа Я имеет сле дующий вид:
1 |
— Я . |
(У2 (Л 7 / + В) + С = 0; а = |
|
U |
+ Я ' |
Оо СТ. |
|
1 |
|
||
|
|
а |
2 |
|
|
2 |
л = Pl (/12— /ц)
В—Pi (1ц -- /22)
С— Pi/ц — Рг^21-
Распределение Пуассона.
(^22 ^2l) ^2°1
Л 1и ~ 1п) рА _
•?
а\—а21
(^22 ^2l) ^2gl
(*11 “ 'м) Pl°2 _
В данном случае при N = 1
/< W = |
J ? |
о<5■*<3 °°- |
|
Г ( * + 1) |
’ |
Первый начальный, второй начальный и второй центральный моменты данного распределения равны Я, Я2 + Я, Я. Оптимальный порог имеет вид:
|
|
Т — |
Яг— Я2 |
|
|
|
|
In Яа — 1пЯ2 |
|
||
Треугольное распределение. |
В данном случае (рис. |
3-2) при |
|||
N = 1 |
|
|
|
|
|
f i ( * ) = J - |
f 1 - |
! * т А Ц ; |
f t , - « , < * < & , + |
а , ; |
|
a i |
\ |
a i |
/ |
|
|
|
|
«1«2 : |
alb |
a^a2 -f- 0 ^ 2 |
|
Ti,: |
2V 1 |
|
|
||
|
af ± aS |
|
|||
|
|
|
|
||
Я = |
-f- 2a^ 2 - ■a2a|ft2- |
a\a2b + a,ft — |
+ a^a\b |
||
|
|
|
|
|
при определенных ограничениях на pi и 1ц .
3* |
67 |
Равномерное распределение. В данном случае при N = 1
Рис. 3-2. К построению СР, оптимальной для сово купности образов, подчиняющихся треугольным рас пределениям.
В случае, изображенном на рис. 3-3, имеем a1< t a 2< i a 3<£ai -, при этом
Т\-—й2, Т2—йд; |
а3— я2 |
при Pl = р2, — ^22 —0 ; |
------- — |
||
|
“4 — “1 |
|
|
1ц — 1ц = |
1. |
Рис. 3-3. К построению СР, |
Рис. 3-4. К построению СР, |
||
оптимальной для совокуп |
оптимальной для совокуп |
||
ности образов, подчиняю |
ности образов, |
подчиняю |
|
щихся равномерному рас |
щихся |
равномерному рас |
|
пределению. |
|
пределению. |
|
В случае, изображенном на рис. 3-4, аг |
aj <5 |
<$ а^; при этом |
формулы для порога и средней функции риска равны:
а, — а.
Т = а%\ R = ■
при аналогичных ограничениях на р{ и 1ц .
68
3-3. Построение СР, оптимальных для совокупности различных законов распределений вероятностей
Здесь ставится задача отыскать функциональную форму, удачно описывающую совокупность распределений и обладающую достаточно широким охватом встречающихся на практике распре делений. В [Л. 37] рассмотрены следующие системы распределений вероятностей: система, основанная на преобразовании Кэптайна— Джонсона, система, основанная на разложении в ряд Грамма— Шарлье (I), система Пирсона (III).
Сравнение показало, что система Пирсона обладает преиму ществами по сравнению с остальными, так как позволяет при наи большей простоте описания охватить широкий круг известных распределений. Классификация распределений Пирсона исходит из стремления описать совокупность плотностей вероятностей еди ным уравнением, в частности в одномерном случае:
|
|
|
|
|
d m |
|
х — а |
|
|
|
|
|
|
|
|
|
|
|
|
|
dx |
|
/(*). |
|
|
|
|
(3-1) |
|
|
|
|
|
|
|
|
G(x) |
|
|
|
|
|
|
|
где |
а — мода |
распределения, |
G (х) = |
Ь0 + |
Ьгх + |
Ь2х2 + • • • |
||||||||
|
Обозначая |
через |
ai |
и |
|
соответственно |
t-e |
начальные и |
||||||
центральные моменты распределений и принимая в G (х) равными |
||||||||||||||
нулю b3, t>4, . . . , можно выразить b0, |
blt b2 через |
следующим |
||||||||||||
образом: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Иг (4^2^4—Mi) |
a — bi |
|
И-з (и-4 ~Ь Зн|) |
|||||||||
|
10p2P4 — 13^2 |
12рз |
ЮР2Р4 |
|
13Р2 ~ |
|
||||||||
|
|
|
|
|
||||||||||
|
|
|
|
_ |
|
2р2р4— З^з,— 6^2 |
|
|
|
|
(3-2) |
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
10р2р4— 8Рг— 121*1 |
|
|
|
|
|
||||
|
При |
введении |
обозначений |
Pt = р|/р2, |
Рг = Щ/Рз |
УРавнение |
||||||||
для f (х'), |
где х' = |
х — а 1( принимает вид: |
|
|
|
|
|
|||||||
|
|
|
|
|
|
1 |
df (х') |
|
|
|
|
|
|
|
|
|
|
|
|
|
f (х') |
|
dx' |
|
|
|
|
|
|
|
|
|
|
У |
tA. К Р (Ра + 3) ' |
2 (5Ра — |
бр 4 — |
9) |
|
|||||
|
|
|
|
2 ( 5 Р 2 - б р 1 - 9 ) J |
> |
|
|
|
|
|
||||
|
р 2 (4р2 - |
3P j) + |
Vvi V h (Pa + 3) *' + |
(2p2 - |
ЗРх - |
6) *'» (3-3) |
||||||||
из |
Критерий |
классификации |
распределений |
Пирсона |
вытекает |
|||||||||
анализа корней |
уравнения: |
Ь0 + |
Ьгх + Ь2х2 = |
0. |
Вводится |
|||||||||
в рассмотрение следующий коэффициент: |
|
|
|
|
|
|||||||||
|
|
К |
|
1 |
|
|
|
M P i + 3)» |
|
|
|
|
||
|
|
° = 4Ь0Ь2 |
4 (2р2- 3 р 1- 6 ) ( 4 р 2- 3 р 1) ' |
|
||||||||||
|
Три диапазона изменения Ко дают (по Пирсону) три основных |
|||||||||||||
типа распределений: (I) К о < 0 , (IV) 0<5 Ко<С 1. (VI) К0> |
1- Осталь- |
69