книги из ГПНТБ / Галушкин, А. И. Синтез многослойных систем распознавания образов
.pdfи отдельно для совокупностей образов первого и второго класса
N |
N |
|
|
а,'rig: * -J |
|
h i y)dy\ |
|
—П 2 |
а‘У‘~ а°1 — 1 |
||
— ОО |
|
|
(5-10) |
N |
|
|
|
|
|
|
|
ar2g=S' ' ’I |
— F ( 2 |
а1У1~а 0) + 1 |
h (У) ^У- |
Из данных выражений достаточно просто получить со ответствующие выражения для частных случаев, а именно:
1 |
при |
g > A a; |
F(g) = sign g\ F (g) = 0 при |
—A a < g < A a ; |
|
— 1 |
при |
— Aa; |
1, |
g > A a; |
|
f te ) = |
A a < g < A a ; |
— 1, g < — Aa.
Анализ разомкнутого ЛПЭ с К решениями
Совместный закон распределения вероятностей вход ного сигнала системы распознавания К классов образов в режиме обучения имеет вид:
( Pifi(x) при е = 1,
fix, е )= ..................................
( Рк/к (х) при е = К.
В данном случае
**(") = fep ПРИ X -i,k p<g(n)<akp,kp+l
{а к , к +1= 0°* a oi = — °°)-
Для совокупности образов К -го класса
N—1
130
Распределение аналоговой ошибки СР в данном случае будет:
|
|
|
N—1 |
ft= l |
ft=l |
N |
—оо |
k - f a0— xa |
2 |
_ |
a |
X * 1 • • • xn - V |
xt ± ) dxM-i ■■■dxx |
||
N |
£=1 |
|
N I |
Распределение дискретного выходного сигнала СР рас сматриваемого типа для совокупности образов k-то класса может быть получено в следующем виде:
|
f |
|
= ф ' |
°k |
ft |
1 |
аП |
|
|
|
а |
N—1 |
|
|
|
* |
р ’ р |
1 ^ 0 |
• |
|
|
|
|
|
|||||
|
' |
V |
|
aN |
|
аN |
|
|
аN |
|
|
|||
|
k X u |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
-Ф |
akD~i. к ,.+ ао _ |
д. |
|
лЫ—1 |
|
при |
xk= kp . |
||||||
|
|
а N |
|
|
N |
|
аN |
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
Здесь, как и ранее, |
|
|
|
|
|
|
|
|
|||||
|
|
|
фь I |
|
|
|
о |
а, |
|
|
аN - 1 |
|
|
|
|
|
|
|
|
|
N |
|
N |
|
|
|
а. |
|
|
|
|
|
|
|
|
|
|
|
|
N |
|
|
||
|
N—1 |
аи |
ъ |
! a . |
N—1 |
„ |
|
|
|
|
|
|
||
|
Р Ь |
* Р |
0 |
V |
|
1 |
|
|
|
|
|
|
||
|
оо |
aN |
|
i = l |
' aN |
|
|
|
|
|
dyN. |
|||
= |
f • |
• • |
f |
|
f |
|
|
fk(yi, ■■ |
|
|
y N)dyi |
|||
|
Отсюда распределение дискретной ошибки |
|
|
|||||||||||
|
|
|
|
ф . ' “ft-ft", fc-ft"+ 1+ |
С0 |
а""1 |
|
|
*N—1 |
|||||
|
|
|
й=1 |
|
|
|
|
N |
°N |
|
|
N |
||
- |
ф * |
ft—ft"—1, ft-ft" + |
a0 |
°1 |
’ |
*N—1 |
|
при |
xg — k". |
|||||
|
|
*N |
|
’ |
a |
a. |
|
|
||||||
|
|
|
|
|
|
aNn |
|
*N |
|
|
|
|
|
Выражения для моментов r-го порядка распределений аналоговой и дискретной ошибок СР могут быть представ лены в виде:
|
|
|
N |
К |
г |
|
оо |
2 |
Р, 2 |
4 ” (a0+ / i)" ( - 1r-'"J - . . J X |
|
ft = 1 |
т = 0 |
|
—оо |
|
|
N |
|
|
X |
S |
fk{y)dy\ |
|
2 a^< |
||
|
|
1=1 |
|
131
« .*= i |
( * т £ / > |
|
Фь |
k—k", k—k"4 |
1 + ап |
|
||
|
|
аN |
|
|
||||
k’=\~k |
Л =1 |
|
|
|
N |
|
||
* N— 1 |
— Фь |
аk—k"—\, k—k" ' |
|
N — 1 |
||||
°Л/ |
|
|
аN |
|
N |
N |
|
|
|
|
|
|
|
||||
Выражение для г-го момента распределения аналоговой |
||||||||
ошибки рассматриваемой СР имеет следующий вид: |
|
|||||||
|
N |
|
К |
|
|
|
|
|
1 |
оо |
|
|
|
|
k -f O0— |
X a |
|
|
|
|
|
|
||||
а .га а f |
■ ' ' K |
I W |
* * 1- • • • ’ XN - |
|
||||
N |
—оо |
k—\ |
|
|
|
N |
|
|
|
N - |
1 |
|
|
|
|
dXr |
|
|
2 |
|
JV/ |
|
••• |
|
||
|
(=1 |
|
|
|
|
|||
После замены переменных xx = yx\ . . . xN_ { — yN_ v |
||||||||
|
k J |
ЛГ__» |
|
ЛГ—1 |
|
|
|
|
получаем: |
|
|
|
|
i=i |
|
|
|
|
|
|
|
|
|
|
|
|
к |
N |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
a. |
|
— 2 |
^ + ^ + ao) |
fk(yi> ■• •> |
Ул/) X |
|||
fe=l |
|
|
1=1 |
|
|
|
|
|
|
|
|
X d y N . . . |
dyy, |
|
|
||
|
|
N |
|
|
|
|
|
|
« „ = £ p J “ - I V C ( a 0 + ^ ( - i r mx |
|
|||||||
/г=1 |
—oo |
m =0 |
|
|
|
|
||
|
|
/ |
ЛГ |
\ r—tn |
f k (y)dy. |
|
||
|
X ( V |
alyi ) |
|
Анализ CP с нелинейной разделяющей поверхностью
В гл. 4 было указано, что СР с нелинейной разделяющей по верхностью может быть представлена эквивалентной СР, состоящей из безынерционного слоя нелинейных преобразований и ЛПЭ. Если слой нелинейных преобразований формирует из компонент вектора
( Х 1 |
kn ) компоненты вектора |
- |
XN ’ |
»i. tat’ |
' ' ' |
|
{%, ...лг})- |
N |
И |
2- |
• = |
|
|
|
|
!1.... V |
= X; ■ . . . ■ xt , то можно показать, что плотность распределения
выходного сигнала данного слоя может быть представлена через
132
плотность распределения f, (х) входного сигнала следующим обра зом:
/'<*') = /'(*. а |
д |
.................... |
|
д ) |
|
/ (х) для всех i, |
k, |
(k = l .......... |
г), |
V |
|
при которых z, |
,■ = |
х, , . . |
|||
|
|
‘i.... |
lk |
h |
|
О для всех i, |
k, |
при которых |
|
||
\ .... |
|
|
■ХСk |
(6=1, |
..., г ) , |
Выражение для второго момента распределения дискретной ошибки рассматриваемой нелинейной СР имеет следующий вид:
a2g = 4 [Ф2р2 + |
Pi |
®iPi] ’ |
|
где |
|
|
|
ф г = J • • • ............................ |
|
|
n* |
(*') dx и S |
[ х ] |
= - а 0 + 2 aixr |
|
S ’(x')< 0 |
|
|
t=l |
|
|
|
N |
Необходимо учесть, |
что выражение |
S (х) = —а0 + 2 а£х£ = О |
|
|
|
|
i=l |
определяет линейную разделяющую поверхность в исходном про странстве признаков. Определим, как изменяется вид разделяющей поверхности в исходном пространстве признаков при увеличении порядка г нелинейного преобразования. В случае преобразования второго порядка:
|
, / £(х) |
при |
|
Ф£ = 1 • • • I |
о |
при г. ■ ф х .х . ^ |
= |
s'(x')<0 |
( и |
“ Ри zi,«j ^ |
|
|
|
= J |
•• ‘ J fi(x) |
N |
|
|
|
|
|||
|
|
П 6 [zCiii — х( х1а) dx[ |
■■ ■ dxN |
||||||||
|
|
|
s'(*’)<0 |
|
t,=l |
|
|
|
|
||
|
|
|
|
|
|
t2=l |
|
|
|
|
|
|
|
|
|
|
N * |
|
|
|
|
|
|
Ф; |
|
N |
I • |
• • |
J |
/iW |
п |
8 |
( ^ - * л ) х |
||
|
|
|
|
N |
|
|
|
£,=1 |
|
|
|
|
|
- |
flo+ 2 |
аЛ + |
2 |
|
a u , z u t < 0 |
|
h = l |
|
|
|
|
|
(=1 |
£,=1 |
|
|
|
|
|
||
|
|
|
|
|
Ц=1 |
|
|
ЛГ |
|
|
|
|
|
|
|
JV |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
X dx |
X |
■ ■ |
■ dx |
U |
dz . . = |
I |
••• |
J |
fx (x) dx. |
||
|
|
iVtl==l |
Mi |
|
N |
N |
|
|
|||
|
|
|
|
i-2-1 |
|
|
- % ■ |
2 aixr 2 |
aMA*£3<0 |
||
|
|
|
|
|
|
|
i= l |
£i=l |
|
£>=1
133
Отсюда следует, что в случае г = 2 эквивалентная разделяю щая поверхность в исходном пространстве признаков будет поверх ностью второго порядка с коэффициентами, однозначно определяе мыми по коэффициентам выходного ЛПЭ СР со слоем нелинейных преобразований. В случае преобразования г-го порядка:
N
гN
у
Этим доказывается эквивалентность (по критерию минимума средней функции риска) представления СР с нелинейной разделяю щей поверхностью в виде блока нелинейных преобразований и ЛПЭ.
5-2. Выбор функционала вторичной оптимизации
Рассмотрим функционалы вторичной |
оптимизации, |
связанные |
с моментами распределения аналоговой |
и дискретной |
ошибок СР |
с двумя решениями (два класса образов). Общие требования к функ ционалу вторичной оптимизации СР были отмечены в введении. Параметры функционала, необходимые для организации итерацион ной процедуры поиска, должны достаточно легко измеряться и оцениваться в системе; функционал должен иметь сравнительно простой вид относительно настраиваемых коэффициентов СР и минимальное значение при тех же значениях настраиваемых пара метров СР, при которых соблюдается (при заданной структуре разомкнутой СР и некоторой априорной информации) экстремум некоторого функционала первичной оптимизации.
Анализ выражений (5-5) и (5-6) для моментов распреде ления аналоговой и дискретной ошибок СР позволяет сде лать следующие выводы [Л. 62, 63]:
1. Моменты нечетного порядка распределений аналого вой и дискретной ошибок СР в режиме обучения не могут быть использованы в качестве функционалов вторичной оптимизации. Возможно использование в качестве таких функционалов модулей указанных моментов.
2. Моменты четного порядка указанных распределений могут быть использованы в качестве функционалов вто ричной оптимизации, причем в случае моментов распреде ления дискретной ошибки нет смысла в рассмотрении мо
ментов выше второго порядка ввиду их пропорционально сти a 2g.
3. Основной целью исследования в данном параграфе является выяснение того, какому критерию первичной оп тимизации и какой априорной информации о характери стиках входного сигнала и матрице потерь соответствует
134
минимизация выбранного функционала вторичной оптими зации.
4. Исследование выражений для | а 1а| и а 2а (ЛПЭ) по казывает, что минимизация данных функционалов вторич ной оптимизации эквивалентна минимизации средней функ ции риска при учете только моментов первого порядка распределений совокупностей образов того или иного класса. При этом считаем, что априорные вероятности по явления образов из различных классов равны и имеет ме сто следующее условие (/22—/21) = (1ц—112).
Основой методов настройки ЛПЭ по замкнутому циклу, пред ставленных в работах Уидроу (системы под названием «Адалин»), является минимизация второго момента распределения анало говой ошибки. Здесь обсуж дается утверждение Уидроу, высказанное им в одной из первых работ этого цикла:
«Используя некоторые гео метрические аргументы, можно показать, что средний квадрат
дискретной ошибки есть моно |
|
||
тонная функция среднего квад |
Рис. 5-1. Сравнение критериев |
||
рата аналоговой ошибки и ми |
|||
минимума a 2a и a 2g. |
|||
нимизация их обоих |
есть ми |
||
нимизация средней |
функции |
|
|
риска». |
|
|
Это является неверным, хотя бы потому, что минимизация средней функции риска для нормальных распределений с различ ными ковариационными матрицами достигается с помощью СР с раз деляющей поверхностью второго порядка. Рассмотрим случай, когда [Л. 62 ] СР есть ЛПЭ. В этом случае совпадение оптимальных решений по критериям минимума oc2g (средней функции риска при определенных ограничениях на pi и /,-у) и a 2a достигается лишь при равных ковариационных матрицах, соответствующих образам первого и второго класса.
Проведем исследование экстремальных свойств моментов вто рого порядка аналоговой и дискретной ошибки одномерного ЛПЭ с целью выяснения разницы в оптимальных решениях по критериям минимума ос2а и a 2g.
Исследование проводим по следующему плану: |
|
а) Вычисляем значения коэффициентов а0 и а^, |
минимизирую |
щих а2а при заданных величинах au , a12, р21, ц22. |
|
б) Вычисляем значения коэффициентов а0 и aj, |
минимизирую |
щих a 2g. |
|
в) Вычисляем величину Aa2g = а2я (а0> fli) |
— a2 g(a0 ' ai)’ |
которая служит оценкой отклонения оптимальных решений по
критериям минимума а„а и a 2g; на рис. 5-1 построена зависимость
1
AR = Aa2g — (|л21 ) для одного частного случая (а1х = 0, а 12 = 2,
135
fi22 — 2). Ограниченность критерия минимума а 2а особенно хорошо иллюстрируется на примере' многомодальных распределений (рис.
5-2), где показаны в одномерном случае «пороги» CP aQ и а0,
оптимальные по критериям минимума а 2а и a 2g (заштрихованная площадь — приращение AR при переходе от критерия минимума a 2g к критерию минимума a 2a).
5. Исследование выражения для модуля первого мо мента распределения дискретной ошибки СР в данном слу чае
I a ig! — 2 1р2Фа— Pi + Р1Ф1 1
показывает, что минимизация | a lg | приводит к удовлетво рению критерия минимума средней функции риска при ус-
Рис. 5-2. Сравнение критериев минимума <х2а и a 2g для многомодальных распределений.
ловии равенства составляющих средней функции риска для обоих классов и следующих ограничениях на коэффи циенты матрицы L
^22--121—^11 ^12•
6. Исследование выражения для второго момента рас
пределения |
дискретной |
ошибки |
a 2g — 4 |
[Р2Ф 2 + |
+ Р х—Р 1Ф 1 ] показывает, |
что минимизация а 2^ |
приводит |
к удовлетворению критерия минимума средней функции риска при аналогичных указанным выше ограничениям на коэффициенты матрицы.
7. Дополнительные ограничения, связанные с конечным
числом |
учитываемых моментов при |
рассмотрении |
| a la | и |
a 2a, а |
также связанные с равенством р 1г1 = р 2г2 при рас |
||
смотрении | a lg | делают указанные |
функционалы |
одно |
экстремальными при ограниченной структуре разомкнутых СР (ЛПЭ) и многомодальных распределениях входного сигнала. Функционал a 2g при ограниченной структуре СР может быть многоэкстремальным, т. е. его минимиза ция приводит к обеспечению в общем случае только локаль
136
ного |
минимума средней |
функции |
риска при /22—121 = |
=“ ^11 |
^12* |
структуре |
разомкнутой СР, т. е. |
8. |
При произвольной |
при произвольном виде разделяющей поверхности, в со
ответствии |
с |
результатами § 5-1 для случая |
bx = b2 — 1, |
|||
ci г—с 2 = |
1 |
выражение |
для a 2g будет |
иметь |
следующий |
|
вид: |
|
a 2g = 4 [р2Ф2 + Pi— Р1Ф1]! |
|
|
||
где |
|
|
|
|||
|
|
N |
|
|
|
|
|
|
|
|
|
|
|
ф* = |
Ф* [S (х)] = |
J • ■■J fk (х) dx, |
k = |
1, |
2. |
|
|
|
|
S(x)< О |
|
|
|
Здесь функционал a 2g пропорционален средней функ ции риска при произвольной структуре разомкнутой СР (два класса образов, два решения) и при известных ограни чениях на коэффициенты матрицы L. Необходимость в ана лизе СР с конкретной структурой возникает, так же как и выше, в случае СР с нелинейной разделяющей поверхностью для определения вида разделяющей поверхности, реализуе мой СР с данной структурой в исходном пространстве при знаков.
9. Рассмотрение указанных выше функционалов вто ричной оптимизации СР представляет интерес, несмотря на указанные ограничения, так как приводит к достаточно простой реализации соответствующих СР, настраивающихся по замкнутому циклу, а также может быть полезно при по строении СР с переменной структурой.
5-3. Формирование функционалов вторичной оптимизации, соответствующих заданному критерию первичной оптимизации
В связи с изложенным ранее (п. 8 § 5-2) формирование функционалов вторичной оптимизации производится для разомкнутых СР с произвольной структурой (К р = К = 2), т. е. с разделяющей поверхностью произвольного вида.
а) Критерий минимума средней функции риска
Основной вопрос здесь заключается в выборе преобра зования дискретной ошибки СР xg (п) = е (п) — xk (п) для получения дискретной ошибки х g (п), второй момент
распределения которой был бы равен средней функции риска. Будем осуществлять указанное преобразование
137
следующим |
образом: |
умножаем |
xg (п) на А, если е (п) = |
|||
= — 1, на В — если е (п) = + |
1; затем к результату при |
|||||
бавляем |
С. |
Найдем |
параметры |
данного |
преобразования |
|
(АВС), так чтобы второй момент распределения |
f ■lx ') |
|||||
был равен |
R: |
|
|
|
|
|
|
|
Pj (i — 0>i) при xg = —2А + С, |
|
|||
|
^ К ) = р!Ф! + (1 — ф 2) Р2 ПРИ Xg = C’ |
(5-П) |
||||
|
|
р2Ф2 при Xg= 2 В + С ; |
|
|
||
a 2g = P i (2А — С)2 + Р г С 2 + р г Ф г (4А С— 4А 2) -(- |
|
|||||
|
|
+ |
р2Ф2(4ВС + 4В2); |
|
(5-12) |
|
R = |
P 1I 12 + P 2I22 |
Pi (^и — ^1 2 ) Ф1 + Р2Ф2 (^21 — 4г) • |
||||
Отсюда следуют выражения для искомых параметров |
||||||
преобразования: |
|
|
|
|
||
|
|
С = |f р2/22 + 2pi/i2— Pi^h ; |
|
|
||
^ |
Р2 Сп~Ь ^22) ~f~ ^ia (Pi —Ра) ~Ь ~УР2^2 2 ~Ь |
—Pi^n . |
(5-13) |
|||
В: |
/21 — Pi hi 4~ 2pi/i2 —Pilu |
~VP2^22 ~E 2pili2 —PiCi |
||||
|
|
|
|
|
|
Если искать параметры А, В, С, обеспечивающие совпа дение a 2g и R с точностью до постоянного слагаемого (px/12 + р 2^22), то в данном случае
С = 0; А = ~ - Y I12' -/11 |
В — |
^21— ^22 - (5-14) |
Возможно применение следующего преобразования (Z) дискретной ошибки
z12 |
при |
xg = —2, |
е = — 1, |
|
zn |
при xg = 0, |
е = — 1, |
||
xg(n)-~ |
при xg= 0, |
8 = + 1 , |
||
z22 |
||||
z21 |
при xg — 2, |
8 = 1 . |
||
В этом случае |
|
|
|
|
Pi (1— ■ф ,) |
при * ; = z |
|||
|
|
и |
“ С“ |
"g —~12’ |
и К ) = ? 1Ф 1 |
|
при x'g = z n, |
||
ф 2) |
|
(5-14а) |
||
р2(1 |
при *g = Z22’ |
|||
Р2Ф2 |
|
при xg= Z21 |
138
и условия совпадения а 2е и R записываются в следующем виде:
|
zV - ] / V ~ |
- |
|
(5-15) |
б) |
Критерий минимума R |
при |
условии |
равенства |
Р К 1 = |
Р К 2. |
|
|
р 2г2, т. е. |
Минимизация при условии равенства р хгх = |
||||
при условии |
|
|
|
|
|
Pilu®i ~Ь Pihz (1 —Ф1) — |
— |
|
|
|
- р 2/22( 1 - Ф 2) = 0, |
|
(5-16) |
эквивалентна минимизации функционала Лагранжа:
R* = [Р1/Х1Ф1 + Pi^i2 (1 — Ф1)] (1 + ^) +
+ [Рг^Фг + Рг^гг (1 —Фг)1 (1— ^)- |
(5*17) |
Совпадение R *и a 2g обеспечиваетсяпри следующих параметрах описанного выше преобразования (А, В, С):
С = ] / p2l22(1 — ^) + 2Px/12 (1 + Я)—Pi/ц (1 + к );
А = ~ |
У |
(1 + ^)[р2^11+ (Pi-- Р2) 7l2] + Рг^22 (1 ---+ |
+ |
У |
Рг^22 (1 — + 2pi/i2 (1 + К) — Pi/ц (1 + А,); |
В=— [У(1--(^21------Pl^22) + (1 +^) (2Pl/l2---Pl/xl)---
—У Рг^22 (1 —Ц+ 2pi/i2 (1 +Я) — P1I11 (1 + Я )|.
(5-18)
Левая часть (5-16) есть градиент R* по к. В СР эту ве личину можно оценивать как первый момент преобразо ванной (А х, Лх> Сх) дискретной ошибки, причем параметры преобразования А х, В и Сх получаются следующим обра зом. Из (5-12) следует, что
a i g — Pi(Cx— 2Лх) + С хр 2 рхФх 2 А 1 + р2Ф2 2 В х . (5-19)
Сравнение a lg |
и |
левой части (5-16) показывает, что |
А х = /u ~ /l2 |
; |
Вг = -/и ^ -/и- ; Cx= Px/xi- P 2 /22.(5-20) |
139