Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Галушкин, А. И. Синтез многослойных систем распознавания образов

.pdf
Скачиваний:
11
Добавлен:
22.10.2023
Размер:
12.65 Mб
Скачать

Плотность

распределения

величины

Л0

( л +

1)

будем искать

в виде

 

 

 

оо

 

 

 

 

 

 

 

 

 

 

 

 

x(n)]dx(n) =

 

/[a0(n+l)] =

J

/[а0(я + 1),

 

 

= J f[a0 (n +l) lx (n) ]f[ x(n) ]dx( n) .

(8-5)

 

 

— ОО

 

 

 

 

 

 

 

 

Для

определения

f

[а0

( я -f- 1)/дс (л) J

нам

понадобится

Ф [z (я) /а0 (л),

х (л) ]:

 

 

 

 

 

 

 

Ф [z (л)/а0 (л), х (л)]

=

J

 

I f [xg (л),

у (п)/а0(я), л: (я)]Х

 

 

 

Xg(n) y{n)<z{n)

 

 

 

 

 

 

 

 

X dxg (я) dy (л);

 

 

 

 

 

 

fi [Xg (n),

y(n)/x(n), a0(n)] =

 

 

=

fi l*g (n)ly (n),

x (л),

a0 (л)] f3 [у (n)/x (л),. а0(л)];

fa [У (n)/x (л),

а„ (я)] =

б {{/ (л) — ср (л) — а0(л)]};

fa[xg (n)ly(n),

х(п),

а0 (п)] = f2[xg (n)/x (п),

а0 (л)],

так как случайная величина ф является определенной функцией

случайной величины X и

А0:

 

 

fa [xg (п)/х (л), а0(л)] -= ft, {xg (л) -|- F [х (л) — а0 (п)]/х (л)};

 

U (п)/х (л),

а0 (л)] = /4 [е (п)/х (л)].

Отсюда

 

 

 

 

/2 [хе(п)/х (л), а0 (л)] =

f\ [xg(n) + F \x

(л ) а0 (п)]/х (л)},

где

— новая функция, в которой ай (л) — фиксированная вели­

чина.

результате получаем:

 

 

В

 

 

/1 \xg (п), У (п)/х (л), а0 (л)]

= f \ [ x g (л) + F

(л) — aQ(л)] (л)) X

 

X б [г/ (я) — ф (g (я))]-

 

 

Определим:

 

 

 

 

Ф [г(л)/л0(л), х{п)\ = j

J'

f X

 

 

X g (i) г / ( л ) < г ( л )

X [Xg (л), у (л)/а0 (л), х (л)] da0 dx.

Можно показать, что

Ооо

Ф [г (п)/а0 (л), х (л)] = J J / 4 {xg (л) + F [х (л) —

—оо z(ri)

Им

а0(п)]/х(п)} 6 (л) — ф [х (л)—а„ (л)]} dy (л) dxg (л) +

 

2(П)

О 0

1 / ( Л )

+ J

J ^4 lxg(n) + F [х(л) — «о (”)]/х (Л)} X

О —оо

X б (л) — Ф[х (л) — а0 (л)]) ей/ (я) dxg (л).

210

Отсюда плотность вероятности величины L (п) относительно

величин X (п) и

(п)

f [г (п)/а0 (я), д: (я)] = -^ -Ф [г (п)/а0 (я), х (я)] =

 

OZ

 

=

-

1

 

 

У(п)

 

 

 

 

 

 

 

 

 

 

-io У(п)

 

 

 

 

 

 

 

 

 

 

X S (я) — rp (g (n))] dy (я) +

00

 

1

 

 

 

 

 

f — — X

 

 

 

 

 

 

 

 

 

 

 

 

о У(п)

 

 

 

 

X/I

г (я)

+ F U (я) — «о (я)]/лг(я)| X

 

 

 

 

 

 

 

У (я)

 

 

 

 

 

 

 

 

 

 

 

Хй !// (Я) — ф (я)—я„ (/1)1 } dy (я) =

[

— —

/ 4

X

 

 

 

 

 

 

 

 

 

0 0

I («)

I

 

 

х

J- -\-F[x (я) — а0

(я)]/лг (я)j 6

(я) — ф (я) — а0

(я)]} X

 

 

 

X dy (я) =

^

 

 

 

Г*

 

 

 

 

 

 

 

 

 

-L X

 

 

 

 

 

 

 

 

 

Ф [л: (я) — а0 (я)}

 

 

 

 

 

 

 

г (я)

я0(я)]+ F [х (я) — а0

 

 

 

 

 

 

X Ф[■*(я)

(п)]/х (я)

 

 

Интегральный

закон

распределения

случайной

 

величины

А0 (я +

1 ) относительно X (•) имеет

вид:

 

 

 

 

 

Ф [а0 (я -}- \)/х (я)]

= jj

Ф [г (я)/а0 (я),

л (я)] /

0 (я)/л (я) dan dz (я)].

Так

как

/

0 (я)/л (я)] = / [а0 (я)],

то

Ф [я0 (я +

1)/х (я)] =

 

0 0

 

 

ОО

 

 

 

 

 

1

 

 

 

 

=

-Ъо а„(п+ \)-аМ)

 

1Ф[ЛГ(«) —«о(«)]| ft

X

f

 

 

f

 

fn[a0(n) ] — -

 

 

 

 

 

 

 

 

 

 

2к *

 

 

 

 

 

 

 

 

 

 

 

X (

+

F [х (я) — а0 (п)]/х (я)] dau(я) dz (я).

 

 

I У(я)

 

 

 

 

 

J

 

 

 

 

 

Отсюда

 

 

 

 

 

 

 

 

 

 

 

 

 

/„ +1 [а0(«+ !)/•*(«)] =аа0(я + 1) Ф[а0(л + 1)/*(«)!

 

=

1

^

/я К (я)]

 

 

 

X

 

 

 

 

I

 

 

 

 

 

 

 

 

 

 

 

 

I Ф[* (я) — а0 (я)]

 

 

 

х

Iа° (1 + ! \

 

 

+ F f* (п)— 0,0 ("W* (и)1 da° W-

 

}—2АГ*ф[л(я)а0(я)}

 

 

 

 

J

 

 

211

Окончательно имеем:

 

 

1

 

 

/«+1 Ио (п+ 1)] = К * I

f

-fn [ « о

( « ) ] X

| ф [х (я) — а„ (/г)]

 

 

2

 

 

 

 

а° (п +■■---- а°(«) +

F [х (п) — а0 (п)],

х(л)\

X

X h 2 /С*ф (я) — а0

(«)]

 

 

( 8-6)

X da0(я) dx (я).

 

В предельном случае при я -г- оо

 

 

f /а ) = _ L 7 7

/ 1 «)

«о — I

1)

 

 

 

-2л:*ф (д -

 

+ f (* — £). * dx d£.

Это однородное интегральное уравнение Фредгольма второго рода. Оно решается в общем случае численными методами.

В выражении для fn + l [а„ (я + 1)] интегрируется неотрица­ тельная функция. Следовательно, /„ + i [«о ( « + ! ) ] > 0. При я = 0 очевидно, что

ОО

00

J /о К (0 )] da0 (0 ) =

J 6 0 (0 ) — я0] da0 [0 ] = 1 ,

—00 —00

где а0 — заданное начальное значение порога. Предположим, что для fn 0 (л) ]

00

J fn[at(n)da0(n)] = l.

—00

ОО

Покажем, что тогда J fn + 1 [aQ(п + 1 )] daQ(п + 1 ) = 1 ;

—00

=j /„+ 1[«0 (« + •)] dao(« + !) =

ОО^

 

----------------------------

1-----------------------------

 

fn [ « » ( « ) ]

X

 

2 К* | ф (я) — а0 (я)] |

 

 

gp (п + 1 ) — а0 (я)

 

 

 

 

X / { з-2 /С*ф [х (я) — а0 (я))

F [x (n ) — a0 (я)], х(я) X

 

X dx (я) da0 (я) da0 (л -f- 1 ).

 

Сделаем

замену переменных

 

 

 

8

 

 

» +

F <"> - » •

<“»!■

 

—2К*<р [х (я) — а0(я)]

 

 

 

de (я) ^

da0 ( я +

1 )

 

 

 

 

 

 

2 /С*|ф [х (я) — а0(я)] |

212

Отсюда

ОО

= JJJ fn К («)] / [e.(n), x (n)] de (n) da0 (n) dx (n) =

 

—OO

 

=

OO

00

j /л [«0 («)] JJ/[e(n), x (и)] de (n) dx (n) da0(n).

 

— OO

—00

По

свойству

плотности вероятности

OO

JJ / [e (л), x (n)] de (л) dx (n) = I,

—00

по предположению

00

a J At [flo (я)] da0 (n) = 1 .

—00

Следовательно,

 

C O

 

 

Y° =

| fn + i[a 0

( n + 1 )]rfa0 (rt+ 1) =

1>

 

—00

 

 

что и требовалось доказать.

можно получить для

случаев тп =

Аналогичные

выражения

= const и N Ф 1, а.также для более сложных структур СР. Однако при этом резко возрастает сложность полученных выражений. Анализ данных выражений в явном виде, т. е. анализ качества на­ стройки СР в пространстве настраиваемых коэффициентов, вряд ли имеет смысл, особенно для случая многослойных СР. В данном случае необходимо переходить аналогично тому, как это было сделано в данной главе выше при настройке по разомкнутому циклу, к распределению вероятности правильного распознавания интегрированием по пространству настраиваемых коэффициентов. На наш взгляд, эта задача, достаточно сложная с математической точки зрения, может служить предметом самостоятельного рассмот­ рения. В данном случае можно записать, пожалуй, только общие выражения для математического ожидания и дисперсии средней функции риска аналогично тому, как это было сделано для Р Прав

в § 3-8:

А

Указанная выдше сложность аналитического исследования замкнутых СР с фиксированной структурой, настраивающихся по замкнутому циклу, приводит к необходимости применения для исследования указанных СР, в основном многослойных, методов статистического моделирования. Данному вопросу и посвящен представленный ниже материал.

213

X ■о

- f

/Г Х — ОДа0

 

 

 

 

(n) |

~T~

~JT

 

 

 

 

 

 

 

 

xln)

\

1

оt

fe

/

S

;1 ^ Т р Г ...^ [7 } Г

О—

 

 

 

 

- f

i

 

 

—V'”

 

и —

1 'ol

 

 

 

 

 

m

 

t------------------

 

 

 

2

2

2

 

 

 

-i

 

 

1

 

I

г * 1

 

 

 

 

 

 

 

1

1

 

 

 

 

 

 

Т

Т

Л

 

ao(0)

Рис. 8-4. Функциональная схема поисковой СР, настраивающейся по замкнутому циклу с минимизацией второго момента дискретной ошибки.

1 — квадратор; 2 — блок задерж ки на такт Т.

8-5. Исследование ЛПЭ при многомодальном распределении входного сигнала

а) Одномерный случай; поисковый алгоритм настройки

Моделировался ЛПЭ с двумя решениями и минимиза­ цией a 2g. Структурная схема моделируемой СР представ­ лена на рис. 8-4. Исследовалась возможность построения

замкнутых СР

с

поисковой

процедурой

адаптации

ввиду

невозможности

аналитиче­

 

 

 

 

 

 

ской оценки величины гра­

 

 

 

 

 

 

диента

a 2g в

данной

СР.

 

 

 

 

 

 

Совокупности образов пер­

 

 

 

 

 

 

вого и второго класса под­

 

 

 

 

 

 

чинены

многомодальным

 

 

 

 

 

 

распределениям.

В

этом

 

 

 

 

 

 

случае

имеем

 

дело

со

 

 

 

 

 

 

структурной недостаточно­

 

 

 

 

 

 

стью, на которую указы­

 

 

 

 

 

 

валось в гл. 4,

когда слож­

 

 

 

 

 

 

ность структуры СР мень­

 

 

 

 

 

 

ше, чем сложность решае­

 

 

 

 

 

 

мой задачи, и

потенциаль­

 

 

 

 

 

 

ное качество распознавания

 

 

 

 

 

 

в принципе не достигается.

 

0 11,752 3

Ч

5 6

7 8 9 1011 12

Исследование подобной си­

 

 

 

 

 

 

 

стемы позволяет

выяснить

Рис. 8-5. Характеристики

вход­

возможность обучения ЛПЭ

ного

сигнала

и

функционала

первого

слоя

многослой­

 

оптимизации.

 

ной СР при введении эле­

I — первый класс;

II

— второй класс.

ментов случайности в по­

 

нахождения

локальных

исковую процедуру (гл. 6 . и 11)

и глобального экстремумов функционала оптимизации. На рис. 8-5 представлены плотности распределения совокуп­ ностей образов первого и второго класса, а также зави­ симости для данного случая средней функции риска, точ­ нее, a 2g от порога а0, если ЛПЭ слева указывает область

первого

класса, а

справа второго. Градиент a 2g при по­

исковой

процедуре

адаптации вычислялся в соответствии

с выражением

 

 

da^g

a 2g (gp4~ Аа0) — a2S (ao— Адо)

 

da0

2Да0

где Ao0— амплитуда поисковых колебаний. Оценка da2g/da0 производилась усреднением по т реализаций входного

215

сигнала СР. Основной целью при моделировании являлась оценка влияния Да, К*, тп, а0 (0) на динамику контура настройки коэффициента а0 СР. Результаты моделирования на ЭВМ позволили сделать следующие выводы:

Рис. 8-6. Исследование влияния шага на динамику на­

стройки СР

при К — 0,5;

т = 20; а0 (0)

= 0.

1 — Дао =

0,25; 2 — Д а0 =

0,5; 3 — Да0 ~

1.

1) поисковые колебания вполне применимы для по­ строения блока настройки СР по замкнутому циклу. Чем больше Да0 (в рассматриваемых пределах), тем больше точ­

216

ность работы контура настройки в установившемся состоя­ нии (рис. 8-6);

2)чем больше К*, тем меньше систематическая ошибка

итерационной процедуры поиска оптимального решения,

/ — т = 5; 2 т = 10; 3 т = 20.

Рис.

8-9.

Исследование влияния начальных усло­

вий

на

динамику настройки

СР при

Да0 = 0,25;

 

 

 

К = 10;

т =

10.

 

/ — о0 (0)

=

0; 2 - а0 (0)

=

3;

3 аа(0) = 4;

4 — а„ (0) =■=

 

 

 

= 7;

5

-

а„ (0)

= 9 .

 

но тем больше случайная ошибка указанной процедуры

(рис. 8-7); 3) чем больше тп, тем меньше случайные и больше ди­

намические ошибки контура настройки СР из-за введения

217

дополнительного запаздывания в контур обратной связи СР как экстремальной системы (рис. 8-8);

4) при любых начальных условиях а0 (0) (рис. 8-9) ите рационная процедура поиска оптимального решения схо­ дится к одному из локальных экстремумов. Результат ра­ боты алгоритма поиска всех локальных экстремумов с вве­ дением элементов случайности в процедуру поиска пред­ ставлен на рис. 8-10. На рисунке окружности сплошной линией обозначены линии равных значений плотности рас-

Рис. 8-10. Настройка при

множестве

случайных

начальных

 

условий.

 

 

/ — До„ = 0,25, К = 0,5,

m =

10;

2 — Да0 =

0,25, К =

0,25, т = 20;

3 -

До„ =

2,

К = 2, т — 10.

 

пределения для образов первого класса, пунктиром — вто­ рого. Общее число Z мод распределений для первого и вто­ рого класса равнялось 10; среднеквадратичное значение о, определенное для одной моды, равно 2.

б) Многомерный случай. Аналитический алгоритм на­ стройки

Аналитическая процедура настройки при многомодаль­ ных распределениях входного сигнала исследовалась на примере минимизации a 2g в ЛПЭ с континуумом решений (гл. 3) и арктангенсной характеристикой = 10).

Входе эксперимента были изучены следующие вопросы:

1.Влияние начальных условий на сходимость итера ционной процедуры при отыскании одного локального экс­ тремума.

218

2.Зависимость скорости сходимости итеративной про­ цедуры от величины шага и размерности пространства при­ знаков N. Вопрос устойчивости градиентной процедуры. Влияние величины дисперсии на качество сходимости ите­ рационного процесса.

3.Влияние способа вычисления градиента оптимизи­ руемого функционала на скорость сходимости и качество процесса поиска.

4.Влияние памяти (т„) системы на качество итера­ ционного процесса.

Заметим, что исследования проводились с помощью дат­ чика случайных векторов х и указаний учителя е. Много­ модальное распределение случайных векторов х в доста­ точно общем случае проиллюстрировано на рис. 8-11, где окружности обозначают уровни равных значений плотно­ стей вероятности Для каждой моды. Модальность распреде­ ления случайных векторов может быть задана любой, со­ ответствующей плану экспериментов.

Установить факт наличия устойчивости вектора коэффи­ циентов ЛПЭ в оптимальном состоянии — цель первого эксперимента. Для этого вектор коэффициентов ЛПЭ по­ лучал оптимальные начальные условия, соответствующие одному из локальных экстремумов (рис. 8-12 — положения 1 и Id), и начинался процесс обучения. Начальные 1 и и конечные Г и 1а' положения гиперплоскостей говорят об устойчивости ее экстремального положения, соответствую­ щего одному из минимумов средней функции риска. Коле­ бания относительно устойчивого положения обусловлены стохастичностью минимизируемого функционала качества СР. Плавность этих колебаний тем больше, чем больше па­ мять системы и чем меньше модальность (число мод) рас­ пределений входного сигнала, используемого при обучении. При отклонении от оптимальности положения с поворотом 3 и без поворота 2 гиперплоскость приходит в ближайший локальный минимум 2' и 3', поворачиваясь, и уменьшая при перемещении ошибку. На рис. 8-12 показаны началь­ ные 1, 2, 3, 4 и конечные Г, 2', 3’, 4' положения разделяю­ щих плоскостей для различных начальных условий. Ди­ намика настройки коэффициентов этих прямых проиллю­ стрирована на рис. 8-13. Здесь оказалось удобным восполь­ зоваться уравнением прямой (гиперплоскости в общем слу­ чае) в отрезках и следить (рис. 8-13) за изменением этих отрезков в процессе настройки. На рис. 8-13 видно, что при оптимальных начальных условиях (/, 2) система испы-

(1219

Соседние файлы в папке книги из ГПНТБ