Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Галушкин, А. И. Синтез многослойных систем распознавания образов

.pdf
Скачиваний:
11
Добавлен:
22.10.2023
Размер:
12.65 Mб
Скачать

Первой является задача выбора начальных условий для настройки коэффициентов многослойной СР. Ввиду многоэкстремальности функционала вторичной оптимиза­ ции СР рассматриваются два способа выбора начальных условий: случайный выбор с усреднением результатов по числу случайных выбросов, когда нужно найти все локаль­ ные и глобальный экстремумы, и детерминированный выбор, когда многослойная СР вводится в область глобального экстремума функционала вторичной оптимизации путем определенного задания кусочно-линейной разделяющей по­ верхности в начальный момент времени.

Второй является задача выбора класса типовых вход­ ных сигналов многослойных СР для оценки качества их работы в переходном и установившемся режимах аналогично тому, как это делается в системах автоматического управ­ ления. Сложность входного сигнала будет определяться, в частности, модальностью условного распределения /' (х/е).

Третьей является задача выбора параметрической мат­ рицы К* в алгоритме поиска экстремума функционала вто­ ричной оптимизации. Решение данной задачи возможно аналитическим методом и путем использования методов статистического моделирования. Общая методика аналити­ ческого исследования замкнутых СР состоит из следующих этапов: 1) определение плотности распределения вероятно­ стей для оценки вектора градиентов функционала вторич­ ной оптимизации, 2) вывод стохастического дифференциаль­ ного уравнения для изменения в процессе настройки плот­ ности распределения настраиваемых коэффициентов СР, 3) решение данного уравнения, 4) нахождение параметров распределения функционала первичной оптимизации ин­ тегрированием по пространству признаков и пространству состояний СР как системы со случайным входным сигна­ лом и случайными параметрами.

В результате данного анализа можно решить задачу синтеза контура настройки СР, исходя из условия обеспе­ чения заданного качества по значению функционала первич­ ной оптимизации. Необходимо отметить, что решение третьей задачи аналитическим методом является трудным с математической точки зрения. Поэтому методика анали­ тического исследования замкнутых СР иллюстрируется в книге частными примерами. Основным остается метод статистических испытаний, при этом выбор оптимальных параметров контура настройки СР производится по оценке текущего значения функционала первичной оптимизации.

200

8-2. О выборе начальных условий настройки в многослойных СР

Можно рассматривать два метода выбора указанных начальных условий: выбор случайных начальных условий и выбор детерминированных начальных условий. Случай­ ный выбор начальных условий производится ввиду многоэкстремальности функционала вторичной оптимизации, связанной с многомодальностью распределений fx (х) вход­ ного сигнала и ограниченностью структуры разомкнутой СР. Случайные элементы в процедуру поиска экстремума функционала вторичной оптимизации вводятся в связи с необходимостью поиска локальных и глобального экстре­ мумов указанного функционала. Необходимость поиска локальных экстремумов обусловлена необходимостью ре­ шения задачи минимизации структуры многослойной СР при анализе результатов настройки. На первом этапе ис­ пользования случайных начальных условий (и следующего за ним этапа усреднения результатов настройки по мно­ жеству этапов выброса случайных начальных условий) создается впечатление о большом числе локальных экстре­ мумов функционала вторичной оптимизации в пространстве настраиваемых коэффициентов. Однако в связи с этим не­ обходимо отметить, что при усложнении структуры разомк­ нутой СР увеличивается множественность состояний мно­ гослойной СР, оцениваемая по величине функционала вторичной оптимизации. Иначе говоря, большинство локаль­ ных экстремумов функционала в пространстве настраивае­ мых коэффициентов обеспечивают одно и то же качество распознавания. Это замечание необходимо связывать с опи­ сываемыми ниже методами оценки качества многослойных СР по оценке значения функционала вторичной оптимиза­ ции по текущим сигналам в СР. С учетом вышесказанного и результатов данной главы, полученных экспериментально, можно отметить правомерность подхода к настройке с ис­ пользованием случайных начальных условий, хотя этот подход, очевидно, вводит избыточность во времени на­ стройки СР с целью полного изучения входного сигнала (в частности, нахождения глобального экстремума функ­ ционала).

Целью введения детерминированных начальных усло­ вий является априорное введение СР в область одного из локальных экстремумов функционала вторичной оптими­ зации в пространстве настраиваемых коэффициентов. На

201

уровне геометрии первого, второго слоя и т. д. многослой­ ная СР должна быть максимально аморфна, рассредото­ чена, т. е. подготовлена к решению наиболее сложной [с точки зрения модальности fx (х)] задачи распознавания. Мыслимая конфигурация разделяющей поверхности в этом случае при обучении распознаванию двух классов образов представлена на рис. 8-1, хотя это предварительный вариант. Окончательный вариант может быть определен только при введении критерия аморфности, рассредоточен­

ности.

Очевидно,

что минимально аморфной

и рассредото­

 

 

 

 

 

ченной

является многослой­

Г-------

 

г-------1

ная СР,

в которой все коэф­

2

фициенты

ЛПЭ

первого

слоя

1

1

/

I

одинаковы и соответствующие

I

2

1

2

I

разделяющие

поверхности

i

/

2

1

I

смещены

к «краю»

простран­

ства признаков.

На рис. 8-1

L

 

 

 

J

 

 

 

 

 

пунктиром обозначена

физи­

Рис. 8-1. Разделяющая по­

чески реализуемая в СР об­

ласть

пространства

призна­

верхность при выборе началь­

ков. Это

распространяется и

 

ных

условий.

 

 

 

на режим самообучения, если

1 — первый

класс;

2 — второй

 

 

 

 

 

не указывалась заранее при­

 

 

 

 

 

надлежность клеток

рис. 8-1

к тому или иному классу. Начальные условия на на­ страиваемые коэффициенты второго слоя и т. д. рассчиты­ ваются по геометрии разделяющей поверхности, реализуе­ мой ЛПЭ первого слоя с указанием принадлежности обла­ стей исходного пространства признаков к тому или иному классу.

6-3. Типовые входные сигналы СР

Выбор определенного класса типовых входных сигналов должен производиться с точки зрения решения задачи бо­ лее или менее объективного сравнения качества СР в ре­ жиме настройки и в установившемся состоянии. Основу для рассмотрения здесь дает системный подход к синтезу СР. Методологически данная задача достаточно полно ре­ шена для линейных систем автоматического управления при детерминированных и случайных входных сигналах. Так, достаточно полным классом детерминированных вход­ ных сигналов, для которых производится как оценка, так и сравнение качества систем управления, является класс

202

полиномиальных входных сигналов. В этом случае основ­ ной характеристикой сложности сигнала является соот­ ветствующая степень полинома. Для многослойных СР основной характеристикой сложности входного сигнала является модальность распределения fx (х) совместно с неко­ торыми характеристиками пространства указаний учителя. Рассмотрим некоторые частные случаи выбора типовых

ис. 8-2. Условное представление класса типовых входных сигналов СР в режиме самообучения по степени сложности.

Рис. 8-3. Условное представление двух классов входных сигналов СР в режиме обучения по степени сложности.

сигналов в СР. В случае самообучения, по нашему мне­ нию, логично распределение типового стационарного вход­ ного сигнала СР считать многомодальным с более или ме­ нее равномерным расположением мод распределения fx (х) в физически реализуемом пространстве признаков.

На рис. 8-2 представлен полный класс типовых входных сигналов СР в режиме самообучения, иллюстрируемый ли­ ниями равных значений fx (х) на физически реализуемом пространстве признаков (изображение в двумерном про­ странстве X является условным). Здесь г — сложность типового входного сигнала СР. При исследовании дина­ мики СР величина г типового входного сигнала должна до­ стигать максимальной сложности, на которую в принципе

203

проектировалась многослойная СР. Дисперсия для каждой моды fx (х) должна выбираться так, чтобы моды были до­ статочно ярко выраженными. В случае обучения СР рас­ познаванию двух классов образов на рис. 8-3 представлены линии равных значений /у (х) и / 2 (х) для типовых вход­ ных сигналов (/у — светлые, / 2 — заштрихованные кружки).

8-4. Аналитические методы исследования СР, настраивающихся по замкнутому циклу

Ниже излагается общая методика анализа СР, настраи­ вающихся по замкнутому циклу. Данная методика иллю­ стрируется частными примерами. Отмечаются трудности использования данной методики и возможные пути реше­ ния задачи в менее частных постановках.

Общая методика анализа замкнутых СР, настраиваю­ щихся по замкнутому циклу, по структуре аналогична ме­ тодике анализа замкнутых СР, настраивающихся по ра­ зомкнутому циклу, и состоит из следующих этапов:

1)определение плотности распределения вероятностей для вектора оценки градиента функционала вторичной оп­ тимизации;

2)вывод стохастического дифференциального уравне­ ния для изменения в процессе настройки плотности рас­ пределения настраиваемых коэффициентов СР;

3)решение данного уравнения;

4)нахождение распределения вероятности правиль­ ного распознавания интегрированием по пространству при­

знаков и пространству состояний СР (пространству настраи­ ваемых коэффициентов).

В принципе задачу выбора параметрической мат­ рицы К*, обеспечивающей заданное качество настройки, нужно производить, исходя из результатов п. 3 методики. Однако, как будет показано ниже, это довольно трудная задача. Ее приходится решать, зачастую исходя из кос­ венных критериев, непосредственно не связанных с функ­ ционалом вторичной оптимизации. Ниже данные этапы ис­ следования замкнутых СР иллюстрируются на некоторых частных примерах, не претендующих на законченность ре­ шения для конкретных систем. В данном параграфе рас­ сматривается линейный пороговый элемент, оптимизация которого осуществляется по критерию минимума модуля первого момента дискретной ошибки.

Для ЛПЭ с минимизацией |a lg | в случае N = тп = 1

204

в гл. 7 было получено рекуррентное соотношение, являю­ щееся основой для построения блока настройки, в следую­ щем виде:

а0(п+ 1) = а0 {n)— K*xg(n).

Первый этап анализа. В данном случае имеем дело с за­ дачей случайного блуждания по одномерной решетке. Это блуждание описывается марковской цепью с бесконечным числом состояний. Вероятности переходов СР из состояния

тК* в состояния +

1) К*,

—1) К* и тК* соответст­

венно равны:

 

 

 

Р [тК* | (т+ 1) К*} -

y [1 — Фх (тК*)},

Р[тК* | [т— \)К*] = —■Ф2 (тК*)\

Р [тК* | тК*] =

[1 +

CDi (тК*) — Ф2 (тК*)].

Здесь Ф — интегральный

закон

распределения.

Второй этап. Стохастическое

разностное уравнение,

описывающее изменение во времени плотности распределе­ ния вероятностей порога а0, имеет следующий вид:

Wa+l (тК*) = Wn [ ( т - 1) К*} ~ {1

—Фх

[(m— 1) К*]} +

+ Wn (тК*) - у [Фх (тК*) Н- 1

— Ф2

(тК*)] +

+ W„ [(т + 1 )* * ]-£ -ф « К"*+ ! ) * * ] •

Третий этап. Решение данного стохастического разност­ ного уравнения является достаточно сложной задачей. Поэтому остановимся на решении данного уравнения для установившегося состояния (п — оо).

Полагая а0 (0) = 0 и переходя к пределу при п оо, что соответствует СР в установившемся состоянии, полу­ чаем:

W [ ( m - 1) К*]-j- {1— Фх [ ( m - 1) К*]} +

+W 1 ( т + \ ) К * } ^ - ф* [ ( т + 1)К*) —

W (тК*) - у [1— ф ! (тК*) + Ф2 (тК*)] = 0.

205

Отсюда

W l(m— 1) /С*] {1 — (Di [(m- 1 )K*]} -

W (m K *) Ф2 (mK*) = W (m K *) — [ 1—Фх (mK*)l ~

2

2

- W Цт+ l ) К*] у

Ф2 [(т+1)К*] = С.

Из условия нормировки плотности распределения на­ страиваемого коэффициента а0по т следует, что W (тК*) =

0. Поэтому С ~ 0 и

W \(т — \) К *] - у ! 1 — ‘ I>i [ ( ш — 1 ) К* 1) =

Полагая

W (0)

А, получаем:

 

 

 

W (К *)

- А 1

<11^-0) ;

W (2K:l:)

W(A) 1~ Ф1(К*}

 

Ф * (/С*)

 

 

 

Ф 2 (2К*)

 

 

W(—K*) = A

Ф 2 (0)

 

 

 

1-ФПА*)

 

 

 

 

 

 

 

 

W (—2К*) = W (—К*)

ф 2 ( - л :*)

 

 

-2К*)

 

В общем случае

 

 

1 —

ф ,

 

т-1

 

 

 

 

 

 

 

 

 

 

 

W (тК*) = А ]“| 1-Ф П (* — \)К*].

 

 

 

k

I

ф2 \kK*}

 

 

 

 

 

 

 

 

W i—тК*)

 

Ф»[(* +

1Ж*}

(8- 1)

 

 

 

 

 

1-Ф,1кК*\

h=l

Величина А = W (0) определяется из условия норми­ ровки плотности W по т. Функция W (■) представляет собой плотность распределения для настраиваемого коэф­ фициента а0 СР в установившемся состоянии. Функция

— [1 — Ф1(т/С*)] монотонно убывает от — до нуля в ин-

2

 

2

тервале — о о « < я гД < о о .

Функция

Ф2(тК*) монотонно

возрастает от нуля до

~ - в интервале— о о < т Д < с о .

206

Функция

[1— Ф х (тК*)-\- Ф2 (тК*)]

имеет

макси-

мум в точке корня уравнения

 

 

 

 

 

1—Ф1(тК*) = Ф2(тК*).

 

(8-2)

Пусть

корень

уравнения

(8-2)

равен тК* — 0.

Тогда

при тД ^

0

 

 

 

 

 

 

1 — Ф1 (т К * Ж Ф2 (т/С *)< Ф 2[ ( т +

!)/(*],

 

т. е.

 

 

Ф2 (>пК*)

 

 

 

 

 

 

 

 

 

 

 

1 — Ф х \{т 1) К*} > 1 -

 

 

Соответственно при тК*

0

имеем:

 

 

Ф2{/пК*)< 1 —Ф1 {тК*)<

- Ф х [(т- 1 ж*]

 

 

 

 

Ф2 (тК*)

 

 

 

 

 

1- Ф П ( т — 1) К*] < 1.

 

 

Поэтому, если

0//С* — целое число, то

 

 

 

W (0 — А) =

W (0)------------------ < W (0);

 

 

v

'

w 1

— Ф1(0 — Д)

w

 

 

«7 (0 +

Д) =

W (0)

 

< Г ( 9 ) .

 

 

 

'

 

ф 2 (0 + Д)

 

 

Отсюда видно, что 0 есть мода распределения значения порога как случайной величины и обеспечивает в свою оче­ редь равенство условных функций риска для совокупно­ стей образов первого и второго класса.

Из (8-1) вытекает, что математическое ожидание и дис­ персия распределения значения порога конечны.

Для ЛПЭ с произвольной памятью тп в блоке настройки

(тп = . const, N = 1):

а0 (п) при п-\- I ф imn, i = 1, 2, 3

 

К*

imn

 

(8-3)

а0 (п + 1) = «о(«) + —

У,

{ 8 ( 0 — sign X

 

п Hi-i)m„+l

 

 

X (0 — а0(01) при п = imn.

 

Здесь, несмотря на

соответствующее

замечание, сделанное

в гл. 7 о невозможности

в общем случае для критерия минимума

| a lg | и СР с двумя решениями построения аналитических алгорит­ мов настройки с произвольными значениями тп, выражение (8-3) справедливо, так как рассматривается частный, одномерный (N =

207

= 1) вариант, в котором х0 = —1 = const. В (8-3) поправка коэф­ фициентов происходит через каждые тп тактов поступления образов на вход СР.

Получим выражение для вероятностей перехода в данной мар­

ковской цепи. Как и в случае тп =

1,

здесь

 

 

 

 

 

 

Р [xg (я) = - 2 ] = - L [1

- Фх (тК*)];

 

 

 

 

Р [xg (п) =

2] =

Ф2 (тК*);

 

 

 

 

Р [xg (я) = 0] = -i- [1 -

Ф2 ( тК* ) +

Ч>1(m/C*)I.

 

где тК*

— текущее значение настраиваемого

коэффициента а0.

Величина

 

 

fm_

 

 

 

 

 

К

 

к

 

 

 

 

 

 

 

 

 

 

 

 

 

т

xg (я = ш п) = ^ г

S

 

fe (/) -

sign I* W ~

V ]}

7 *В =

 

 

 

"

l=(i-\)m n+ l

 

 

 

 

t

 

 

 

к:

 

 

0,

.

к:

 

значения — К„> —Кп +

тп

 

 

к п -

тп

принимает

 

 

 

 

 

 

Кп. В данном случае имеем дело с задачей о

полиномиальном рас­

пределении

 

 

 

 

 

 

 

 

Р [xg (я = Шп) = 2 ( / - 0 ] =

РМп [/, t,

[mn - l - t ) \ =

 

=

 

("'С')]'{т[(1

 

)'х

 

 

Г I

 

 

 

 

i

 

 

 

 

X | _ [1 _ ф2(т ^ ) + Ф1(т ^*)]

 

 

Здесь

I, t, тп I t

— соответственно

число

раз, которое

в Xg выпадают + 1 , —1, 0. При замене переменных %— I t можно получить ограничения на пределы изменения переменных в следую­ щем виде:

Б > 0 при — я-~ Е > t > 0;

Е<0 ПРИ

2

2

 

 

Выражение для переходных вероятностей при §>>0 имеет

следующий вид:

тп-1

 

 

 

Р [тпК* | (тп +

I) К*] =

 

X

 

t(< + Е)! *1 ( т „ - 2 /- Е )!

X 2

т "[1 — Ф^тК*)]*

X

X [1 +

Фх (тпК*) -

Ф2 (mnK * ) f n~ 2t+l

208

При 0 выражение для переходной вероятности сохраняется с заменой нижнего предела на (—5)- Выражение для переходной вероятности будет единым, если нижний предел сделать равным

{шах [0, — |]}.

Соответствующее второму этапу стохастическое разностное уравнение для плотности распределения вероятностей настраивае­ мого коэффициента а0 СР имеет вид:

где Р [ ] определяется приведенным выше выражением для пере­ ходной вероятности.

В многомерном случае рекуррентное соотношение, являющееся основой для построения замкнутой СР, при тп = 1 может быть за­ писано:

а (я + 1) = а (я) + K*xg (я) sign х (я).

В данном случае имеем дело с задачей блуждания по (N + 1)- мерной решетке. Это блуждание описывается многомерной марков­ ской цепью. Здесь, как и выше, задача анализа замкнутой СР со­ стоит из следующих этапов: запись выражений для переходных вероятностей; получение стохастического уравнения, описываю­ щего динамику поведения марковской цепи; исследование решения данного уравнения.

Решение данных вопросов является чрезвычайно сложным даже для рассматриваемой относительно простой СР, не говоря уже о таких СР, как многослойные сети из ЛПЭ.

ЛПЭ с континуумом решений и континуумом классов образов.

Рассматривается случай N = mn = 1.

При использовании критерия

минимума второго момента дискретной ошибки a 2g имеем:

а0 (я + 1) = я„(я) — 2К* {е (я) — F [х (я) — а0 (я)]

рассмотрение

случайные величины

А 0 (л), Z [n], L [п],Х [п],

Е [я], G [я],

Y [я]. Их возможные значения соответственно равны

а0 [я], г [л], I [я], х [я], е [я], g [л], у [я].

Величина G [я] является функцией случайных величин А0[п] и

X [я]:

G [я] = Х [ я ] - Л 0[я],

а К [я] является функцией случайной величины G [я]:

У [я] = ф (G [я]).

Величина Z [я] определяется:

Z [я] = (Е [я] — F (G [я])} ф (G [я]);

L [ n ] = {Е [«] — F (G [я])}; /(я) = дс*[я].

209

Соседние файлы в папке книги из ГПНТБ