книги из ГПНТБ / Галушкин, А. И. Синтез многослойных систем распознавания образов
.pdfПервой является задача выбора начальных условий для настройки коэффициентов многослойной СР. Ввиду многоэкстремальности функционала вторичной оптимиза ции СР рассматриваются два способа выбора начальных условий: случайный выбор с усреднением результатов по числу случайных выбросов, когда нужно найти все локаль ные и глобальный экстремумы, и детерминированный выбор, когда многослойная СР вводится в область глобального экстремума функционала вторичной оптимизации путем определенного задания кусочно-линейной разделяющей по верхности в начальный момент времени.
Второй является задача выбора класса типовых вход ных сигналов многослойных СР для оценки качества их работы в переходном и установившемся режимах аналогично тому, как это делается в системах автоматического управ ления. Сложность входного сигнала будет определяться, в частности, модальностью условного распределения /' (х/е).
Третьей является задача выбора параметрической мат рицы К* в алгоритме поиска экстремума функционала вто ричной оптимизации. Решение данной задачи возможно аналитическим методом и путем использования методов статистического моделирования. Общая методика аналити ческого исследования замкнутых СР состоит из следующих этапов: 1) определение плотности распределения вероятно стей для оценки вектора градиентов функционала вторич ной оптимизации, 2) вывод стохастического дифференциаль ного уравнения для изменения в процессе настройки плот ности распределения настраиваемых коэффициентов СР, 3) решение данного уравнения, 4) нахождение параметров распределения функционала первичной оптимизации ин тегрированием по пространству признаков и пространству состояний СР как системы со случайным входным сигна лом и случайными параметрами.
В результате данного анализа можно решить задачу синтеза контура настройки СР, исходя из условия обеспе чения заданного качества по значению функционала первич ной оптимизации. Необходимо отметить, что решение третьей задачи аналитическим методом является трудным с математической точки зрения. Поэтому методика анали тического исследования замкнутых СР иллюстрируется в книге частными примерами. Основным остается метод статистических испытаний, при этом выбор оптимальных параметров контура настройки СР производится по оценке текущего значения функционала первичной оптимизации.
200
8-2. О выборе начальных условий настройки в многослойных СР
Можно рассматривать два метода выбора указанных начальных условий: выбор случайных начальных условий и выбор детерминированных начальных условий. Случай ный выбор начальных условий производится ввиду многоэкстремальности функционала вторичной оптимизации, связанной с многомодальностью распределений fx (х) вход ного сигнала и ограниченностью структуры разомкнутой СР. Случайные элементы в процедуру поиска экстремума функционала вторичной оптимизации вводятся в связи с необходимостью поиска локальных и глобального экстре мумов указанного функционала. Необходимость поиска локальных экстремумов обусловлена необходимостью ре шения задачи минимизации структуры многослойной СР при анализе результатов настройки. На первом этапе ис пользования случайных начальных условий (и следующего за ним этапа усреднения результатов настройки по мно жеству этапов выброса случайных начальных условий) создается впечатление о большом числе локальных экстре мумов функционала вторичной оптимизации в пространстве настраиваемых коэффициентов. Однако в связи с этим не обходимо отметить, что при усложнении структуры разомк нутой СР увеличивается множественность состояний мно гослойной СР, оцениваемая по величине функционала вторичной оптимизации. Иначе говоря, большинство локаль ных экстремумов функционала в пространстве настраивае мых коэффициентов обеспечивают одно и то же качество распознавания. Это замечание необходимо связывать с опи сываемыми ниже методами оценки качества многослойных СР по оценке значения функционала вторичной оптимиза ции по текущим сигналам в СР. С учетом вышесказанного и результатов данной главы, полученных экспериментально, можно отметить правомерность подхода к настройке с ис пользованием случайных начальных условий, хотя этот подход, очевидно, вводит избыточность во времени на стройки СР с целью полного изучения входного сигнала (в частности, нахождения глобального экстремума функ ционала).
Целью введения детерминированных начальных усло вий является априорное введение СР в область одного из локальных экстремумов функционала вторичной оптими зации в пространстве настраиваемых коэффициентов. На
201
уровне геометрии первого, второго слоя и т. д. многослой ная СР должна быть максимально аморфна, рассредото чена, т. е. подготовлена к решению наиболее сложной [с точки зрения модальности fx (х)] задачи распознавания. Мыслимая конфигурация разделяющей поверхности в этом случае при обучении распознаванию двух классов образов представлена на рис. 8-1, хотя это предварительный вариант. Окончательный вариант может быть определен только при введении критерия аморфности, рассредоточен
ности. |
Очевидно, |
что минимально аморфной |
и рассредото |
||||||||
|
|
|
|
|
ченной |
является многослой |
|||||
Г------- |
|
г-------1 |
ная СР, |
в которой все коэф |
|||||||
2 |
фициенты |
ЛПЭ |
первого |
слоя |
|||||||
1 |
1 |
/ |
I |
одинаковы и соответствующие |
|||||||
I |
2 |
1 |
2 |
I |
разделяющие |
поверхности |
|||||
i |
/ |
2 |
1 |
I |
смещены |
к «краю» |
простран |
||||
ства признаков. |
На рис. 8-1 |
||||||||||
L |
|
|
|
J |
|||||||
|
|
|
|
|
пунктиром обозначена |
физи |
|||||
Рис. 8-1. Разделяющая по |
чески реализуемая в СР об |
||||||||||
ласть |
пространства |
призна |
|||||||||
верхность при выборе началь |
ков. Это |
распространяется и |
|||||||||
|
ных |
условий. |
|
||||||||
|
|
на режим самообучения, если |
|||||||||
1 — первый |
класс; |
2 — второй |
|||||||||
|
|
|
|
|
не указывалась заранее при |
||||||
|
|
|
|
|
надлежность клеток |
рис. 8-1 |
к тому или иному классу. Начальные условия на на страиваемые коэффициенты второго слоя и т. д. рассчиты ваются по геометрии разделяющей поверхности, реализуе мой ЛПЭ первого слоя с указанием принадлежности обла стей исходного пространства признаков к тому или иному классу.
6-3. Типовые входные сигналы СР
Выбор определенного класса типовых входных сигналов должен производиться с точки зрения решения задачи бо лее или менее объективного сравнения качества СР в ре жиме настройки и в установившемся состоянии. Основу для рассмотрения здесь дает системный подход к синтезу СР. Методологически данная задача достаточно полно ре шена для линейных систем автоматического управления при детерминированных и случайных входных сигналах. Так, достаточно полным классом детерминированных вход ных сигналов, для которых производится как оценка, так и сравнение качества систем управления, является класс
202
полиномиальных входных сигналов. В этом случае основ ной характеристикой сложности сигнала является соот ветствующая степень полинома. Для многослойных СР основной характеристикой сложности входного сигнала является модальность распределения fx (х) совместно с неко торыми характеристиками пространства указаний учителя. Рассмотрим некоторые частные случаи выбора типовых
ис. 8-2. Условное представление класса типовых входных сигналов СР в режиме самообучения по степени сложности.
Рис. 8-3. Условное представление двух классов входных сигналов СР в режиме обучения по степени сложности.
сигналов в СР. В случае самообучения, по нашему мне нию, логично распределение типового стационарного вход ного сигнала СР считать многомодальным с более или ме нее равномерным расположением мод распределения fx (х) в физически реализуемом пространстве признаков.
На рис. 8-2 представлен полный класс типовых входных сигналов СР в режиме самообучения, иллюстрируемый ли ниями равных значений fx (х) на физически реализуемом пространстве признаков (изображение в двумерном про странстве X является условным). Здесь г — сложность типового входного сигнала СР. При исследовании дина мики СР величина г типового входного сигнала должна до стигать максимальной сложности, на которую в принципе
203
проектировалась многослойная СР. Дисперсия для каждой моды fx (х) должна выбираться так, чтобы моды были до статочно ярко выраженными. В случае обучения СР рас познаванию двух классов образов на рис. 8-3 представлены линии равных значений /у (х) и / 2 (х) для типовых вход ных сигналов (/у — светлые, / 2 — заштрихованные кружки).
8-4. Аналитические методы исследования СР, настраивающихся по замкнутому циклу
Ниже излагается общая методика анализа СР, настраи вающихся по замкнутому циклу. Данная методика иллю стрируется частными примерами. Отмечаются трудности использования данной методики и возможные пути реше ния задачи в менее частных постановках.
Общая методика анализа замкнутых СР, настраиваю щихся по замкнутому циклу, по структуре аналогична ме тодике анализа замкнутых СР, настраивающихся по ра зомкнутому циклу, и состоит из следующих этапов:
1)определение плотности распределения вероятностей для вектора оценки градиента функционала вторичной оп тимизации;
2)вывод стохастического дифференциального уравне ния для изменения в процессе настройки плотности рас пределения настраиваемых коэффициентов СР;
3)решение данного уравнения;
4)нахождение распределения вероятности правиль ного распознавания интегрированием по пространству при
знаков и пространству состояний СР (пространству настраи ваемых коэффициентов).
В принципе задачу выбора параметрической мат рицы К*, обеспечивающей заданное качество настройки, нужно производить, исходя из результатов п. 3 методики. Однако, как будет показано ниже, это довольно трудная задача. Ее приходится решать, зачастую исходя из кос венных критериев, непосредственно не связанных с функ ционалом вторичной оптимизации. Ниже данные этапы ис следования замкнутых СР иллюстрируются на некоторых частных примерах, не претендующих на законченность ре шения для конкретных систем. В данном параграфе рас сматривается линейный пороговый элемент, оптимизация которого осуществляется по критерию минимума модуля первого момента дискретной ошибки.
Для ЛПЭ с минимизацией |a lg | в случае N = тп = 1
204
в гл. 7 было получено рекуррентное соотношение, являю щееся основой для построения блока настройки, в следую щем виде:
а0(п+ 1) = а0 {n)— K*xg(n).
Первый этап анализа. В данном случае имеем дело с за дачей случайного блуждания по одномерной решетке. Это блуждание описывается марковской цепью с бесконечным числом состояний. Вероятности переходов СР из состояния
тК* в состояния (т + |
1) К*, |
(т—1) К* и тК* соответст |
|
венно равны: |
|
|
|
Р [тК* | (т+ 1) К*} - |
y [1 — Фх (тК*)}, |
||
Р[тК* | [т— \)К*] = —■Ф2 (тК*)\ |
|||
Р [тК* | тК*] = |
[1 + |
CDi (тК*) — Ф2 (тК*)]. |
|
Здесь Ф — интегральный |
закон |
распределения. |
|
Второй этап. Стохастическое |
разностное уравнение, |
описывающее изменение во времени плотности распределе ния вероятностей порога а0, имеет следующий вид:
Wa+l (тК*) = Wn [ ( т - 1) К*} ~ {1 |
—Фх |
[(m— 1) К*]} + |
+ Wn (тК*) - у [Фх (тК*) Н- 1 |
— Ф2 |
(тК*)] + |
+ W„ [(т + 1 )* * ]-£ -ф « К"*+ ! ) * * ] •
Третий этап. Решение данного стохастического разност ного уравнения является достаточно сложной задачей. Поэтому остановимся на решении данного уравнения для установившегося состояния (п — оо).
Полагая а0 (0) = 0 и переходя к пределу при п оо, что соответствует СР в установившемся состоянии, полу чаем:
W [ ( m - 1) К*]-j- {1— Фх [ ( m - 1) К*]} +
+W 1 ( т + \ ) К * } ^ - ф* [ ( т + 1)К*) —
—W (тК*) - у [1— ф ! (тК*) + Ф2 (тК*)] = 0.
205
Отсюда
W l(m— 1) /С*] {1 — (Di [(m- 1 )K*]} -
— W (m K *) — Ф2 (mK*) = W (m K *) — [ 1—Фх (mK*)l ~
2 |
2 |
- W Цт+ l ) К*] у |
Ф2 [(т+1)К*] = С. |
Из условия нормировки плотности распределения на страиваемого коэффициента а0по т следует, что W (тК*) =
0. Поэтому С ~ 0 и
W \(т — \) К *] - у ! 1 — ‘ I>i [ ( ш — 1 ) К* 1) =
Полагая |
W (0) |
— А, получаем: |
|
|
|
||
W (К *) |
- А 1 |
<11^-0) ; |
W (2K:l:) |
W(A) 1~ Ф1(К*} • |
|||
|
Ф * (/С*) |
|
|
|
Ф 2 (2К*) |
|
|
|
W(—K*) = A |
Ф 2 (0) |
|
|
|||
|
1-ФПА*) |
|
|
||||
|
|
|
|
|
|
||
W (—2К*) = W (—К*) |
ф 2 ( - л :*) |
|
|||||
|
-2К*) |
|
|||||
В общем случае |
|
|
1 — |
ф , |
|
||
т-1 |
|
|
|
|
|||
|
|
|
|
|
|
||
|
W (тК*) = А ]“| 1-Ф П (* — \)К*]. |
|
|||||
|
|
k |
I |
ф2 \kK*} |
|
||
|
|
|
|
|
|
||
|
W i—тК*) |
|
Ф»[(* + |
1Ж*} |
(8- 1) |
||
|
|
|
|
|
1-Ф,1кК*\
h=l
Величина А = W (0) определяется из условия норми ровки плотности W по т. Функция W (■) представляет собой плотность распределения для настраиваемого коэф фициента а0 СР в установившемся состоянии. Функция
— [1 — Ф1(т/С*)] монотонно убывает от — до нуля в ин-
2 |
|
2 |
тервале — о о « < я гД < о о . |
Функция |
Ф2(тК*) монотонно |
возрастает от нуля до |
~ - в интервале— о о < т Д < с о . |
206
Функция |
[1— Ф х (тК*)-\- Ф2 (тК*)] |
имеет |
макси- |
||||
мум в точке корня уравнения |
|
|
|
||||
|
|
1—Ф1(тК*) = Ф2(тК*). |
|
(8-2) |
|||
Пусть |
корень |
уравнения |
(8-2) |
равен тК* — 0. |
Тогда |
||
при тД ^ |
0 |
|
|
|
|
|
|
1 — Ф1 (т К * Ж Ф2 (т/С *)< Ф 2[ ( т + |
!)/(*], |
|
|||||
т. е. |
|
|
Ф2 (>пК*) |
|
|
|
|
|
|
|
|
|
|
||
|
|
1 — Ф х \{т — 1) К*} > 1 - |
|
|
|||
Соответственно при тК* |
0 |
имеем: |
|
|
|||
Ф2{/пК*)< 1 —Ф1 {тК*)< |
- Ф х [(т- 1 ж*] |
|
|||||
|
|
|
Ф2 (тК*) |
|
|
|
|
|
|
1- Ф П ( т — 1) К*] < 1. |
|
|
|||
Поэтому, если |
0//С* — целое число, то |
|
|
||||
|
W (0 — А) = |
W (0)------------------ < W (0); |
|
||||
|
v |
' |
w 1 |
— Ф1(0 — Д) |
w |
|
|
|
«7 (0 + |
Д) = |
W (0) |
|
< Г ( 9 ) . |
|
|
|
|
' |
|
ф 2 (0 + Д) |
|
|
Отсюда видно, что 0 есть мода распределения значения порога как случайной величины и обеспечивает в свою оче редь равенство условных функций риска для совокупно стей образов первого и второго класса.
Из (8-1) вытекает, что математическое ожидание и дис персия распределения значения порога конечны.
Для ЛПЭ с произвольной памятью тп в блоке настройки
(тп = . const, N = 1):
а0 (п) при п-\- I ф imn, i = 1, 2, 3
|
К* |
imn |
|
(8-3) |
а0 (п + 1) = «о(«) + — |
У, |
{ 8 ( 0 — sign X |
||
|
п Hi-i)m„+l |
|
|
|
X [х (0 — а0(01) при п = imn. |
|
|||
Здесь, несмотря на |
соответствующее |
замечание, сделанное |
||
в гл. 7 о невозможности |
в общем случае для критерия минимума |
| a lg | и СР с двумя решениями построения аналитических алгорит мов настройки с произвольными значениями тп, выражение (8-3) справедливо, так как рассматривается частный, одномерный (N =
207