Плотность |
распределения |
величины |
Л0 |
( л + |
1) |
будем искать |
в виде |
|
|
|
оо |
|
|
|
|
|
|
|
|
|
|
|
|
x(n)]dx(n) = |
|
/[a0(n+l)] = |
J |
/[а0(я + 1), |
|
|
= J f[a0 (n +l) lx (n) ]f[ x(n) ]dx( n) . |
(8-5) |
|
|
— ОО |
|
|
|
|
|
|
|
|
Для |
определения |
f |
[а0 |
( я -f- 1)/дс (л) J |
нам |
понадобится |
Ф [z (я) /а0 (л), |
х (л) ]: |
|
|
|
|
|
|
|
Ф [z (л)/а0 (л), х (л)] |
= |
J |
|
I f [xg (л), |
у (п)/а0(я), л: (я)]Х |
|
|
|
Xg(n) y{n)<z{n) |
|
|
|
|
|
|
|
|
X dxg (я) dy (л); |
|
|
|
|
|
|
fi [Xg (n), |
y(n)/x(n), a0(n)] = |
|
|
= |
fi l*g (n)ly (n), |
x (л), |
a0 (л)] f3 [у (n)/x (л),. а0(л)]; |
fa [У (n)/x (л), |
а„ (я)] = |
б {{/ (л) — ср [х (л) — а0(л)]}; |
fa[xg (n)ly(n), |
х(п), |
а0 (п)] = f2[xg (n)/x (п), |
а0 (л)], |
так как случайная величина ф является определенной функцией
случайной величины X и |
А0: |
|
|
fa [xg (п)/х (л), а0(л)] -= ft, {xg (л) -|- F [х (л) — а0 (п)]/х (л)}; |
|
U [в (п)/х (л), |
а0 (л)] = /4 [е (п)/х (л)]. |
Отсюда |
|
|
|
|
/2 [хе(п)/х (л), а0 (л)] = |
f\ [xg(n) + F \x |
(л ) — а0 (п)]/х (л)}, |
где |
— новая функция, в которой ай (л) — фиксированная вели |
чина. |
результате получаем: |
|
|
В |
|
|
/1 \xg (п), У (п)/х (л), а0 (л)] |
= f \ [ x g (л) + F |
[х (л) — aQ(л)] /х (л)) X |
|
X б [г/ (я) — ф (g (я))]- |
|
|
Определим: |
|
|
|
|
Ф [г(л)/л0(л), х{п)\ = j |
J' |
f X |
|
|
X g (i) г / ( л ) < г ( л ) |
X [Xg (л), у (л)/а0 (л), х (л)] da0 dx.
Можно показать, что
Ооо
Ф [г (п)/а0 (л), х (л)] = J J / 4 {xg (л) + F [х (л) —
—оо z(ri)
Им
— а0(п)]/х(п)} 6 {у (л) — ф [х (л)—а„ (л)]} dy (л) dxg (л) +
|
2(П) |
О 0 |
1 / ( Л ) |
+ J |
J ^4 lxg(n) + F [х(л) — «о (”)]/х (Л)} X |
О —оо
X б [у (л) — Ф[х (л) — а0 (л)]) ей/ (я) dxg (л).
Отсюда плотность вероятности величины L (п) относительно
величин X (п) и |
(п) |
f [г (п)/а0 (я), д: (я)] = -^ -Ф [г (п)/а0 (я), х (я)] = |
|
OZ |
|
= |
- |
1 |
|
|
У(п) |
|
|
|
|
|
|
|
|
|
|
-io У(п) |
|
|
|
|
|
|
|
|
|
|
X S [у (я) — rp (g (n))] dy (я) + |
00 |
|
1 |
|
|
|
|
|
f — — X |
|
|
|
|
|
|
|
|
|
|
|
|
о У(п) |
|
|
|
|
X/I |
г (я) |
+ F U (я) — «о (я)]/лг(я)| X |
|
|
|
|
|
|
|
У (я) |
|
|
|
|
|
|
|
|
|
|
|
Хй !// (Я) — ф \х (я)—я„ (/1)1 } dy (я) = |
[ |
— — |
/ 4 |
X |
|
|
|
|
|
|
|
|
|
— |
0 0 |
I («) |
I |
|
|
х |
J- -\-F[x (я) — а0 |
(я)]/лг (я)j 6 |
{у (я) — ф [х (я) — а0 |
(я)]} X |
|
|
|
X dy (я) = |
^ |
|
|
|
Г* |
|
|
|
|
|
|
|
|
|
-L X |
|
|
|
|
|
|
|
|
|
Ф [л: (я) — а0 (я)} |
|
|
|
|
|
|
|
г (я) |
я0(я)]+ F [х (я) — а0 |
|
|
|
|
|
|
X Ф[■*(я) |
(п)]/х (я) |
|
|
Интегральный |
закон |
распределения |
случайной |
|
величины |
А0 (я + |
1 ) относительно X (•) имеет |
вид: |
|
|
|
|
|
Ф [а0 (я -}- \)/х (я)] |
= jj |
Ф [г (я)/а0 (я), |
л (я)] / |
[я0 (я)/л (я) dan dz (я)]. |
Так |
как |
/ |
[я0 (я)/л (я)] = / [а0 (я)], |
то |
Ф [я0 (я + |
1)/х (я)] = |
|
0 0 |
|
|
ОО |
|
|
|
|
|
1 |
|
|
|
|
= |
-Ъо а„(п+ \)-аМ) |
|
1Ф[ЛГ(«) —«о(«)]| ft |
X |
f |
|
|
f |
|
fn[a0(n) ] — - |
|
|
|
|
|
|
|
|
|
|
2к * |
|
|
|
|
|
|
|
|
|
|
|
X ( |
+ |
F [х (я) — а0 (п)]/х (я)] dau(я) dz (я). |
|
|
I У(я) |
|
|
|
|
|
J |
|
|
|
|
|
Отсюда |
|
|
|
|
|
|
|
|
|
|
|
|
|
/„ +1 [а0(«+ !)/•*(«)] =аа0(я + 1) Ф[а0(л + 1)/*(«)! |
|
= |
1 |
^ |
/я К (я)] |
|
|
|
X |
|
|
|
|
I |
|
|
|
|
|
|
|
|
|
|
|
|
I Ф[* (я) — а0 (я)] |
|
|
|
х |
Iа° (1 + ! \ |
|
|
+ F f* (п)— 0,0 ("W* (и)1 da° W- |
|
}—2АГ*ф[л(я)а0(я)} |
|
|
|
|
J |
|
|
Окончательно имеем:
|
|
1 |
|
|
/«+1 Ио (п+ 1)] = К * I |
f |
-fn [ « о |
( « ) ] X |
| ф [х (я) — а„ (/г)] |
|
|
2 |
|
|
|
|
а° (п +■■---- а°(«) + |
F [х (п) — а0 (п)], |
х(л)\ |
X |
X h —2 /С*ф [х (я) — а0 |
(«)] |
|
|
( 8-6) |
X da0(я) dx (я). |
|
В предельном случае при я -г- оо |
|
|
f /а ) = _ L 7 7 |
/ 1 «) |
«о — I |
1) |
|
|
|
-2л:*ф (д - |
|
+ f (* — £). * dx d£.
Это однородное интегральное уравнение Фредгольма второго рода. Оно решается в общем случае численными методами.
В выражении для fn + l [а„ (я + 1)] интегрируется неотрица тельная функция. Следовательно, /„ + i [«о ( « + ! ) ] > 0. При я = 0 очевидно, что
ОО |
00 |
J /о К (0 )] da0 (0 ) = |
J 6 [я0 (0 ) — я0] da0 [0 ] = 1 , |
—00 —00
где а0 — заданное начальное значение порога. Предположим, что для fn [а0 (л) ]
00
J fn[at(n)da0(n)] = l.
—00
ОО
Покажем, что тогда J fn + 1 [aQ(п + 1 )] daQ(п + 1 ) = 1 ;
—00
=j /„+ 1[«0 (« + •)] dao(« + !) =
ОО^
|
---------------------------- |
1----------------------------- |
|
fn [ « » ( « ) ] |
X |
|
2 К* | ф \х (я) — а0 (я)] | |
|
|
gp (п + 1 ) — а0 (я) |
|
|
|
|
X / { з-2 /С*ф [х (я) — а0 (я)) |
F [x (n ) — a0 (я)], х(я) X |
|
X dx (я) da0 (я) da0 (л -f- 1 ). |
|
Сделаем |
замену переменных |
|
|
|
8 |
|
|
» + |
F <"> - » • |
<“»!■ |
|
—2К*<р [х (я) — а0(я)] |
|
|
|
de (я) ^ |
da0 ( я + |
1 ) |
|
|
|
|
|
|
2 /С*|ф [х (я) — а0(я)] |
Отсюда
ОО
Y° = JJJ fn К («)] / [e.(n), x (n)] de (n) da0 (n) dx (n) =
|
—OO |
|
= |
OO |
00 |
j /л [«0 («)] JJ/[e(n), x (и)] de (n) dx (n) da0(n). |
|
— OO |
—00 |
По |
свойству |
плотности вероятности |
OO
JJ / [e (л), x (n)] de (л) dx (n) = I,
—00
по предположению
00
a J At [flo (я)] da0 (n) = 1 .
—00
Следовательно,
|
C O |
|
|
Y° = |
| fn + i[a 0 |
( n + 1 )]rfa0 (rt+ 1) = |
1> |
|
—00 |
|
|
что и требовалось доказать. |
можно получить для |
случаев тп = |
Аналогичные |
выражения |
= const и N Ф 1, а.также для более сложных структур СР. Однако при этом резко возрастает сложность полученных выражений. Анализ данных выражений в явном виде, т. е. анализ качества на стройки СР в пространстве настраиваемых коэффициентов, вряд ли имеет смысл, особенно для случая многослойных СР. В данном случае необходимо переходить аналогично тому, как это было сделано в данной главе выше при настройке по разомкнутому циклу, к распределению вероятности правильного распознавания интегрированием по пространству настраиваемых коэффициентов. На наш взгляд, эта задача, достаточно сложная с математической точки зрения, может служить предметом самостоятельного рассмот рения. В данном случае можно записать, пожалуй, только общие выражения для математического ожидания и дисперсии средней функции риска аналогично тому, как это было сделано для Р Прав
в § 3-8:
А
Указанная выдше сложность аналитического исследования замкнутых СР с фиксированной структурой, настраивающихся по замкнутому циклу, приводит к необходимости применения для исследования указанных СР, в основном многослойных, методов статистического моделирования. Данному вопросу и посвящен представленный ниже материал.
X ■о
- f |
/Г Х — ОДа0 |
|
|
|
|
(n) | |
~T~ |
~JT |
|
|
|
|
|
|
|
|
xln) |
\ |
1 |
оt |
fe |
/ |
S |
;1 ^ Т р Г ...^ [7 } Г |
О— |
|
|
|
|
- f |
i |
|
|
—V'” |
|
и — |
1 'ol |
|
|
|
|
|
m |
|
t------------------ |
|
|
|
2 |
2 |
2 |
|
|
|
-i |
|
|
1 |
|
I |
г * 1 |
|
|
|
|
|
|
|
1 |
1 |
|
|
|
|
|
|
Т |
Т |
Л |
|
ao(0)
Рис. 8-4. Функциональная схема поисковой СР, настраивающейся по замкнутому циклу с минимизацией второго момента дискретной ошибки.
1 — квадратор; 2 — блок задерж ки на такт Т.
8-5. Исследование ЛПЭ при многомодальном распределении входного сигнала
а) Одномерный случай; поисковый алгоритм настройки
Моделировался ЛПЭ с двумя решениями и минимиза цией a 2g. Структурная схема моделируемой СР представ лена на рис. 8-4. Исследовалась возможность построения
замкнутых СР |
с |
поисковой |
процедурой |
адаптации |
ввиду |
невозможности |
аналитиче |
|
|
|
|
|
|
ской оценки величины гра |
|
|
|
|
|
|
диента |
a 2g в |
данной |
СР. |
|
|
|
|
|
|
Совокупности образов пер |
|
|
|
|
|
|
вого и второго класса под |
|
|
|
|
|
|
чинены |
многомодальным |
|
|
|
|
|
|
распределениям. |
В |
этом |
|
|
|
|
|
|
случае |
имеем |
|
дело |
со |
|
|
|
|
|
|
структурной недостаточно |
|
|
|
|
|
|
стью, на которую указы |
|
|
|
|
|
|
валось в гл. 4, |
когда слож |
|
|
|
|
|
|
ность структуры СР мень |
|
|
|
|
|
|
ше, чем сложность решае |
|
|
|
|
|
|
мой задачи, и |
потенциаль |
|
|
|
|
|
|
ное качество распознавания |
|
|
|
|
|
|
в принципе не достигается. |
|
0 11,752 3 |
Ч |
5 6 |
7 8 9 1011 12 |
Исследование подобной си |
|
|
|
|
|
|
|
стемы позволяет |
выяснить |
Рис. 8-5. Характеристики |
вход |
возможность обучения ЛПЭ |
ного |
сигнала |
и |
функционала |
первого |
слоя |
многослой |
|
оптимизации. |
|
ной СР при введении эле |
I — первый класс; |
II |
— второй класс. |
ментов случайности в по |
|
нахождения |
локальных |
исковую процедуру (гл. 6 . и 11) |
и глобального экстремумов функционала оптимизации. На рис. 8-5 представлены плотности распределения совокуп ностей образов первого и второго класса, а также зави симости для данного случая средней функции риска, точ нее, a 2g от порога а0, если ЛПЭ слева указывает область
первого |
класса, а |
справа второго. Градиент a 2g при по |
исковой |
процедуре |
адаптации вычислялся в соответствии |
с выражением |
|
|
da^g |
a 2g (gp4~ Аа0) — a2S (ao— Адо) |
|
da0 |
2Да0 |
где Ao0— амплитуда поисковых колебаний. Оценка da2g/da0 производилась усреднением по т реализаций входного
сигнала СР. Основной целью при моделировании являлась оценка влияния Да, К*, тп, а0 (0) на динамику контура настройки коэффициента а0 СР. Результаты моделирования на ЭВМ позволили сделать следующие выводы:
Рис. 8-6. Исследование влияния шага на динамику на
стройки СР |
при К — 0,5; |
т = 20; а0 (0) |
= 0. |
1 — Дао = |
0,25; 2 — Д а0 = |
0,5; 3 — Да0 ~ |
1. |
1) поисковые колебания вполне применимы для по строения блока настройки СР по замкнутому циклу. Чем больше Да0 (в рассматриваемых пределах), тем больше точ
ность работы контура настройки в установившемся состоя нии (рис. 8-6);
2)чем больше К*, тем меньше систематическая ошибка
итерационной процедуры поиска оптимального решения,
/ — т = 5; 2 — т = 10; 3 — т = 20.
Рис. |
8-9. |
Исследование влияния начальных усло |
вий |
на |
динамику настройки |
СР при |
Да0 = 0,25; |
|
|
|
К = 10; |
т = |
10. |
|
/ — о0 (0) |
= |
0; 2 - а0 (0) |
= |
3; |
3 — аа(0) = 4; |
4 — а„ (0) =■= |
|
|
|
= 7; |
5 |
- |
а„ (0) |
= 9 . |
|
но тем больше случайная ошибка указанной процедуры
(рис. 8-7); 3) чем больше тп, тем меньше случайные и больше ди
намические ошибки контура настройки СР из-за введения
дополнительного запаздывания в контур обратной связи СР как экстремальной системы (рис. 8-8);
4) при любых начальных условиях а0 (0) (рис. 8-9) ите рационная процедура поиска оптимального решения схо дится к одному из локальных экстремумов. Результат ра боты алгоритма поиска всех локальных экстремумов с вве дением элементов случайности в процедуру поиска пред ставлен на рис. 8-10. На рисунке окружности сплошной линией обозначены линии равных значений плотности рас-
Рис. 8-10. Настройка при |
множестве |
случайных |
начальных |
|
условий. |
|
|
/ — До„ = 0,25, К = 0,5, |
m = |
10; |
2 — Да0 = |
0,25, К = |
0,25, т = 20; |
3 - |
До„ = |
2, |
К = 2, т — 10. |
|
пределения для образов первого класса, пунктиром — вто рого. Общее число Z мод распределений для первого и вто рого класса равнялось 10; среднеквадратичное значение о, определенное для одной моды, равно 2.
б) Многомерный случай. Аналитический алгоритм на стройки
Аналитическая процедура настройки при многомодаль ных распределениях входного сигнала исследовалась на примере минимизации a 2g в ЛПЭ с континуумом решений (гл. 3) и арктангенсной характеристикой (В = 10).
Входе эксперимента были изучены следующие вопросы:
1.Влияние начальных условий на сходимость итера ционной процедуры при отыскании одного локального экс тремума.
2.Зависимость скорости сходимости итеративной про цедуры от величины шага и размерности пространства при знаков N. Вопрос устойчивости градиентной процедуры. Влияние величины дисперсии на качество сходимости ите рационного процесса.
3.Влияние способа вычисления градиента оптимизи руемого функционала на скорость сходимости и качество процесса поиска.
4.Влияние памяти (т„) системы на качество итера ционного процесса.
Заметим, что исследования проводились с помощью дат чика случайных векторов х и указаний учителя е. Много модальное распределение случайных векторов х в доста точно общем случае проиллюстрировано на рис. 8-11, где окружности обозначают уровни равных значений плотно стей вероятности Для каждой моды. Модальность распреде ления случайных векторов может быть задана любой, со ответствующей плану экспериментов.
Установить факт наличия устойчивости вектора коэффи циентов ЛПЭ в оптимальном состоянии — цель первого эксперимента. Для этого вектор коэффициентов ЛПЭ по лучал оптимальные начальные условия, соответствующие одному из локальных экстремумов (рис. 8-12 — положения 1 и Id), и начинался процесс обучения. Начальные 1 и 1а и конечные Г и 1а' положения гиперплоскостей говорят об устойчивости ее экстремального положения, соответствую щего одному из минимумов средней функции риска. Коле бания относительно устойчивого положения обусловлены стохастичностью минимизируемого функционала качества СР. Плавность этих колебаний тем больше, чем больше па мять системы и чем меньше модальность (число мод) рас пределений входного сигнала, используемого при обучении. При отклонении от оптимальности положения с поворотом 3 и без поворота 2 гиперплоскость приходит в ближайший локальный минимум 2' и 3', поворачиваясь, и уменьшая при перемещении ошибку. На рис. 8-12 показаны началь ные 1, 2, 3, 4 и конечные Г, 2', 3’, 4' положения разделяю щих плоскостей для различных начальных условий. Ди намика настройки коэффициентов этих прямых проиллю стрирована на рис. 8-13. Здесь оказалось удобным восполь зоваться уравнением прямой (гиперплоскости в общем слу чае) в отрезках и следить (рис. 8-13) за изменением этих отрезков в процессе настройки. На рис. 8-13 видно, что при оптимальных начальных условиях (/, 2) система испы-