книги из ГПНТБ / Галушкин, А. И. Синтез многослойных систем распознавания образов
.pdfлюбого начального состояния. Значение вектора а (1), обеспечивающего в данном случае экстремальное значение, определяется следующим образом:
а (1) = ---- - Л -1 В. |
|
’ |
2 |
Подставляя данное выражение в (6-3), получаем выра жение для-искомой оптимальной матрицы К*-
Система, обеспечивающая на я-м шаге переход в (я + 1)-ю точку, называется устойчивой, если значение функции в (я + 1)-й точке меньше, чем в я-й точке. Соот ветственно автоколебательной или неустойчивой называется система, у которой последующие значения функции равны или больше предыдущих:
1) |
&{n+l) = K*B + [Y + 2K*A]a(ny, |
|
2) |
ат(я) Ла (я) -f В та (я) = | а г(я + 1 )-Л -а ( я + 1 ) + |
|
|
+ Вг а (я + 1 ). |
(6-4) |
Решение данной системы требует применения ЦВМ. При рассмотрении конкретных методов поиска экстремума, а следовательно, и конкретных видов матрицы К* необхо димо проверять условия удовлетворения данной матрицей соотношения (6-4) для обеспечения устойчивости системы поиска.
Определим нерекуррентное выражение для а (я). Из (6-3) следует:
а (1) = К*В + (Y + 2АК*) а (0);
а (2) = К*В + (Y + 2АК*) К*В + {Y + 2АК*? а (0);
а (3) = К*В + (7 + 2АК*) К*В + (Y + 2АК*)2 К*В +
+ (У + 2К*Л)3а(0).
По индукции
а (я) = [У + (Y + 2К*А) + . . . + (Y + 2К*А)п~х] К*В +
+ (Y + 2K*A)na(0).
150
Учитывая, что
У + (У + 2К* А) + .. . + (У + 2К*А)п~х*=
Y — (Y + 2К*А)п |
|
|
[У — (У + 2К*А)п](2К*А)-\ |
Y — (Y 2К*А) |
|
можно записать |
выражение для а (п) в следующем виде: |
а (п) = (У + |
2К*А)па (0) + -L [(У + 2/СМ)" — У] X |
X (К*A y 1К *В .
Отсюда получаем окончательное нерекуррентное выра жение для вектора состояния системы поиска
а (л) = (У + |
2К*А)па (0) + -i- [(У + 2K*A)n— Y] А~1В. (6-5) |
||
Подставляя в (6-5) условие оптимальности по быстро |
|||
действию |
рассматриваемой системы поиска, равное К* = |
||
1 |
я—1 |
|
|
= -----— А |
, получаем, как и следовало ожидать: |
||
|
|
а(п) = |
----- l—A ~lB, п ~ 1, 2......... |
|
|
' |
2 |
что соответствует экстремальному значению функции. Путем анализа нерекуррентной формулы получим огра
ничения на параметры матрицы К*, обеспечивающие схо димость итерационного процесса поиска.
Из (6-5) следует, что
lim a(n) = — А~ХВ,
П-.оо 2
т. е. не зависит от а (0) и равен экстремальному значению вектора состояния при
limJ(y + 2/CM)" = 0 ,
п->оо
где О — нулевая матрица (У, А). Это выражение можно использовать для доказательства сходимости системы по иска. В [Л. 64] приводится также вывод выражения для матрицы К*, удовлетворяющей условию автоколебатель ности процесса поиска.
О методе стохастической аппроксимации
Метод стохастической аппроксимации реализуется системой поиска, аналогичной градиентной, но имеющей переменные пара метры (матрицу К*) [Л. 40, 41 ]. Метод стохастической аппрокси
151
мации как частный градиентный метод поиска применяется при на личии случайных ошибок измерения вектора градиента мини мизируемой функции. Именно наличие указанных случайных ошибок делает необходимым введение переменности параметров системы поиска с целью обеспечения нулевой случайной ошибки определения точки экстремума. Недостатки этого метода поиска совершенно справедливо отмечаются в работе А. Г. Ивахненко [Л. 14] в плане увеличения систематических ошибок в переход ном процессе поиска точки экстремума.
В излагаемой в данной работе методике синтеза СР применение метода стохастической аппроксимации возможно наряду с другими методами поиска, в частности с постоянными параметрами. При этом построение замкнутых СР (гл. 7) производится в любом случае при некоторой неопределенности в задании матрицы К*, которая ликвидируется лишь на этапе исследования замкнутых СР (гл. 8). Вопрос об оптимальном (по критериям первичной оптимизации) выборе параметров матрицы К* здесь будет являться некорректно поставленным, так как вид минимизируемой функции нам заранее не известен.
6-3. Итерационные методы поиска экстремума функций многих переменных при наличии ограничений типа равенств на переменные
В общем виде ограничения типа равенств на настраи ваемые коэффициенты СР записываются в следующем виде:
<7и(а) = 0, |
ц = 1 , |
М ъ |
7И1< А ^°+1. |
В реальных СР |
N |
|
(6-6) |
^ di = a = const, |
;=о
т. е. ограничения на сумму коэффициентов,
а) Алгоритм поиска
В данном случае задача минимизации функции качества Y (а) СР решается путем составления функции Лагранжа
Y (а, X) = Y (а) + Xr qr (а), где Хг = |
[Хр |
. . . , |
.XM ] — вектор |
множителей Лагранжа, qr (а) = |
(а), |
. .., |
qM (а)] — век |
тор-функция ограничений.
Решение задачи минимизации сводится к решению:
- - (а’ Х) =
da da.
Здесь Q (а) =
+ Q (а) X = 0; |
dL (a: х\ .= q (а) = 0. |
(6-7) |
|
|
dX |
|
|
dqi (а) |
д(! м М ) |
|
|
д<7ц (а) |
да0 |
дай |
|
да/ |
(а) |
дЯм, (а) |
|
|
|
|
|
|
daN |
даы |
|
152
ц з (6-7) следует рекуррентное соотношение, являющееся основой для алгоритма поиска
а (п + 1) = а (п) + Каа{п)dY (^
X (Я + 1)= Х (п) = Kla (п)
Х- а=а(л),+ К1х(п) |
d Y а, X |
dX |
|
Х=Х(п) |
|
. . + K h ( n ) ^ ^ |
|
a=a(n), |
dX |
%=Un)
a=a(/i),»
A.=X(n)
a=a(л), Ar=M«)
В этом случае система поиска может быть представлена эквивалентной дискретной системой с параметрическими матрицами Kla. Ям> Ям> Я м - Учитывая (6-7), можно записать окончательное выражение для алгоритма поиска в следующем виде:
. ( n + \ ) = a ( n ) + K l a ( n ) |
f ^ - |
+ Q(a)-X |
а=а(л), |
+ |
|
L da. |
|
|
|
|
|
|
Л=Мя) |
|
К аХ (Л) q (а) | а , а(„ ) ; |
|
|
||
X(n-[- 1) — X (rt) -f- КХа (tl) |
dY (а) |
+ Q (а)•X |
а а (л), |
+ |
|
da |
|
|
|
|
|
|
X- Х(п) |
|
+Ям (п) Ч (а) |а а(п)-
Вслучае ограничений типа (6-6)
dY (а) |
1 (л ) |
а ( п + 1) = а ( п ) + К1а ( п ) |
|
da |
--а(п) |
№
+ К1х (л) 2 O-i (л) — О, (=0
Xi (tl -f- 1) = Xj(П) -j- K l a (n) dF (а) |
+ 1^1 (л) |
da а—а(л) |
|
JV0 |
|
+ К*хх(п) 2 Л/(Л) — « |
|
1=0 |
|
где 1 — вектор-столбец размерности Я 0 + |
1, состоящий из |
единиц. |
|
153
б) Анализ матрицы вторых производных функции Лагранжа
Если Y (а) представлено выражением (6-1а) |
и |
введено |
||||||
обозначение Уг —-|^о0, . . |
aN0, |
|
, то |
|
|
|||
L dyidYj |
= [ J - l i y ] , |
I |
i = О......... №\ |
/ = 0, . |
. |
№\ |
||
l l I i I V j |
|
|
|
|
|
|
||
1 1 - * = |
ЛГ0+ 1 , |
. . . , |
№ + М й |
j = О.........iV°; |
|
|||
III |
-> i = |
0, |
№\ / = Af°+ |
1, . . . . № + Мц |
||||
|
it / = 0, . . |
№ , |
iV —{—1 > . • |
№ -f-M-i, |
|
|
||
IV + i = tf0+ l , |
N0 + Mi, j = N ° + h |
№ + М х. |
||||||
Очевидно, |
что [I] = 2A, |
[III] = |
[II]r —Q (a), [IV] = 0. |
|||||
Таким образом, матрица вторых производных функции |
||||||||
Лагранжа |
имеет следующий вид: |
|
|
|
|
|||
|
|
W (а, Х)1 |
Г 2Д | Q 1 |
|
|
|
||
|
|
dyt dYj |
. Qr | |
о |
|
|
|
|
|
it / = |
0......... №, № + \ ............ № + М!. |
|
|
в) Оптимальность по быстродействию итерационной про цедуры поиска экстремума при ограничениях типа равенств
При использовании метода Ньютона для минимизации функции Лагранжа оптимальность по быстродействию обе спечивается при условии
К* (п) = |
|
- d*Y (y ) - j - i |
|
dyj J y=y(n) |
|
. Kla(n) |
. |
|
i, / = 0, ., №, |
W ° + l......... № + Мх. |
Можно показать, что условием существования матрицы, обратной матрице вторых производных функции Лагранжа,
является |
условие равенства М х рангу матрицы Q. Отсюда |
|
2А |
Q 1—1 |
Г V + a^ qh- 1qta ^ ; —A~^lQH~l |
QT |
0 |
я - 1 |
где Н = —QTА\ 'Q, А х= 2А. Отсюда следуют выражения для матриц Каа(п), Ках(п), К%а(п), Kh(n), обеспечиваю-
щих оптимальность процедуры поиска по быстродействию.
154
г) Оптимальность |
по быстродействию при |
ограничениях |
|||
( 6- 6) |
|
|
|
|
|
В данном случае К*аа(п) = — Ai 1[I + L], |
где / — еди |
||||
ничная матрица |
размером |
[(№ + 1) х (М° + |
1)]; |
L = |
|
= Q H ~ ' Q T A T 1= Q (—Q ^ r ’Q)-1 Q r A T \ |
|
|
|
||
В рассматриваемом частном случае при QT = |
[1, |
1] |
|||
1 , где а А = |
2 2 V- лг‘ = а и |
|
|||
|
|
№ № |
|
|
|
1 q q t a t ' = |
i=i/=i |
|
|
|
|
i А • • • a No у |
|
||||
|
|
°А _а0• • • a fJ0 |
|
|
№
«/=2i=0a ijt j =0, .• •*№ .
Следует отметить, что при любой априорной информа ции о матрице А матрица Каа отлична от (—А~*) и даже при диагональной матрице А является недиагоналыюй. Матрица К%% имеет следующий вид:
К1ж = Н~' = -
иА
т .е. при наличии одного ограничения оптимальная вели чина Кхх определяется лишь суммой элементов матрицы ЛГ1 по строкам и столбцам. В данном случае
К*ах= AT'QH-1= ATlQ(-QrAT'Q)-1= ATlQ( — ^ =
_ i Г «о
В данном случае при любой априорной информации о
матрице А матрица К*а%не равна нулевой матрице, т. е. перекрестные связи в алгоритме поиска присутствуют. В этом плане необходимо отметить неточность, допущенную
в работе [Л. 40], где К*ах (п) = 0.
д) Случай ограничений типа равенств, решаемых относи тельно переменных
При рассмотрении ограничений на переменные вида
Qra = a, где QT |
^01 • • |
1 |
|
( 6- 8) |
QoM, ■
155
линейность ограничений позволяет решить равенства от носительно М г переменных, т. е. выразить коэффициенты а0, . . . , ам через остальные (№ + 1— перемен
ные. Для |
этого матрица |
Q разбивается на два блока: |
|||||
QT = [Q l |
|
< Й Ь |
<?01- |
• |
1 ! |
G<m h -i) i ‘ |
• Д |
|
*5ом, ■ |
|
! |
И) ЛЦ • • • Q |
|||
|
|
|
|
||||
Тогда |
ограничения (6-8) принимают следующий вид: |
||||||
где |
|
|
Qfa(1>+ |
Q2r a(2>= |
a, |
|
|
|
|
|
|
,<2) Г _ |
|
||
д о т |
|
к |
|
|
*ЛГ>| |
||
= |
|
|
|
|
[ам ,’ |
||
Отсюда |
|
а(1) = (Qr )—1 (« — Q ja(2)). |
(6-9) |
||||
|
|
|
Данное выражение подставляется в Y (а) и экстремум результирующей функции (№ + 1 — М х) переменных ищется изложенным выше методом. При этом определяются оптимальные значения (№ + 1 — М г) переменных. Опти мальные значения М х переменных определяются по (6-9). При соблюдении условия (6-6) выражение (6-9) принимает
вид:
№
а0 = а —
t=i
е) Устойчивость итерационного процесса при ограниче■ ниях типа равенств
Процесс поиска будем считать устойчивым, если на каж дом шаге значение функции Лагранжа уменьшается, т. е.
П № ) К П у ( п - 1 ) Ь |
(6-10) |
Раскладывая Y (у) в ряд Тейлора в окрестности точки у (п— 1) и пренебрегая членами порядка выше второго, получаем:
V [у ( л - 1) + А] = Y |
[y(n— 1)] + |
. т dY (у) |
+ |
Д' |
|||
|
|
dy |
У = У (Л — 1) |
■ А Г |
<PY (у) |
А. |
|
|
2dy2 У = У |
|
|
|
(л—О |
|
Здесь через Д обозначен вектор-приращение переменных. Учитывая (6-10), получаем условие устойчивости
dY (у) |
I д г d2Y (у) |
Д < 0 . (6-11)
dy |
у= у (я - 1) |
2dy2 У—У ( л — 1) |
156
Итерационная процедура на каждом шаге поиска дает следующее приращение:
А = К* (л — 1) dY (у) |
(6-12) |
dy |
у—у (п—1) |
Подставляя (6-12) в (6-11) после соответствующих пре образований получаем:
|
dF (y) |
|
11 |
|
|
|
У — У ( « - 1 ) |
J |
X |
X |
(П- 1)+ K *r (rt- |
П ^ (У ) |
|
К* (л — 1) X |
|
|
}2dy-2 |
У = У ( п — 1) |
X dV (у) dy
< 0.
у-—У(«—1) .
Отсюда следует, что достаточным условием устойчивости является отрицательная определенность матрицы
К г ( п - 1 ) + К*г ( п - 1 ) da-Y (у)
2dy-
к * (rt— 1)
У-—"У(«—1)
Эта матрица связывает параметры функции Лагранжа и параметры матрицы /С* системы поиска.
ж) Сходимость итерационного метода поиска при ограни чениях типа равенств
Сходимость процесса поиска будет рассмотрена для слу чая квадратичной функции. В этом случае Y (аХ) = агЛ a -f- -{- В a -j- С-|- X Qa;
dY (а, |
л) |
2Aa + B T + QT\ |
(6-13) |
|
d (a, |
X) |
Qa |
||
|
||||
Это выражение |
можно записать: |
|
dY (а, |
X) |
' 2Л |
QT |
d (а, |
X) |
Q |
о |
а |
+ |
‘ ВГ ~ |
= А |
а |
-f-B. |
X |
О |
X |
|||
|
|
|
|
|
В данном случае
у(п) = у ( п — \) + К* (п — 1) [Ау(п— 1) + В].
Как и ранее, можно записать нерекуррентное соотноше ние для обобщенной переменной состояния
Y (n) = [Y + К*А]п у (0) + [(Y + K*A)n — Y] А~'В.
Подстановка Y (п) = А~1В в (6-13) показывает, что вектор-градиент функции Лагранжа обращается в нуль,
157
т. |
е. что точка У(п) = Л |
ХВ есть точка |
экстремума. Для |
|||||
сходимости |
итерационной |
|
процедуры |
к |
точке |
Y (п) = |
||
= |
А~ ХВХдостаточно доказать, что |
|
|
|
|
|||
|
|
lim [К + |
/СМ]" = |
0. |
|
|
|
|
|
В случае |
п^оо |
|
|
[К + |
|
|
|
|
неособенности |
матрицы |
К * А ] |
это экви |
||||
валентно доказательству |
того, что |
|
|
|
|
|||
|
|
| Det [Y + |
|
|< 1 . |
|
|
|
|
6-4. Итерационные методы поиска экстремума функций многих переменных при наличии ограничений типа неравенств на переменные
Указанные ограничения в СР возникают из-за ограни ченности пределов изменения настраиваемых коэффици ентов и записываются в следующем виде qц (а) Д 0 (ц -~
= 1, ■• • , М 2).
В основном в СР имеют место ограничения частного вида
ск— аМакс<0;
(6-13а)
^мин &1 0.
В частном случае при построении СР на реальных фи зических элементах возможны следующие случаи:
^макс^О» ймин = 0,
^макс а) Условия оптимальности
Условия оптимальности в данном случае даются теоре мой Куна—Такера, которая представляет собой обобщение метода Лагранжа на случай ограничений типа неравенств. В соответствии с теоремой Куна—Такера оптимальный век тор а, доставляющий минимум выпуклому функционалу, является решением следующей системы уравнений и не равенств:
= |
(aU = 0; |
da |
da |
I q(a) + |
5 = 0, X > 0 , |
(6-14)
1 Xr 5 = 0, S > 0 .
Выражение для матрицы Q здесь сохраняется прежним
с заменой М х на М 2. В выражении |
(6-14) |
|
|
Х = [V |
К ’ ■• • ’ V I ’ |
|А ’ |
> бМ2]- |
158
Неравенства 3 ^ 0 и Х>, 0 означают, что все компо ненты этих векторов неотрицательны. Кроме того, предпо лагается, что ограничения таковы, что существует вектор а, для которого соблюдается соотношение (а) <0. Условия (6-14) имеют следующий физический смысл. Если для оп
тимального |
вектора |
аопт несущественно какое-то ограни |
|
чение, т. е. |
<7^ (аопт) <• 0 для какого-то р, то соответствую |
||
щее Х^ равно нулю. |
Если |
0, то в этом случае, как сле |
|
дует из (6-14), |
^ (аопт) = |
0. |
Таким образом, множители Лагранжа можно интер претировать как некоторые оценки влияния ограничений на оптимальное значение вектора настраиваемых коэффи
циентов. Отметим, что если |
функции |
Y (а) и q^ (а) (р = |
|||
" 1, . . . , |
М 2) |
выпуклы, то теорема |
Куна—Такера |
дает |
|
необходимые |
и |
достаточные |
условия |
оптимальности. |
|
б) Алгоритм поиска экстремума при наличии ограничений типа неравенств
Из условий оптимальности (6-14) получаем систему со отношений для итерационной процедуры поиска экстре мума при ограничениях типа неравенств
а (« + |
1) = а(п) + |
Каа {п) d Y ( а. |
X) |
|
|
|
|
|
da. |
|
|
|
+ к ; 1(Л) a n t i ) 1 |
|
|
||
|
|
uX |
J;a—а (я) |
|
|
|
|
|
Х=Х (п) |
|
|
X(n + l) = |
max jo, X (n)-f |/(L (я) dY(а, X) |
+ |
|||
Х(0)>0 |
|
|
|
da |
|
|
|
|
|
|
|
+ KkA n ) d]^ |
± |
]a=a (n)| |
|
|
|
|
|
аХ |
|
|
|
Отсюда окончательно следует: |
X=X (n)J |
|
|
||
|
|
|
|||
a (n + 1) — a(n) + Каа (n) |
—- p - + Q (a) X |
(n) + |
|||
|
|
da |
|
a=a |
|
|
|
|
|
X=X (n) |
|
|
+ Ках (П) q (a) Ia=a (n)i |
|
|
||
X (n-f 1) = max jo, l(n) + Kxa(n) |
dY (a) |
Q(a)X a=a (n) |
|||
da |
X=X (n)
+ Kxx in) q (a) Iа—а (л)) •
159