Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Живоглядов, В. П. Адаптация в автоматизированных системах управления технологическими процессами

.pdf
Скачиваний:
5
Добавлен:
19.10.2023
Размер:
6.85 Mб
Скачать

*s+ t= j *'s+z Р Ш Я = j

«s+ t W

Q((j.)

2(«[s])

as+ x = J W?'(g'*,<7[s-(-x])JP(tJ.)/3(^[sH-T]|Ix,tt[s])X

2(m [s+ t])

 

 

S—I

 

 

X П P{y\-i]\^,u\i—x]dQ.

(1. 15)

/=1

 

 

Таким образом, мы пришли к формализму А. А. Фельдбаума, принятому в созданной им теории дуального уравнения. В ра­

боте [В. 15]. показано, что при ограничениях вида

(1. 6) и

u[s]

eQ (ii), где Q(и) — заданная

область (замкнутая или

открытая) эвклидова пространства,

оптимальные

стратегии

Г*

являются нерандомизированнымн. Одиако сами управле­

ния w[s] являются случайными, поскольку зависят от текущей реализации случайной переменной y[s—1]. Оптимальные зна­

чения и* [s]

находятся из функционального уравнения

 

 

Ts+ t(«*[s1)= T*s-|-t= min

«s+ t+

 

 

ufsJeQ(u)

l

 

+

1 d ® I; S=l,2,...,n

t,

(1. 16)

 

C(y(s])

 

 

 

T%+1 = 0.

 

 

Всистеме одновременно протекают процессы управления и накопления информации, причем установлен имеющий прин­ ципиальное значение факт — строго доказана возможность активного накопления информации в автоматической системе.

Впоследнем: случае темп изучения объекта зависит от выб­ ранных управлений «[£]. Формулу (1. 15) можно предста­ вить в следующем виде:

as+T.=P(y[S — 1] |

К[5—х — 1] )J

W(q*,q[s+

 

2(е,9[«+т])

+ T.])Ps _ 1(|i.)P(^[S +

T] I |1,И[8])</Й,

(1. 17)

40

где P s-.\ (ц) — апостериорная после (s—1) такта плотцость

вероятности параметров ц. Накопление информации проявля­ ется в редукции этой плотности, замене априорной плотности апостериорной.

в. Трудность получения полных статистических характе­ ристик случайных параметров (так называемая «априорная трудность») является одним из препятствий применения тео­ рии дуального управления в первоначальном виде для пост­ роения реальных систем. Представляет интерес разработка методов синтеза алгоритмов управления в условиях меньшей априорной информации. Более практична постановка задачи, при которой плотность вероятности Я(р) считается неизвест­ ной. Байесов подход здесь неприемлем. Для нахождения оп­ тимального управления могут быть использованы минимакс­ ные критерии. Однако такой путь зачастую слишком пессими­ стичен. В некоторых случаях он не адекватен существу за­ дач. Пусть, например, параметры р. объекта являются неслу­ чайными постоянными величинами, но априори неизвестны­ ми. Нет смысла искать худшую плотность вероятности Р(ц), так как объективно никакого распределения вероятностей нет. Оно может быть лишь у наблюдателя (после измерения с помехами).

Излагаемый ниже подход [В. 16, 1. 4] к задаче синтеза алгоритмов дуального управления при неизвестной априорной плотности тесно связан с методом наибольшего правдоподо­ бия Фишера [1. 5], который в настоящее время применяется достаточно широко [1. 1, 1. 6, 1. 7].

Сущность метода состоит в следующем.

Вместо as-(-x вводится функция

ans+-= j W(q*,q[S+ z ] ) X

s—1

 

 

XP(q[s+i] | p,«[s]) П я ( > ’И

| ц,и[;-т])ДС2,

(1. 18)

«=1

 

 

которая отличается от as+ x тем,

что вместо

апостериор­

ной плотности Ps_i([i) под знаком интеграла в (1. 18) ис. пользуется функция правдоподобия.

41

Риск

s

 

^ аП$+т П Г/rfQ

(I. 19)

/=1

 

[s]fy[s—l]l

условно назовем правдоподобным.

Общая процедура нахождения оптимального управления такая же, как в теории дуального управления А. А. Фельдбаума. Стратегия УУ регулярная. Оптимальные управляк>- щне воздействия u*[s], обеспечивающие минимум суммар­

ного (полного) правдоподобного риска

определя-

ются последовательно,

 

начиная

S

такта,

из

 

с последнего

функционального уравнения

 

 

 

Ь+т(и*[з])=Т*5+т=

min

ancs+-j-тT+-г ^ s + x + l

dQ

,

 

 

 

H[s]eQ(u)

 

 

 

 

 

 

 

s = l,2,...,n—t —1,

( 1. 20)

 

 

 

 

 

 

u

n

_

min

 

 

 

T

 

ы/л—т/е£2;и)

 

 

Область интегрирования Q(p) в (1. 18) может быть замкну­ той или открытой и выбирается с учетом физических сообра­ жений и ограничений на диапазон возможного варьирования р. Обязательным является требование, чтобы при выбранной области Q(p) интеграл (1. 18) сходился.

Заметим, что объем вычислений при нахождении управле­ ния изложенным здесь методом меньше, чем при решении за­

дачи

в байесовой постановке.

г.

Рассмотрим задачу нахождения стратегии Г5=

=P(p[s]),

обеспечивающей наименьшее значение

функцио­

налу x's+t

(1. 13) при известной плотности /^(^[х+т] | «[s]>

и ограничениях вида

 

 

Jfy(9[s+ T]>uM)d^ (d s+*]>tf[s])<0,

(I. 21)

42

где F(-)— функция совместного

распределения

вероятно­

стей аргументов.

Поскольку,

как

следует

из

(1.

13),

Г5

и>

интеграл в (1. 13)

не зависят от наблюдений y[s—1]

и

уп‘

равлений m[s—1],

легко показать, используя, например,

соотношения (1. 20), что раздельная минимизация

по

Г*,

функций xrs_(_x гарантирует

достижение

минимума

 

сум­

марного риска

 

Поэтому задачу

синтеза

оп­

s

тимального управления можно переформулировать в сле­ дующих терминах:

Найти функцию распределения .F (m [s ]), характеризую­ щую управляющее устройство и обеспечивающую

inf

W{q*,q[s+i])dF(u[s])dF{q[s+i] | tt[s]),

(1. 22).

^(«[s]) J

 

 

 

 

 

при ограничениях (1. 21).

 

 

 

Таким образом, мы

пришли к задаче, рассмотренной в

[1- 8], откуда следует,

что оптимальная стратегия Г5

явля­

ется смешанной (т. е.

рандомизированной) в

случае

не­

выпуклых и разрывных функций

fy(<7[s+x],a[s])

и

Од­

нако обратная связь в системе и

накопление

информации

отсутствуют.

 

 

 

 

Перейдем к анализу системы дуального управления, необ­ ходимость которого возникает при неполной информации о функции распределения /^[s-fx] | p,u[s]), зависящей от вектора случайных параметров р. Пусть требуется обеспечить, наименьшее значение функции полного риска

при ограничениях

fj{u\n— x\,q[n], у [n— \])dF( и [/»—■»], q [л], у [п—1],|х)<0..

(1. 24)

43-

Эта формулировка задачи приводит к необходимости ■отыскания рандомизированных (смешанных) стратегий . ду­ ального управления.

Таким образом, уже на примере управления статическим объектом с запаздыванием удалось показать, что как методи­ ка синтеза, так и свойства алгоритмов УУ (управление в чис­ тых или смешанных стратегиях, с обратной или без обратной связи) существенно зависят от объема априорной информа­ ции о характеристиках объекта и вида ограничений.

Перейдем к изучению процессов управления дискретными нелинейными стохастическими объектами с памятью и распре­

деленными

параметрами.

Будем считать,

что все выходные

переменные

объекта контролируемы (т. е.

y[s] = ^[s])

и функ­

ция потерь

Ws определяет

меру уклонения

выходов

q[s] от

предписанных значений q*, где *7[s], q* — пространственные векторы вида

Т

q[s]= II q[0,s]...q\K,s]...q[l,s] || .

Пусть объект описывается условными плотностями вероятно­ сти

P{q[s+x] | q [s+x — 1], u[s]),

где w[s] — вектор управляющих воздействий;

х — запаздывание.

 

такте

найдем путем

Удельный

риск

в (s +

t)- m

усреднения

функции

потерь Ws^_x

по

всем случайным

сигналам

 

 

 

 

 

 

W , « 7 [ s +

t])P(<7

[s + t] ,«

О- 25)

&Cq[s+x]£ls])

После некоторых преобразований получим выражения, ана­ логичные (1. 10), (1. 11):

s—1

(1. 26)

«[s-Ш

41

П ^ и '+ 'С ] I q [ i+ i— \),U[l\)d&,

£2(u[s],?[s]><?[s+l],...li?[s+x]) , = 1

(1. 27}

r t=P(u[i] | a [t— l\,q [г—1])^

Если условные плотности P(q[i+t] | q [г+т — 1], u[i]) известны точно, функция потерь выпукла, на управление наложено только ограничение вида u[s]eQ (и), то имеем дело с задачей стохастического управления объектом с запаздыванием (задача с неполной, но максимальной ин­ формацией, по классификации А- А- Фельдбаума [В. 15]). Стратегия Г$ является регулярной. Обратная связь в си­ стеме необходима (сравните формулы (1. 13) и (1. 27)1.

Последовательность

оптимальных

управлений

u*[s] =

=us*(u [s— 1], q [5— 1]),

s —\,...,n—т,

т. e.

алгоритм

УУ, находится методом динамического, программирования, начиная с последнего и*[п—т].

При отсутствии полных данных о плотности вероятности

Я(9[г-Ьт]

| q [г-И— 1], и [i]) необходимо

накопление

в УУ

недостающей информации в процессе

управления.

Пара­

метризуя

условные плотности

 

 

Я(^[/+т] | q [Я-т—l],a[s],(i)

нсчитая р случайными величинами с заданной Р(р), приходим к задаче дуального управления в байесовой постановке. При

этом удельный риск

^ [ s + х П г Д

(1.28)

-7 1=1

Q(u[s], q[s— 1])

где

а*-И =а5+т(Ф]) = j*W(9*,?[s-H)P(p). х

s

 

 

 

 

 

 

X П / № + * ]

I Я [ Ж —1 ],u[i\>v.)dQ.

(1.

29)

i=l

 

 

 

 

 

 

Функциональное уравнение для

определения оптимальных

подобно уравнению (1. -20).

и использовании пра­

При неизвестной плотности Рф.)

вила правдоподобного

риска

 

следует

заменить

■функцией

 

 

 

 

 

 

 

s

 

 

 

 

 

«ns+ T = j'w'(?i*9[s+ i;]) П ^ и '- М

I

Я [*'+*— i], u[i],^)dQ..

 

£2(мИ....>Ф-И])

,=I

 

 

 

(1.

30)

 

 

 

 

 

Постановка задачи, приводящая к решению в смешанных стратегиях, формулируется для объектов с памятью анало­ гично (1.23) — (1.24).

Таким образом, процесс накопления информации в УУ за­ ключается в восстановлении неизвестных условных плотнос­ тей вероятности или оценке вектора параметров р, входя­ щих в выражения для плотностей.

Замечание 1.

Выше при обсуждении задач дуального управления мы

.рассматривали блок-схему на рис. 1. 1. Все принципиальные положения справедливы и для блок-схемы системы на рис. 1. 2, ■которую обычно используют в работах по теории дуэльлого управления. Действительно, если задано уравнение

Рве. 1.2

46

объекта О с точностью до случайных параметров р, извест­ ны плотности вероятности Р(£|Х1), Р(/г[з]), Р(р) помех g[s], h[s] и параметров р, заданы уравнения каналов связи G и Я, то можно найти условные плотности сигналов q и у при фик­ сированных входах и перейти к предыдущим постановкам за­ дач.’Блок-схема, представленная на рис. 1. 1, является более общей по сравнению с изображенной на рис. 1. 2.

Замечание 2. Если параметры р не остаются постоянными в процессе управления, а дрейфуют случайным образом, на­ пример, являются марковскими случайными процессами с плотностью вероятности перехода P(p[s]/p[s—1]), общий ме­ тод синтеза алгоритмов дуального управления при байесовой постановке сохраняется. В выражениях as |_T (1. 15) и (1. 29)

плотности вероятности Р(р) необходимо заменить совмест­

ными плотностями

Я(р [s]), где

p[s]= II p[0],..,p[s]

|| т.

Для марковских

процессов

 

 

/>оГ[5]) =

Р Ы 0 ] ) П

Р Ш I И/-11).

(1. 31)

 

/•=1

 

 

Формулы (1. 15) и (1. 29) при этом примут вид

as+x==j >W(9*,<7[s-|-i:])P(p[0])X

Q(p[s],g[s+T])

s

XП {Р(иМ I !*[/—1])Р(</[*'+'] I ИЛ.иШ)} X /=1

S— 1

 

 

X П Р О Т I

'].«[*—'T])dQ,

(1. 32)

/=1

 

 

И

as+ x= j W(<7*,<7[S+ t])P(|j.[0])X

...<7[*+*l)

47

s ,

X П[-Р(И*'] I Y-\i—\])P(q\i+‘t] I q\i+ x— 1], Н-Ы, U[ii)dQ . i=l

(1. 33)

1. 1. 2. Оператор объекта задан в явном виде

Рассмотрим задачу синтеза алгоритма дуального управ­ ления распределенным объектом, когда зависимость функ­ ций состояния от воздействий по границам и начальных ус­ ловий задана в явном виде с точностью до неизвестных пара­ метров.

Рис. 1.3

На рис. 1. 3. показана блок-схема системы управления распределенным объектом (УУ и ЙУ — соответственно уп­ равляющее и измерительное устройства). Управление объек­ том осуществляется по границам воздействиями и0 и и 1. Там же приложены контролируемые возмущающие воздействия z° и г 1, зависящие от вектора случайных параметров р и вре­ мени s. Измерение их производится со случайными независи­ мыми погрешностями g° и g l . Поэтому полная компенсация этих возмущений невозможна. Кроме того, по длине объекта

48

действует возмущение z u зависящее от случайных парамет­ ров Я. Повышение качества управления может быть достигну­ то за счет применения распределенного контроля функции со­ стояния объекта q{x, t). Оператор объекта задан в явном ви­ де, т. е. задана совокупность функций

9[k,s]= 7ks(iji,X, Q0,/c,s,«°[.s], «/[5])>

 

 

к=0,1

(1- 34)

Стрелками

сверху

отмечены временные

векторы

типа

->

|| и0[1)...й0[5] II

Т

 

 

«°[s] =

. Начальное состояние объекта обозна­

чено

одной

буквой

Qo.

начальное

со­

Случайные параметры, характеризующие

стояние, можно учесть соответствующим увеличением размер­

ности вектора Я. В этом случае Qo в уравнении (1.

34)

может

быть опущено. Входные для УУ воздействия у, е°,

е 1 являют­

ся смесью полезных сигналов q, z°, zl и помех g°,

g 1.,

h. Вве­

дем векторы

 

 

 

 

 

Т

 

 

Es=E[s} = || e°[s]e;[s]

|| г , us=

|| t/°ls]^[s]

 

 

II ,

(1.

35)

y s= y (s]= II

 

 

 

T

 

y(0,sl...y[K,sl...y[/,sl || ,

 

 

 

 

 

 

 

T

 

 

 

 

/

Z s =

II z°ls]z'[sl || .

 

 

 

 

 

 

 

 

y ^ J d Q .

 

 

 

 

P(p?',Us, Es - 1.

 

 

П (vXUs,

Es- 1.У5— I)

 

 

 

 

 

После некоторых преобразований

|B.

16] получаем

 

e

 

s— 1

 

 

 

 

 

 

 

П

l ^ l / J

I v)P\el\i\ I

|0)X

 

0

 

 

 

 

 

 

 

 

Qv.XUs, Es—I,

y s - l

)

 

 

 

 

(1.

30)

s - \

l

 

 

s

 

 

 

 

 

 

 

 

x П ПP(y[K,j]

\'\>-XUj)

П

Гу ай.

 

 

 

/= 1 /с=0

 

.1=1

 

 

 

 

4*

3114

49

Соседние файлы в папке книги из ГПНТБ