книги из ГПНТБ / Живоглядов, В. П. Адаптация в автоматизированных системах управления технологическими процессами
.pdfческого ожидания некоторой заданной суммарной функции Потерь \У2, зависящей от входных и выходных сигналов объ екта и задающих воздействий
|
|
w, д*, w*, и0, и1, и)), |
(В. 42) |
|
где М — знак математического ожидания. |
|
|
||
Оптимизация |
процесса управления сводится к нахождению |
|||
алгоритма функционирования УУ, обеспечивающего мини |
||||
мум R. |
|
|
|
|
Укажем некоторые особенности задач управления объек |
||||
тами с распределенными параметрами: |
задачи, пути реше |
|||
а) |
Многообразие задач. Постановки |
|||
ния и реализации меняются в зависимости от способов уп |
||||
равления |
(по границе или распределенное), |
съема информа |
||
ции с объекта |
(на границе, в одной промежуточной точке, |
в |
||
ряде точек по длине аппарата, распределенный контроль) |
и |
30
оценки качества процессов (критерий связан с выходной пе ременной на границе, с распределением переменных в прост ранстве и т. д.);
б) Неполнота информации об объекте; в) Сложность динамики и наличие чистого или транс
портного запаздывания, в результате чего алгоритмы уп равления также оказываются сложными (особенно при нали чии случайных помех), включают операторы запаздывания и, как правило, более пригодны для реализации на ЦВМ. С дру гой стороны, учет распределенности иногда позволяет из влечь дополнительную информацию и получить качественно новые эффекты.
Решение задач управления стохастическими объектами представляет значительные трудности и существенно зависит от объема априорных сведений. Если условные плотности P(qKSI *kssuks) известны точно, имеем дело с задачей стоха стического (неадаптивного) управления. При неполной инфор мации о P(qKS\*KS,uKS) и P(yKS|K«s) необходимо в процессе работы системы накапливать недостающую информацию, т. е появляются черты адаптации. Управление, при котором од новременно с выработкой управляющих воздействий для при ведения объекта к требуемому режиму в управляющем уст ройстве (УУ) протекает процесс восстановления или уточ нения условных плотностей вероятности (или условных мо ментов, характеризующих связь входных и выходных пере менных объекта), будем называть дуальным [В. 15].
Возможны различные теоретические подходы в зависимо сти от способа априорного задания и восстановления услов ных плотностей, из которых выделим два.
I. Параметризация задачи. P{qKS I xks,WkS) задается ана литическим выражением с точностью до неизвестных пара метров ц:
P { R k s I x t f S 'U ics) P o i ^ K S I x KS>li l ^ K s ) >
где P0 — известная функция своих аргументов.
Задача восстановления P(g*s|.) сводится к оценке векто ра параметров ц. В байесовой постановке приходим к форма лизму А. А. Фельдбаума, развитому им в цикле работ по тео рии дуального управления [В. 68]. Действительно, если за даны оператор объекта в явном виде с точностью до случай ных параметров ц, плотности вероятности Р (ц) параметров ц и P(hs ), P(gs ) — помех в каналах связи и известен способ комбинации сигналов и помех, то можно получить аналитиче-
31
ское выражение P(qKS\ttS)jj.) или P(y/cs|ws,iA) и свести задачу [В. 68] к задаче управления объектом, описываемым услов ной плотностью вероятности с неизвестными параметрами.
Заметим, что в книге Я. 3. Цыпкина [В. 17] под дуальным понимается управление, при котором одновременно восстанав ливаются значения неизвестных параметров объекта и неиз вестные заранее оптимальные параметры управляющего уст ройства.
II. Непараметрический подход [3. 11] основан на восстанов лении методами непараметрической статистики условных плот ностей вероятности (или условных моментов) и оказывается достаточно эффективным при разработке различных алгорит мов адаптации для систем с относительно простыми динами ческими характеристиками.
В классе параметрических задач синтеза укажем следую щие постановки.
а) Синтез оптимального алгоритма дуального управле ния, т. е. нахождение алгоритма или стратегии управления, в
общем случае рандомизированной r s=P(«°[s],«/[s],M[/i,s]|7s) обеспечивающей минимум функции риска R.
б) Ограниченный синтез I. Разделение задач стохастиче ского управления и накопления информации о неизвестных параметрах распределенных объектов (оценка параметров).
в) Ограниченный синтез II. Параметризация управляю щего устройства, устройства распределенного контроля и син тез алгоритма параметрической оптимизации в условиях помех.
Р а з д е л 1.
ОПТИМАЛЬНЫЕ СИСТЕМЫ ДУАЛЬНОГО УПРАВЛЕНИЯ РАСПРЕДЕЛЕННЫМИ ОБЪЕКТАМИ С ЗАПАЗДЫВАНИЕМ
1. 1. СИНТЕЗ АЛГОРИТМОВ ДУАЛЬНОГО УПРАВЛЕНИЯ РАСПРЕДЕЛЕННЫМИ ОБЪЕКТАМИ
ВДИСКРЕТНО-НЕПРЕРЫВНЫХ. СИСТЕМАХ
Вданном разделе основное внимание уделяется дискрет
ным по времени (t) и. пространственной координате (г) си стемам. Целесообразность применения разностных моделей обусловливается факторами, перечисленными во введении. Методика синтеза алгоритмов и структур управляющих уст ройств определяется способом задания математической мо дели объекта. Наиболее общей формой является описание свойств объекта условными плотностями вероятности. Рас смотрим также задачи в рамках байесова подхода: а) когда зависимость функций состояния от воздействий по границам и начальных условий задана в явном виде с точностью до не известных параметров; б) когда модель объекта представле на совокупностью уравнений в частных . разностях, гранич ных и начальных условий.
Учитывая, что в настоящее время из-за новизны и слож ности задачи имеется весьма незначительный опыт получения конкретных алгоритмов оптимального управления в стоха стических системах с накоплением информации, в данном разделе мы наряду с изложением общих методов синтеза (подразделы 1.1, 1.2) уделяем значительное внимание нахож дению в явном виде оптимальных алгоритмов дуального управления для ряда частных задач (подразделы .1.3—1-5.).
1. 1. 1. Оператор объекта задан |
. |
• |
условными плотностями вероятности. |
|
|
Параметризация задачи - |
|
|
Рассмотрим блок-схему .системы управления, представ ленную на рис. 1. 1. Приняты обозначения: О — объект,
3 |
2247 |
33 |
включающий две части (1 и 2); УУ — управляющее устройст во; и — управление; у, q — контролируемый и неконтроли руемый выходы объекта. Помехи g и h представляют собой по следовательности независимых случайных величин. Все пе ременные могут быть векторами и рассматриваются в дис кретные моменты времени 5 ( s = l, ..., п) с интервалом кван
тования At= —; п фиксировано. Переменные в момент вре
мени s имеют соответствующий индекс u [s]= « s, qr[s]=gs и т. д. Стрелкой сверху будем отмечать временные векторы типа
k [s ] = II b [1 ]...u [s ] | | т ,
q[s]= |
II ql\]-q[s] |
IIх |
, |
|
|
|
( 1. 1) |
y[s]= |
II у [1 ]---y[s] |
||1 |
• |
Управляющее устройство УУ должно на основании анали за информации, содержащейся в совокупности предшествую
щих значений управлений u[s—1] и контролируемых выхо
дов t/[s—1], вырабатывать управляющие воздействия «[>']» обеспечивающие минимум статистическому критерию качест ва — полному риску R:
пп
(!• 2>
5= 1 |
5=1 |
34
Здесь R s — удельный риск, Ws и W% — удельная и суммар
ная функции потерь. Функцией потерь называется функция, -характеризующая «потери», связанные с отклонением режи ма работы объекта от предписанного, т. е. отклонением ^[s] и y [s] от задающих воздействий g*[s], y*[s]. В этом случае
W s = ^ S(<7*[s],y*[s],?[s],y[s]). |
(I. 3) |
Иногда переменные q и q* могут отсутствовать. Или же, на оборот, качество ведения процесса определяется исключитель но степенью близости g[s] и <7*[s], т. е.
|
(1. |
4) |
хотя измеряются |
лишь переменные у [s], статистиче |
ски связанные с <?[s]. Управляющие воздействия также могут явно входить в выражение
^=^s(<7*[s],<M «[s]). |
(1. 5) |
Функцию W некоторые авторы называют функцией стоимости, штрафа или веса. Примеры различных функций потерь можно Найти в [1. 1, 1. 2, В. 15 — В. 17]. Мы в основном будем поль зоваться терминологией, принятой в монографии А. А. Фельд- ■баума [В. 15]. Поскольку W s является случайной, она непо средственно непригодна для характеристики и сравнения раз личных устройств и алгоритмов. Нужно выбрать какую-либо неслучайную величину, которая могла бы охарактеризовать точность оценки в среднем по множеству реализаций. В ка честве такой величины и принят риск — математическое ожи дание функции потерь. В некоторых нижеследующих задачах рассматривается удельный условный риск rs — условное ма тематическое ожидание удельной функции потерь при фик сированной предыстории.
Поясним, что понимают под стратегией управляющего устройства. Проведя статистическую обработку поступивших
с объекта сигналов у [5—1], управляющее устройство должно принять решение о величине оптимального управляющего воздействия w[s]=u*[s], т. е. каждой реализации сигналов
«[s—1], у [5—1], <7*[s] должно |
быть поставлено в соответст |
вие управление u[s]. Правило |
выбора решения называют |
стратегией решающего (управляющего) устройства. В каче стве синонима понятия «стратегия» будем использовать по
35
нятия «алгоритм» и «решающее правило». Стратегии бывают случайными (иногда их называют рандомизированными) и регулярными, или детерминированными (нерандомизированс ными). Если стратегия случайная, то управляющее устройст
во содержит некоторый случайный механизм выбора решения
—►
и описывается условной плотностью вероятности P(w[s]|w[s—1],
у[s—1], g*[sl=rs |
выбора |
управления |
ц[$] при фиксиро- |
|
|
—* |
|
ванных временных векторах “ Is—l],y[s—1], <7*[s]'. Предпола |
|||
гаем, что функция потерь имеет вид (1.4) |
или (1.5). |
||
Стратегия Г$ |
должна |
удовлетворять |
естественным: усло |
виям: |
|
|
|
r s> и, |
j r srfS = l. |
(1. б) |
|
|
Q(u[sJ) . |
|
Здесь П(-) — область изменения аргументов, a dQ — ее бес конечно малый элемент.
Задачу синтеза оптимального управляющего устройства можно сформулировать как задачу нахождения такой ре шающей функции Г5 ,при которой полный риск минимален.
Вначале рассмотрим простую задачу и на ней изучим неко торые принципиальные положения общей теории дуального
управления. |
является |
нелинейным статическим с чис |
||
Пусть объект |
||||
тым запаздыванием на время |
-гн= тД t и характеристики его |
|||
(так же, как |
и |
УУ) |
заданы условными плотностями |
|
P(<7[s-H]|«[s]),P(y[s + |
т]|и[5)). |
Предположим, что стратегия |
УУ r s случайная. Задание считаем известным и постоянным: Запишем выражение для удельного риска
в(s + t) - m такте.
y7(^*,<7[s+T])P(«[s],^[s-fx],y[s— l]|<7*)d2. |
(1. 7) |
|||
2(«[s], <7.[s+xi, y[s—11) |
|
|
|
|
Преобразуем |
плотность вероятности |
P(«[s], q[s + |
x], у ;[s—• |
|
— 1)9*). Для |
упрощения записи зависимость .ее от |
q* опу |
||
стим: |
г - . : : ' |
' ■ " |
'. |
|
36
|
P(«[s], g'[s+'c],y[s— l]) = P(^[s+,5] \ иЫ, |
|
|
1], |
|
|||||||||
|
|
|
y[s— 1])P(u Ы|й [s— H .^ s + t— l],y[s— 1])X |
|
||||||||||
|
X P ()'[ s - 1] |
I ~u[s—Ur^ts-b-c— 1 ]), 3’[s— 2])P(«[s — |
1], |
|||||||||||
|
|
|
|
|
q[s+t — l],y[s—2l). |
|
|
|
|
П- 8) |
||||
Поскольку объект без памяти, в первом |
множителе |
выра |
||||||||||||
жения (1. |
8) |
переменные m[s—1], ^[s-j-x—l],>»[s—1] |
можно |
|||||||||||
опустить. |
Действительно, |
при |
фиксированном |
иЫ |
плот |
|||||||||
ность вероятности |
gts-Hl |
не изменится, если |
зафиксировать |
|||||||||||
еще |
и перечисленные |
переменные. По той |
же |
причине в |
||||||||||
условной |
плотности |
P(y[s—1] | «[s— 1], <7k + -и—1], y[s—2]) |
||||||||||||
следует |
опустить |
все |
переменные справа |
от |
в |
вертикальной |
||||||||
черты, |
кроме k[s—х—1 ]. Второй множитель |
(1- 8) |
пред |
|||||||||||
ставляет |
собой стратегию |
Г5 |
управляющего |
устройства в |
||||||||||
s-M |
такте. |
По определению Г5 ищем в классе |
условных |
|||||||||||
плотностей вероятности иЫ, зависящих |
лишь |
от |
реализа |
|||||||||||
ций управления u(s—1) (в данном частном случае Г8 |
зави- |
|||||||||||||
сит |
только от «[s—т—1]) и контролируемых |
выходов объ |
||||||||||||
екта |
y[s—1] в предыдущие моменты времени. |
8): |
|
|||||||||||
С учетом сказанного упростим выражение |
|
(1. |
|
|||||||||||
P(«[s], <7[s+T],y[s—1])= Р(<7к+т]|йЫ)ГsP(yls—l]|w[s—т—1]) X |
||||||||||||||
X P (« k — 1], qls+ x — 1], y[s—2]) = р |р (^ [г'+ т ] |н[г'])Х |
||||||||||||||
|
|
|
|
|
|
|
|
|
/=1 |
|
|
|
|
|
|
|
|
|
5—1 |
|
S—1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(1- 9) |
|
|
|
|
i= 1 |
/=1 |
|
|
|
|
|
|
|
Считаем известными значения u[j] при < 0 .
Подставив (1. 9) в (1. 7) и проинтегрировав по q[s+x—1] , получим
37
5—1
|
|
(1. |
10) |
|
i= 1 |
|
|
2(a[s — 1 ]yts—1 ]) |
|
|
|
где |
|
|
|
*'*+* = j ^(9*,?[s+-c])rsP(<7[s+ |
|
|
|
2 ( m [s ],<?[s + |
x]) |
|
|
5—1 |
|
|
|
+*] I k[s]) |
| u\i—x])dQ. |
(1. |
11) |
i=l |
|
|
|
Последовательность |
оптимальных рещающих |
правил |
|
|Г5) находим, начиная с последнего Г„_т, из условия |
ми |
нимума суммы удельных рисков R's+t по известной в.
теории |
дуального |
управления |
[В. |
15] процедуре. |
Для |
|||||||
отыскания стратегии Гя_ т достаточно |
минимизировать |
по |
||||||||||
Гл_ т функцию ■*!п с учетом соответствующих |
ограничений |
|||||||||||
на управление. Проанализируем формулу (1. 11). |
|
|
точно, |
|||||||||
а . |
|
Пусть все |
плотности |
вероятности |
известны |
|||||||
функция |
потерь выпукла. |
В теории |
статистических |
реше |
||||||||
ний |
[1.1, |
1.3] доказывается, |
что |
оптимальная |
стратегия |
|||||||
является нерандомизированной, т. е. плотность вероятности |
||||||||||||
Г„_т (аналогично и другие) |
вырождается |
в |
дельта |
|||||||||
функцию |
|
|
|
|
|
|
|
|
|
|
||
|
|
|
Tn_ z=o(u[n—т]—и*1п—х]). |
|
(1. |
12) |
||||||
В данном |
случае и*— неслучайная |
величина, |
не зависящая |
|||||||||
*4 |
|
—> |
|
Действительно, |
поскольку |
в |
||||||
от |
и\п—х—1], у[п—х—1 ]. |
|||||||||||
плотности P{y\i) | u [ i~ т]) |
не входят |
переменные |
интегри |
|||||||||
рования, то их можно вынести за знак интеграла. Запишем |
||||||||||||
х' для |
s = n —т: |
|
|
|
|
|
|
|
|
|
||
|
|
*—1 |
|
|
|
|
|
|
|
|
|
|
x,*+t= I X /3(yll’l I •«!*—' |
Jw(7*,^[s4-c])rsP(^[s-fx]ja[s])rf.Q . |
|||||||||||
|
|
1=1 |
|
Q(ufsJ,q[s+~.J) |
|
|
(1. |
13) |
||||
|
|
|
|
|
|
|
|
|
|
38
Так как все Р(-)!>0 и в |
функцию, стоящую |
перед |
знаком |
||||
интеграла, не входит и[$], то минимум |
достигается |
||||||
при минимуме по m[s ] интеграла, и обратная |
связь |
в |
си |
||||
стеме не нужна, накопление информации об |
объекте |
от |
|||||
сутствует (оно и не нужно, так как |
априори |
задана |
мак |
||||
симальная информация в терминологии А. А. Фельдбаума— |
|||||||
условные плотности известны точно). Управление |
и* явля |
||||||
ется детерминированным управлением, оптимальным в сред |
|||||||
нем. Дуальное управление в системе отсутствует |
и |
нет в |
|||||
этом |
необходимости. |
|
|
|
|
|
|
б. |
Допустим теперь, что априори отсутствует полная ин |
||||||
формация об условных |
плотностях |
вероятности |
в |
(1. |
11). |
||
При этом недостающую информацию УУ должно |
накапли |
||||||
вать в процессе работы. |
|
|
|
|
|
|
Возможны различные подходы, приводящие к различным формулировкам задач и способам их решения: параметриче скому и непараметрическому. В первом случае представляем (аппроксимируем) плотности вероятности известными функ циями с неизвестными (случайными) параметрами; во вто ром для восстановления неизвестных условных плотностей применяем методы непараметрической статистики. Эти воп росы освещены в [3. 11]. Здесь же подробнее остановимся на обсуждении первого подхода, связанного с параметризацией задачи.
Представим условные плотности вероятности, описываю
щие объект в |
виде |
|
^ |
[ s+ t] | n[s])=P0(?[s-M|[*, |
й[5]), |
/>№ +*] | a[s])=P0(y]s+t]|p, |
( Ь И ) |
|
n[s]), |
где Ро(-) — известные функции; р — вектор априори неизвестных параметров.
Накопление информации об объекте сводится к нахожде нию текущих статистических оценок m[s] параметров р. Ин декс «нуль» в (1. 14) ниже будем опускать.
Рассмотрим байесову задачу. |
Параметры р считаем слу |
|||
чайными величинами |
с |
известной |
плотностью |
вероятности |
Р(р). Функциих'5 |_х |
и |
R' s |_x в |
соответствии |
с формулами |
(1. 10), (1. 11) и (1. 14) также являются случайными. Проведя усреднение по р, получим
39