Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Острем К.Ю. Введение в стохастическую теорию управления

.pdf
Скачиваний:
10
Добавлен:
24.10.2023
Размер:
10.97 Mб
Скачать

Нормаль к платформе Вертикаль

Акселерометр

Платформа

Регулятор

Р п с. 5.9. Схема системы вертикального выравнивания.

к*!

0

к = 4

в

Л-= 8

Р и с . 5.10. Вертикальная ошибка выравнивания 0 в момент времени t при различных значениях коэффициентов усиления k.

Нижний график соответствует стратегии, минимизирующей дисперсию.

Параметрическая оптимизация

171

где Э вертикальная ошибка, п — помехи, возникающие из-за горизонтальных ускорений. Платформа может быть описана уравнением

dt)

 

 

dt =

и,

 

где и — управляющее воздействие:

и=Ку

—коэффициент

усиления). Если шум является белым, показать, что система мо­ жет быть описана стохастическим дифференциальным уравне­ нием

 

dQ=— KMt

+ Kdv,

где {v{t)}—винеровский

процесс

с параметром дисперсии г.

Предположить, что начальное состояние нормально с парамет­ рами (0, а); найти коэффициент усиления K=K(t), такой, что дисперсия вертикальной ошибки выравнивания минимальна. Сравнить выводы с результатами, полученными для постоянно­ го коэффициента усиления, когда время выравнивания постоян­

но и равно

Т (рис. 5.10).

4. Пусть

Р и Q удовлетворяют уравнениям Риккати

^ ^ А Р + dt '

P(t0)=P0,

dQdt = AQ -f Q(t0) = Q„-

РА1

QA1

R± — РСТ R7l CP,

R2 — QCT R71 CQ,

Доказать,

что

из

условия Po>Qo

следует

условие

P(t)>Q(t)

для всех t, при которых уравнение Риккати

имеет

решение.

5. Рассмотреть уравнения

Риккати

 

 

 

 

 

'

dP

AP + PAT + R1-PCT

 

RTl

CP,

 

 

dt

 

 

 

 

 

 

 

 

 

 

 

 

Р(*о)=Ро,

 

 

 

 

 

 

 

 

«L=AQ+QAT

+

RX-

QCT

Яз- 1

CQ,

 

 

dt

 

 

 

 

 

 

 

 

 

.Q(t0) = P0.

 

 

 

 

 

 

Доказать,

что из Ri^Rz следует P(t)

• Q(t)

для всех t, при ко-

торых уравнение Риккати имеет решение.

 

 

 

6. Рассмотреть уравнения

Риккати

 

 

 

 

 

 

' —

АР + РА7

+ /?!-

РСТ RT1 CP,

 

 

 

dt

 

 

 

 

 

 

 

P(to)=P0,

172 Глава 5

 

-jj-

= AQ + QAT - f

QCT

RT1

CQ,

 

 

 

 

at

 

 

 

 

 

 

 

 

 

Q(t0) = P0-

 

 

 

 

 

 

 

Показать, что из Rz^Rz следует

P(t)^Q(t)

 

для всех

t,

при

ко­

торых уравнение Риккатн имеет решение.

 

 

 

 

 

 

 

6. ЗАМЕЧАНИЯ И ЛИТЕРАТУРА

 

 

 

Идея

параметрической оптимизации

стохастических

систем

изложена

в работах [1, 2], в которых дисперсия сигналов

оцени­

вается с помощью теории вычетов. Приведены таблицы

интегра­

лов для процессов с непрерывным временем.

Аналогичные

ре­

зультаты для систем с дискретным временем изложены

в рабо­

те [3] . Теорема

2.2 это по существу

теорема Шура — Коэна

об устойчивости линейных систем с дискретным временем.

До­

казательство, приведенное в разд. 2, взято

из работы

[4] .

Его

можно найти также в работе [5] . Теоремы, близкие к теореме 2.2, рассмотрены в работах [6, 7].

Теорема 3.2-это по существу теорема Раусса — Гурвица. Идея рекурсивной оценки интегралов принадлежит Ннкольни [8, 9]. Алгоритм для систем с дискретным временем, приве­

денный в теореме 2.3, рассмотрен в работе [10].

Следствие из теоремы 2.3 и вычислительный алгоритм при­ ведены в р а боте [11].

Алгоритм на Алголе для систем с непрерывным временем можно найти в работе [12].

Идея восстановления состояния динамической системы с ис­ пользованием математической модели, рассмотренная в разд. 4 и 5, известна давно. Ее обсуждал Дж. Бертрам в 1961 г. Более ранняя ссылка на построение модели без обратной связи приво­ дится в работе [13]. Более подробно эти вопросы изложены в работах [14, 15].

Рекуррентные уравнения, приведенные в теоремах 4.1 и 5.1, идентичны алгоритму фильтрации Калмана — Бьюси [16, 17].

1.James Н. М., Nickols N. В., Phillips R. S., Theory of Servomechanisms, McGraw-Hill, N. Y., 1947. Русский перевод: Джеймс X., Никольс Н., Филлипс Р., Теория следящих систем, М., ИЛ, 1951.

2.Newton G. С., Gound L: A., Reiser J . F., Analytical Design of Linear Feed­ back Controls, Wiley, N. Y., 1957. Русский перевод: Ньютон Дж. К., Бл'лд Л. А., Кайзер Дж. Ф., Теория линейных следящих систем, Физматгиз, 1961.

3.Jury Е. I., Theory and Application of the z-Transiorm Method, Wiley, N. Y., 1964.

4.Ruzicka I., Algebrnicka Kriteria Stability impulsnich Sonsta, Strognicky Casopis, XIII, c. 5, 395—403 (1962).

Параметрическая оптимизация

173

5.Strejc V., Syntise von Regelungssystemen mit Prozessrechner, AkademieVerlag, Berlin, 1967.

6.Jury E . I., On the Roots of Real Polynomial inside the Unit. Circle and a Stability Criterion for Linear Discrete Systems, Proc. of Sec. Congr. of 1FAC, Butterworhs, London, 1964.

7.Toma M., Ein Eingaches Verfahren zur Stabilitatspriifung von linearen ab-

tastsystemen, Regelungstechnik, 10, 302—306 (1962).

8.Nekolny J., Nova Jednoducha Methodika Testu Jakosti Regulace, Prague, 1957.

9.Nekolyn J., Benes J., Simultaneous Control оГ Stability and Quality of Adjustement-Application of Statistical Dynamics, in Coales et al. Automatic and Remote Control, Proc. of First 1FAC Congr. Moscow 1960, 2, Butter-

worths, London, 1961.

о

10. Astrom K. J-, Recursive Formulas for the Evaluation of Certain Complex Integrals, Rep. 6804, Lund Institute of Technology, 1968.

о

11. Astrom K. J., Jury E. I., Agniel R. G., A Numerical Method for the Evalua­ tion of Complex Integrals, I E E E Trans. AC (1970).

12.Peterka V., Vidincev P., Rational-Fraction Approximation of Transfer Func­ tions, Proc. IFAC Symp. of identification in Autom. Control. Sys., Prague, 1967.

13.Kalman R. E., Bertram J. E., General Synthesis Procedure for Computer Cont­

rol of Single and Multiloop Linear Systems, A I E E , 77, 1958.

14.Luenberger D. G., Observing the State of a Linear System, I E E E Trans, on Military Electron.. S, 74—80 (1964).

15. Luenberger D. G., Observers for Multivariable Systems, I E E E , AC11,

190—191 (1966).

16.Kalman R. E., A New Approach to Linear Filtering and Prediction Problems, ASME J. Basic Eng., 82, 35—45 (1960).

17.Kalman R. E . , Bucy R. S., New Results in Linear Filtering and Prediction Theory. ASME J. of Basic Eng., 83, 95—107 (1961).

Г л а в а 6

СТРАТЕГИИ УПРАВЛЕНИЯ, МИНИМИЗИРУЮЩИЕ ДИСПЕРСИЮ

1.ВВЕДЕНИЕ

Вгл. 5 рассмотрена параметрическая оптимизация систем, в которых регулятор имеет известную структуру. Данная глава посвящена более общим задачам оптимизации систем, в которых структура регулятора неизвестна. Цель главы — дать простую по­ становку задачи, которая позволила бы изложить основные идеи стохастического оптимального управления с небольшим количе­ ством математических выкладок. Проанализирована задача про­ стого регулирования для линейной стационарной системы с од­ ним входом и одним выходом. Предполагается, что возмущение, действующее на систему, можно описать в виде реализации нор­ мального стационарного случайного процесса с дробно-рацио­ нальной спектральной плотностью. Критерием управления явля­ ется минимизация дисперсии выходной переменной. Для про­ стоты рассмотрены системы с дискретным временем. Поэтому множество Т есть всегда множество целых чисел.

Вразд. 2 рассмотрена система первого порядка, для которой легко доказать теорему разделения. Доказывается, что опти­ мальный регулятор можно представить состоящим из двух ча­ стей: упредителя, предсказывающего действие возмущения на выходе, и апериодического регулятора, определяющего сигнал управления, который требуется для того, чтобы сделать предска­ зываемый выходной сигнал равным желаемой величине.

После установления связи между теорией упреждения и сто­ хастическим оптимальным управлением займемся изучением за­ дач упреждения. В разд. 3 решаются задачи упреждения стацио­ нарного стохастического процесса с дискретным временем и дробно-рациональной спектральной плотностью. Основным ре­ зультатом является теорема 3.1, которая дает рекуррентную формулу для упредителя, а также выражение ошибки упрежде­ ния. Показывается также, что коэффициенты рекуррентной фор­ мулы легко получаются из тождественного равенства полиномов как коэффициенты этих полиномов.

В разд. 4 снова рассмотрена задача управления. С помощью результатов задачи упреждения выведена формула для страте­ гии управления, минимизирующей дисперсию. Показано, что

Стратегии управления, минимизирующие дисперсию

175

ошибка управления для данной оптимальной стратегии управ­ ления равна ошибке упреждения.

Вразд. 5 обсуждены вопросы чувствительности оптимально­ го регулятора к изменениям параметров модели. Показано, что при некоторых условиях оптимальная система может быть чрез­ вычайно чувствительна к изменениям параметров. Приведен также метод получения квазиоптимальных стратегий, которые менее чувствительны к изменениям параметров.

Вразд. 6 дан пример промышленного применения стратегий управления, минимизирующих дисперсию. Рассмотрена задача управления весом бумаги на бумажной фабрике. Особое внима­ ние уделено постановке задач и обсуждению применимости тео­ рии. Рассмотрена задача идентификации, т. е. задача построения математических моделей возмущения и динамики процесса по эк­ спериментальным данным. Приведены экспериментальные ре­ зультаты применения стратегии управления, минимизирующей дисперсию.

2.ПРОСТОЙ ПРИМЕР

Рассмотрим сначала специальный случай, который иллюст­ рирует основную идею без каких-либо сложных выкладок. Пусть процесс, которым необходимо управлять, описывается уравне­ нием первого порядка

 

у (Г) +

a y ( t - l )

=

u(t-l)+e

 

(0 +

се (t -

1),

(2.1)

где и— управляющая переменная,

у — выходная

переменная,

a {e(t)}—последовательность

независимых нормально

распре­

деленных

с параметрами

(0, 1) случайных

переменных. Предпо­

лагается, что

с | < 1 . Цель

управления

состоит

в

минимизации

дисперсии

выходной

переменной.

Кроме

того,

допуска­

ются только

те стратегии

управления,

для

которых

величина

управляющей

переменной

в

момент

време­

ни t является

функцией

измеряемой

выходной

пере­

менной до момента

времени t, т. е. функцией

от y{t), y(t1),

. . . , и функцией от предыдущих

значений управляющей

пере­

менной, т. е. от и (t 1), и (t 2 ) , . . . .

 

 

Определим стратегию управления, минимизирующую диспер­ сию, сначала исходя из интуитивных соображений. Рассмотрим

состояние в момент времени t. Имеем

 

 

 

 

y(t+l)

= -

ay(t)+u(t)

+ e(t+

1 ) + се (Л.

 

(2.2)

Переменная y{t-\-\)

может быть произвольно

изменена

с по­

мощью соответствующего выбора

переменной u(t). Задача

зак­

лючается в выборе такого закона

u(t), при котором

Ey2{t-\-\)

было бы минимальным. Заметим

прежде

всего,

что e(t-\-l)

не

зависит от y(t),

и(t) и

е(t).

 

 

 

 

 

176

 

 

Глава 6

 

 

 

 

Следовательно,

 

 

 

 

 

 

 

 

Ey*{t +

\)>

Ee*(t + \) =

\.

 

 

Таким

образом, при наилучшем законе управления диспер­

сия выходной переменной будет больше или равна 1.

 

 

Вся информация для определения u(t)

заключена в предыду­

щих значениях выходной переменной у(t),

y(t—1),

.. . и вход­

ной u(t—1),

u(t — 2), . . . . При наличии

этой информации e(t)

можно вычислить по формуле

(2.1). Первый и четвертый

члены

правой части выражения

(2.2) становятся

таким образом

тоже

известными. Если выберем закон управления

 

 

 

 

u(t)

= ay(t) — ce(t),

 

 

 

(2.3)

получим формулу

 

 

 

 

 

 

 

 

y(t+l)

= e(t+l),

 

 

 

(2.4)

которая

дает

наименьшую возможную

дисперсию

переменной

y(t+i).

Если закон управления .(2.3) использовать на каждом шаге, формула (2.4) будет справедлива при всех t. Вычисление e(t) по

имеющимся

данным сведется

тогда к выражению (2.4), а закон

управления

(2.3) примет вид

 

 

 

u(t) = (a~c)y(t).

(2.5)

До сих пор рассуждения

были эвристическими. Проанализи­

руем теперь

свойства закона

управления

(2.5). Подставив фор­

мулу (2.5) в уравнение (2.1), получим

y(t + l) + cy(f) = e(t+l) + ce(t).

Следовательно,

[y(t+l)-e(t+l)]+c[y(f)-e(f)]=0.

Решая разностное уравнение с начальным значением y(tQ) — —e(to)=K, получим

у(Г)

=

еУ)+К-(-с?-\

Так как | с | < 1 , то

y(t)=e(t)

при to->-оо. Следовательно,

если используется закон

управления (2.5), выходная перемен­

ная в установившемся состоянии будет иметь наименьшую воз­ можную дисперсию. Таким образом, оптимальный закон управ­ ления задается формулой (2.5).

После того как результат получен, обсудим

некоторые его

следствия. Величину — ay(t)+u

(t) +ce(t) можно

интерпретиро­

вать как наилучшую оценку

(в среднеквадратическом смысле)

выходной переменной в момент времени ^ + 1 . полученную на ос­ нове данных, имеющихся в момент времени t. Ошибка упрежде­

ния равна e(t-\-\). Выбирая u(t)

согласно закону управления,

мы сделаем предсказываемую величину

равной желаемой вели­

чине 0. Тогда ошибка управления

будет

равна ошибке упрежде­

ния. Отсюда следует, что стохастическое управление тесно свя-

Стратегии управления,

минимизирующие

дисперсию

177

зано с упреждением. Отметим также, что динамика оптимальной

системы однозначно задается параметром с, а выходная

пере­

менная оптимальной системы является белым шумом.

 

Интересно также отметить, что мы получили бы тот же ре­

зультат, если

бы отбросили

предположение

о нормальном рас­

пределении

е и ограничились для допустимых законов

управ­

ления линейными функциями

наблюдений. Тогда можно было бы

положить, что е(^) имеет нулевое математическое ожидание и

единичную дисперсию для всех t, e(t)

и e(s) не коррелированы

для t=£s, a u(t) является линейной

функцией y{t), y(t1),

u(t-l)

 

3.ОПТИМАЛЬНОЕ УПРЕЖДЕНИЕ ДЛЯ СТАЦИОНАРНЫХ ПРОЦЕССОВ

СДИСКРЕТНЫМ ВРЕМЕНЕМ

В разд. 2 установлено, что решение задачи стохастического управления тесно связано с задачей упреждения. В данном раз­ деле задача упреждения рассмотрена более подробно. В следую­ щем разделе задача разд. 2 будет обобщена.

Теорию упреждения можно построить многими способами, которые отличаются допущениями, сделанными относительно процесса, критерия и упредителей. В данном разделе использу­ ются следующие допущения:

1.Предсказываемый процесс является стационарным, гауссо­ вым с дробно-рациональной спектральной плотностью.

2.Наилучшим упредителем является упредитель, который минизирует дисперсию ошибки упреждения.

 

3. Допустимый упредитель для y{t-\-k)

является произволь­

ной

функцией всех предыдущих

наблюдений.

Следовательно,

для

упреждения y(t-\-k) можно

использовать

все наблюдения

y(t);y{t-i),y(t-2),....

 

результаты, если ог­

 

Заметим, что мы получим те же самые

раничимся в качестве упредителей линейными функциями наб­ людений, а допущение о нормальном распредеделении процесса

заменим

предположением о дифференцируемое™ дважды про­

цесса.

 

 

 

 

 

 

 

 

 

 

Пример

 

 

 

 

 

 

 

 

 

 

Рассмотрим нормальный процесс первого порядка

со спект­

ральной плотностью

 

 

 

 

 

 

 

 

 

,

1 +

С2 + 2С COS СО

.

1 ^ 1

1 1 ^ - 1

1 *

 

Ф И =

, У

. , „

а

< 1 .

< 1 .

(3.1

 

 

1 + а 2 + cos со

 

 

 

 

 

Спектральная

плотность является

дробно-рациональной

функцией от exp(iw),

 

так как

 

 

 

 

 

 

Ф

(со) = 1 +

с2

+

с ( е г ю + е - ' а

) =

(l + c e f m

) ( l +

се-''и )

( 3

12—403

1 +

а 2

+

а ( е ' ш + е~ш)

 

(1 + ае'с о )(1 +

ae~ia)

'

 

 

 

 

 

 

 

 

 

 

178

 

 

Глава

6

 

 

 

Из теоремы 2.2 гл. 4 следует,

что

стохастический

процесс

{//(/), / = 0 ,

± 1 . ± 2 ,

. . . } можно

представить стохастическим

разностным

уравнением

 

 

 

 

 

 

y(t+\)

+

ay(t) =

e(t+l)

+

ce(t),

(3.3)

где {e(t), t=Q, ± 1 , ± 2 ,

. . . } — нормально

распределенные с па­

раметрами ( (0, 1) случайные переменные. Чтобы построить уп-

редитель

для данного

стохастического

процесса, используем

представление этого процесса

в виде (3.3).

Для простоты

рас­

смотрим

сначала одношаговое

упреждение.

Исследуем

состоя­

ние в момент времени

t.

Основываясь

на

наблюдениях

y{t),

y{t1),

требуется получить наилучшую возможную оценку

у(t-\-l).

Из уравнения

(3.3) получаем

 

 

 

 

 

y{t+\)=—ay

(0 + се Щ + е (t + 1),

 

(3.4)

где e(t)

и е(/+1) — независимые нормально распределенные с

параметрами (0, 1) случайные переменные. Случайная

перемен­

ная y(t-r-l) может быть выражена, таким образом, в виде сум­

мы трех членов. Первый член — ay(t)

известен

непосредственно

из наблюдений. Второй член

ce{t)

можно вычислить

рекуррент-

но по результатам наблюдений с помощью

формулы

(3.3). Тре­

тий член e(t~\-\)

не зависит

от наблюдений

y(t),

y{t1), ... .

Наилучшее упреждение для

y(t-\-l) определяется,

таким

обра­

зом, первыми двумя членами правой части уравнения

(3.4).

 

Разберем детали решения, т. е. покажем, как вычислиib <?(/)

по результатам

наблюдений

y{t),

y(t1),

. . . с помощью фор­

мулы (3.3). Для этого, очевидно, требуется

задать начальные ус­

ловия, но, так как | с | < 1 и имеется бесконечно

много

значений

у, начальное условие не является

существенным.

Для

доказа­

тельства

этого

утверждения

предположим

сначала,

что

e(tQ)

известно, a y(to),

z/(Aj+l),

y(t) —результаты измерений. Для

вычисления e(t)

надо решить разностное уравнение

(3.3) перво­

го порядка, которое можно записать в виде

 

 

 

 

 

 

[ е ( т + 1 ) _ 0 ( т + 1 ) ] +

с[е(х)-у(х)\

 

=

(а-с)у(х).

 

Решение имеет вид

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1—1

 

 

 

 

е(() =

[е (t0) -

у (t0)] ( - с ) ' - 1 '

+ y(t) +

(a—c)

2

( - с ) ' - 1 " " у

(п).

Так как | с | < 1 , первый член стремится к нулю при t0~*—оо для любых начальных условий. Таким образом, e(t) можно вычис­ лить прямо по результатам измерений с помощью формулы

e(t) = y (t) + {а-с)

2 ( - с ) ' - " " 1 у (п).

Стратегии управления, минимизирующие дисперсию

179

При этом наилучшее упреждение y(t-\-\),

основанное на наб­

людениях y(t),

y(t1),

y{t2),

 

задается

формулой

л

+ cy{t) +

c(fi

c)

1 -

1

 

 

y(i+\\l)=—ay(t)

£

( - с ) ' ^ " - ' у (га) =

 

 

 

 

 

п=—ос

 

 

 

=

(с — а)

£ (—с)'- "

t/(ra).

 

(3.5)

Ошибка упреждения равна

 

 

 

 

 

 

 

£ ( ' +

НО =

0 0 + l ) - k t

+

W)=e(t

+

1).

Таким образом,

задача одношагового

упреждения

решена. Од­

нако формула (3.5) не очень удобна для

использования. Напри­

мер, если требуется определить упреждение с помощью цифро­ вой вычислительной машины, в ее памяти необходимо хранить бесконечно много наблюдений. Это требование к объему памяти можно существенно ослабить, если результат переписать в виде рекуррентной формулы. Из выражения (3.5) получаем

л

y(t+l\f)

=

(c-a)[y(l)+

 

Ц

{-с)(-пу{п)\

=

 

=

(с-а) [у (I) +

( - с )

£ ( - с ) ' - " - 1

у (га)] =

 

 

 

 

 

П=— со

 

 

=—cy(t\t—l)

+

(c — a)y(t).

(3.6)

Одношаговый упредитель можно описать, таким образом, разностным уравнением первого порядка. При использовании формулы (3.6) для вычисления одношагового упреждения необ-

л

ходимо запоминать только одно число y{t\t-1). Отметим, что динамика упредителя определяется числом с.

Обозначения

Введем теперь формализм, который упростит анализ. Для этого определим оператор сдвига вправо q по формуле

 

 

 

qx(t) =

x(t+l).

 

 

 

 

Уравнение

(3.3)

при этом можно написать в следующем виде:

y(t+l)

= l + C9~] e(t+l)=e(t+l)+

c

~

\

e(t).

(3.7)

 

 

1 +

аа~г

1 +

aq-1

 

 

 

Последний

член

является линейной комбинацией

величин

e(t), e(t1),

 

 

которые можно

вычислить

по

наблюдениям

12*