Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Нейронные сети для обработки информации

..pdf
Скачиваний:
7
Добавлен:
12.11.2023
Размер:
14.05 Mб
Скачать

1*0

(8.4)

(8.5)

у = № -

6.2.2. Алгоритм обучения сети КМ1.Р

Сеть КМЬР адаптируется с применением градиентного алгоритма обучения. Как и в апуац1П1 с однонаправленной сетью, рассчитывается градиент целевой функции относительно каждого веса. Для упрощения будем рассматривать сеть с одним выходным нейроном. В этом случае целевую функцию в момент / мож­ но опредешгть в виде

В Д = ^ * * ) -*(*>]'

 

(8.6)

Дифференцируя эту функцию относительно произвольного веса

(а =О,

1,...,К) выходного слоя сети, получаем:

 

 

г т

<У(8(*»«18(*)

(8.7)

Эи?>

4г№> Л .®

 

С учетом зависимостей (8.2) - (8.5) получаем

(8.8)

сЦи»}2*)

где Производная - ^ Ь г Рав,,а 1 только при 1 =а

тальных случаях. С учетом этого факта

э а д

[><*)-</(*)] щ т )

 

э , ^

*

 

 

 

причем

 

 

 

 

 

*М*) <Дг/Д*))у

 

 

<1и^2)

4и,(1) ум» У

с1и42)

_ 4Г(н,(*)) у

^ р ф ^ - Я - Ж У - Л Г ))

 

Ли,(к)

у.лг*1

*

<Ь^2)

 

. У(И|№))г . т

 

 

 

<Ц(*)

у*1

 

с1»у^2>

и равна 0 во всех ос­

(8.9)

(8.Ю)

С учетом зависимостей (8.6) - (8.10) получаем

< н» т т )

( 8. 11)

Рскурр€,гпшл формула (8.11) позволяет рассчитать значение производной в произвольный момент времени но сс значениям в предыдущие моменты.

Она связывает значения производных в момент ( со эначетимк тех же функ­ ций в момс1Гты / - I, / - 2...... г - Р. Можно предположить, что начальные значения производных от сигналов перед началом обучения равны, т.е.

<1п%2) <Ц*2) <1м^2)

При использовании в процессе обучения метода нанскорейшего спуска адаптация весов выходного слоя определяется формулой

< 4 * = - « * * ) •

<8. 12)

 

Актуализация весов скрытого слоя происходит аналогичным образом. После расчета производной сшиалаХ*) анюситслыю веса и^'.де скрытого слоя полу­ чаем (6 ,а здесь означает дельту Кроискера)

4**) . &(*(*)) $ ию У Ы *> )

Лу (к -Р - 1+Л

' ° р

(8.13)

«Ц ?, " Ъ (к) м ‘

 

Следовательно, формула, определяющая адаптацию веса

 

скрытого

слоя, при использовании метода нанскорейшего спуска принимает вид

 

Д и $ = - П М * ) - а д Щ

 

 

(8-14)

Б окончательном виде алгоритм обучения сети КМЬР можносформулировать следующим образом.

1.Выполнить инициализацию случайным способом весов нейронов скрытого н выходного слоев.

2.Для каждого момента / при заданном возбуждении в виде вектора х рассчи­ тать состояние всех нейронов сети в соответствии с формулами (8.2) - (8.5).

3.С помощью зависимостей (8.11) к (8.13) определить значения производных

и- - ^ ^дпя всех значений а и Д соответствующих весам сети с га-

начально выбранной структурой.

4.Актуализировать осса в соответствии с формулами (8.12) и (8.14), после чего вернуться к п.2 настоящего алгоритма.

Представленный алгоритм функционирует в режиме “оштпГш", принимая

поступающие входные данные н соответствующие нм значения ожидаемого вектора </и оперативно корректируя значения весов.

8.2.3. Подбор коэффициента обучения

При обучении нейронной сети по методу обратного распространения ошибок решающее влияние на скорость обучения и на получаемые конечные результаты оказывает коэффициент обучения 17. Значение этого коэффициента в процессе обучения может оставаться постоянным либо подбираться адалтионым способом. Сохранение постоянного значения коэффициента обучения считается самой простои формой определения Такой способ имеет много недостатков, в том числе медленную сходимость, высокую вероятность расходимости процесса при слишком большом значении Г}, легкость попадания в точки локальных минимумов. Тем не менее до настоящего времени он остается наиболее простым

иэффективным методом, используемым при обучении в режиме

“онлайн”. Адаптивный подбор коэффициента позволяет контролировать погрешности обучения, в результате чего проводится увеличение или уменьшение его значения. Для ускорения процесса обучения предус­ матривается непрерывное возрастание козффиццента если уровень фактической погрешности по сравнению с погрешностью предыдущей

итерации находится в допустимых пределах. Если

обозначить

е,-.\ к е [

погрешности адаптации на /*м и (/ - 1)-м шаге, а

г)м и Ц/ -

соответст­

вующие им коэффициенты обучения, то в случае г/ >

(А-* - коэффициент

допустимого прироста погрешности) производится

уменьшение

значения

по формуле

 

 

=

 

(8.15)

где ед является коэффициентом уменьшения значения ц. В противном случае, когда Е{ й *„-?/•!• эначе1ше этого коэффициента увеличивается по формуле

1* (8,16)

где сцявляется коэффициентом увеличения значения г].

8.2.4. Коэффициент усиления сигнала

Применение выходных нейронов с сигмоидальной функцией акти­ вации дает возможность минимизировать структуру рекуррентной ней­ ронной сети. В сети КМЬР стандартной структуры, описываемой в большинстве литературных источников, как правило, используются выходные нейроны с линейкой функцией активации, что облегчает приведение сингала к любому числовому диапазону. Опубликованные в последнее время работы наводят иа мысль о возможности их замены сигмоидальными нейронами, позволяющими значительно сокрапгть раз­

мерность сети. Так, для сети, предложенной Нарендрой к содержащей линейные выходные пенроны, необходимо большое количество скрытых нейронов, например АГ -* 10. Тог же эффект может быть достигнут в сети с сигмоидальным выходным нейроном и всего двумя скрытыми нейронами. Однако следует учитывать, что значения сигнала сигмоидального нейрона ограничены интервалом от -1 до +1. Чтобы обеспеч1гть любой требуемый диапазон значений, на выходе сети добавляется линейный блок, усиливающий сигнал в М раз (0 < М < »). При грамотном подборе коэффициента усиления И подобная сеть демонстрирует такие же хорошие возможности адаптации при значительно меньшем количестве скрытых нейронов.

8.2.5. Результаты компьютерного моделирования

Сеть КМЬР повсеместно применяется для моделирования динамических процессов в режиме "онлайн". Типичным примером сс приложения может

служить имитация нелинейных динамических

объектов, для

которых

сеть КМЬР выступает в роли модели, а алгоритм

уточнения весов -

в роли

процедуры идентификации параметров этой модели. Идентифицированная модель объекта может в последующем использоваться для упрлвления данным объектом. Именно по этой причине сети КМЬР наиболее попу­ лярны для имитации систем управления машинами, устройствами и динамическими процессами [156]. В настоящем разделе мы обсудим подход к моделированию нелинейных динамических систем, предложенный в работах К. Нарсидры [107]. В отличие от работ Наренлры будем использовать сеть с нелинейным выходным нейроном, описываемы»! сигмоидальной функцией активации. На первый взгляд нелинейность выходного нейрона осложняет проблему идентификации нелинейного объекта (из-за ограниченности выходного сигнала диапазоном ( - 1 , 1), меньшей дшшшхи изменения сигнала, более сложного процесса обучения и т.п.). В действительности она имеет другие достоинства, которые отсутствуют у сети с линейным выходным нейроном: количество скрытых нейронов может быть существенно уменьшено, например, с К * 20 в работах Нарсидры до К - 2 при обсуждаемом подходе; намного сокращается длительность обучения; в начальных фазах обучения и тестирования возникает меньше ошибок, связанных с нулевыми начальными значениями. Ограниченность выходного сигнала легко ирсоло-левается включением в структуру сети усилителя, масштабирующего значения, изначально нормализованные в интервале ( - 1 , 1).

Сеть обучалась с использованием программы КМЬР, приспособленной для обучения в режиме "онлайн". Обучение было основано на адаптивной идентификации нелинейных динамических объектов. Объект, описываемый известной нелинейной функцией, генерировал последовательность заданных сигналов г/(м) о качестве реакции па возбуждение в виде векторов1*, форми­ руемых случайным образом. Сеть КМЬР со структурой, изображенной

на рис. 8.1, использовалась в хачестве модели этого объекта. В результате сравнения выходного сигнала это» модели у (л) с зпдныным сигналом </(л) рассчитывалось значение погрешности г (гг):

в {п )= М -< Ы .

(817)

управляющей процессом уточкення параметров нейронной сети. На рис. 8.2 показан способ включения сети при проведении экспериментов. Символом М обозначен постоянный коэффициент усиления модуля, масштабирующего выходной сигнал сети таким образом, чтобы его динамический уровень лежал в том же диапазоне, что и уровень заданного сигнала </(и).

Рис. 8.2. Схема включения с е т КМЬР при решении задачи идентификации

Во всех численных экспериментах использовалась сеть со структурой 2-2-1. Вход системы состоял нз одного входного узла л(л) к одного контекстного узла, вырабатывавшего копию задержанного на один такт выходного сигнала. Скрытый слон оостоял всего из двух нейронов, а выходной слой - из одного нейрона. При реализации процесса обучения выполнялся описанный выше адаптивный подбор хоэффициеггта обучения г). Уточнение весов проводилось и двух режимах.

В первом режиме предъявление каждой новой обучающей выборки сопровождалось однократным уточнением значений всех весов сети и переходом к следующей выборке. Этот режим будем называть в дальнейшем однократной адаптацией.

Во втором режиме каждая обучающая выборка вызывала многократное уточнение весов сети (предъявление обучающей выборки на вход сети сопровождалось изменением выходного сигнала, после этого уточнялись значения весов; повторная подача па вход сети сигнала обратного распрост­ ранения ошибок при неизменной обучающей выборке приводила к очередному изменению выходного сигнала с соответствующим уточнением весов и т.д.). Этот режим обучения сети будем называть многократной адаптацией. Каждый процесс обучения с е т начинался со случайных значений весов, равномерно распределенных в заданном интервале. 0 проводимых экспериментах это был гнгтервал (-0,1, 0,1).

Первый численный эксперимент был связан с динамической системой, предложенной в работе [107] и описываемой выражением

Уих = 0.3.У» + 0А>',_, + 0,б$1п(лМ|)+ 0,3з1п(3ш4) +0,1зт(5л1г4). (8.18)

Дискретный входной сигнал задавался функцией ы* = $ т ( |2 1 ) .

На рис. В.З представлена форма заданных сигналов, генерируемых динами­ ческой системой, определенной выражением (8.18). Из этого уравнения следует, что выходной сигнал системы будет ограничен при условии, что на входной сигнал также наложены ограничения. В экспериментах применялись обе мето­ дики уточнения весов - как однократной, так и многократной адаптации [156).

Рис. 8.3. Заданные сигналы динамического объекта, определенного выражением (8.18).

При использовании первой методики значения весов уточнялись после предъ­ явления каждой обучающей выборки по алгоритму наискорейшсго спуска с постоянным коэффициентом обучения Ц ■= 0,085 (адаптивный подбор коэффи­ циента обучения при однократной адаптации не имеет смысла). Результаты процесса обучения в воде изменений погрешности г(л ) = у(п ) - </(») пред­ ставлены на рис. 8.4. Они свидетельствуют, что погрешность обучения (уже после 20 циклов) быстро уменьшилась до несущественной величины, которая воспринималась только благодаря высокой точности идентификации системы.

Согласно второй методике значения весов уточнялись трижды на протяжении каждого цикла с применением адя1гтнвного ноэффнщгапа обучения г? и значений моэфф|щнснтоа - 0,7 и - 1,03. График погрешности обучения для этого случая представлен на рис. 8.5.

На графике видно, что погрешность, особенно в первой фазе обучения, оказалась меньше, а процесс адаптации модели к реакциям объекта протекал быстрее, особенно в начале обучения. Следует подчеркнуть, что и в первом,

н по втором случае остаточная погрешность обучения стабилизировалась на

определенном, достаточно шиком уровне, являясь движущей силой механизма адаптации параметров модели.

 

 

Погрешностьпроцесса обучения

 

=

р

| =

:

 

 

 

 

 

 

 

 

...

1

‘! ‘1 “

 

 

 

 

 

 

- Д

 

 

 

 

 

 

 

 

----------± Ь 1___е —___д|_

 

 

... 7 ----------

600

700

800

900 1000

О

100

200

300

400

500

Выборе*

Рис. 8.4. График обучения сета КМЬР при однократной адаптации весов

вкаждом цикле для динамического объекта из первого эксперимента

-О,в----------------------

 

 

 

— —

-----------------------

 

 

 

- 0,а ----------

 

---

------------------------------------------

 

 

 

 

 

 

-Я ----------

100

200----- ----- ----- ----- ----- ---------- -----

300

400

500

600

1

900

000 1000

О

700

Рнс. 8.5. Графикобучения сета КЖР при трехкратной«дотации весов в каждом цикле для динамического объекта из первогоэксперимента

Во втором эксперименте исследовалась нелинейная динамическая система, описываемая следующей зависимостью:

У м =

УкУы(Уё+Ы)

(8.19)

1+у1+у1 I

 

 

со входным сигналом н*= $т [2 5 0 ]* '^то Динамический объекте нелинейностью измерительного характера, неудобный для численного моделирования.

На ркс. 8.6 приведен график изменения выходного сигнала объекта (заданных значений), описываемого выражением (8.19). Результаты обучения в виде

Заданные мнения выходных сигналовобъектов *

:*|----------------

----- 1-----

,---------- ,---------- 4-----

0

100 200 300 400

500 б00 700 900 000 1000

 

выборка

Рмс. 8. 6. Задонн

юлы динамическогообъекта, определенного выражением (8.19).

графика погрешности при однократной адаптации весов представлены на рнс. 8.7. Погрешность обучения, принимавшая в начале процесса эначешш ^ - 5-го порядка, очень быстро (примерно за пять шпелов) 'сократилась ^6' остаточной величины, уменьшающейся в ходе обучения.

График погрешности обучения, соответствующий трехкратной адаптации Бе­ сов, изображен на рис. 8.8. Погрешность обучения при трехкратной адаптации

Рнс, 8.7. График обучения сел* КМЬР при однократной адаптации весов в каждом цикле для динамического объекта из второгоэксперимента

Рнс. 8.В. График обучения ссга КМ1.Рпритрехкратной адаптации весов в каждом цикле для динамического объекта из второго эксперимента

намного меньше, чем при однократной, а процесс обучения оказыоастся более коротким н приводит к сохращешно велишши погрешиости до уров­ ня 10"2- 10’3.

8.3. Рекуррентная сеть Эльмана

В.3.1. Структура сети

Рекуррентная сеть Эльмана характеризуется частичной рекуррентностью в форме обратной связи между скрытым н входным слоем (46, 114], реали­ зуемой с помощью единичных элементов запаздывания ±_ |. Обобщенная структура этой сети представлена на рис. 8.9. Каждый скрытый нейрон имеет свой аналог в контекстном слое, образующем совместно с внешними входами сети входной слой. Выходной слой состоит из нейронов, однонаправленно связанных только с нейронами скрытого слоя, подобно сети МЬР. Обозначим внутренний вектор возбуждения сети х (в его состав входит также едшшчиый сигнал поляризации), состояния скрытых нейронов - V€ Л*, а выходные сигналы сети - у € При таких обозначениях входной вектор сети в момент / имеет форму

*<*) =

*1 (*).■•■.х„(к), к, - 1),у2(* - 1),...,V*(* -1 )].

(8.20)

Веса синаптических связей первого (скрытого) слоя сети обозначим

в

второго (выходного) слоя

Если взвешенную сумму /*го нейрона скрытого

Рис. 8.9. Структура сети Эльмана

слоя обозначить ц, а его выходной сигнал - у„ то

м * ) = х * Ч Ч < * ) .

(8-21)

Х>

 

М * ) = /( « ,< * ) ) .

(8.22)

Веса И'р1 образуют матрицу \У<1>синаптических свлзеП скрытого слоя, а /|(н;) - функция актхвоцни г-го нейрона этого слоя. Аналогично можно обозначить взвешенную сумму /-по нейрона выходного слоя а соответст­ вующий ему выходной сигнал сети - у,. Эти сигналы описываются фор* мулами

 

Яг(*)= 1 > ^ , ( * ) ,

(8.23)

 

У№) =/г(8М ))

(8.24)

В свою очередь, веса

образуют матрицу \у!2», описывающую синап­

тические связи нейронов

выходного слоя, а / 2Ы

- функц|1Я активации /-го

нейрона выходного слоя.