Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Нейронные сети для обработки информации

..pdf
Скачиваний:
9
Добавлен:
12.11.2023
Размер:
14.05 Mб
Скачать

Из приведенного описания следусг, «сто нечегкпя сеть ТЗК содержит только лва параметрических слоя (первый и третий), параметры которых уточняются в процессе обучения. Параметры первого слоя будем пазыа1пъ нелинейными параметрами, поскольку они относятся к нелинейной функции ( 1 2 .2 ), а параметры третьего слоя - линейными весами, так как они относятся х параметрам рц линейной функции ТЗК.

При уточнении функциональной завис! юсти (12.4) для сети ТЗК получаем:

Если примять, что в конкретный момент времени параметры условия зафиксированы, то функция у(х) является линейной относительно переменных х*

0 = 1 , 2 ,

При наличии N входных переменных каждое правило формирует №] переменных линейной зависимости ТЗК. При М правилах вывода это дает Л/(АГ+1) линейных параметров сети. В свою очередь, каждая функция принадлежности использует три параметра (с, я, 6), подлежащих адаптации. Если принять, что каждая переменная хг характеризуется собственной функцией принадлежности, то при М правилах вывода мы получим ЗАДУ нелинейных параметров. В сумме это даст АД4ЛГ+1) линейных и нелиней­ ных параметров, значения которых должпы подбираться в процессе обучешм сети.

На практике для уменьшения количества адоптируемых параметров оперируют меньшим количеством независимых функций принадлежнос­ ти для отдельных переменных, руководствуясь правилами, в которых ком­ бинируются функции принадлежности различных переменных. Если при­ нять, что каждая переменная х/ имеет т различных функций принадлеж­ ности, то максимальное количество правил, которые можно создать при нх комбинировании, составит: М - да* (при трех функциях принадлежности, распространяющихся па две переменные, это З2 = 9 правил вывода). Таким образом суммарное количество нелинейных параметров сети при М правилах вывода уменьшается с ЪМИ в общем случае до 3/Ш ,ЛУ. Количество ли­ нейиих параметров лрн подобной модификации остается без изменений, т.е. ЛЙУУ+1 ).

12.2. Структура сети Ванга-Менделя

Если использовать в качестве основы дальнейших рассуждений выражение (11.35), вытекающее из модели вывода Маидани-Заде, можно получить структуру нечеткой сети (рис. 12.2), определенную Л.Вангом и Дж.Мсндслсм [160].

Эго четырехсложны структура, в моторол первый слой выполняет фузэнфикацню входных переменных, второй - актирование значений активации усло­ вия, третий (лилейным) - агрегирование М правил вывода (первый нейрон) и генерацию нормализующего сигнала (второй нейрон), тогда как состоящий из одного нейрона выходной слон осуществляет нормализацию, формируя выходной сигналах). Только первый и третий слои являются параметрическими. В первом

слое это параметры функции фуззификацнн (с{*\

), а в третьем слое -

веса Н|, уг,

уд/, интерпретируемые как центр с%функции пр1П1адлежнасп(

следствия *-го нечеткого правила вывода. Представленная

на рис. 12.2 сетевая

структура реализует функцию аппроксимации (11.34), которую с учетом введенных обозначении можно записать в виде

Рис. 12.2. Структура нечеткой нейронной сети Ванга-Менделя

Следует отметить большое сходство структур обеих нечетких сетей. Части, определяющие условие - первый и второй слон - у них идентичны, поскольку они соответствуют компонентам правил вывода *ЧР ", одинаково представляемым и в модели Мамдани-Заде, и в модели Т8 К. Различия наблюдаются в представлении компонентов " Т Н Е И В сети Т8К результат представляется полиномом первого порядка. В сети Ванга-Менделя результат представляется криста!пои которую можно рассматривать как полином нулевого порядка, определяющий це1гтр функции принадлежности следствия. Таким образом, с функциональной точки зрения сеть Ванга-Менделя подобия сети Т8К, а точнее - является сс частным случаем.

Задача обеих сетей (ТЗК и Ванга-Менделя) состоит о таю»! отображении пар данных (х, с/)3 чтобы ожидаемое значение, соответствующее входному вектору х, формировалось выходной функцией сети у(л). Несмотря на то, что приведенные рассуждения касаются сетей с одшш выходным нейроном, они могут быть обобщены на случай систем с несколькими выходами.

Обучение нечетких сетей, так же как и классических сетей, может проводиться либо по алгоритму с учителем, основанному на минимизации целевой функции, задаваемой, как правило, с использованием эвклидовой

нормы как

 

*=4 & К * ,0) - < Л 2 ,

( 1 2 .8)

* г-1

 

где р обозначено количество обучающих пар (х, Л), либо по алгоритму самоорганизации, согласно которому выполняется группирование (кластери­ зация) данных.

12.3. Гибридный алгоритм обучения нечетких сетей

Гибридный алгоритм применяется к обеим описанным выше сетевым структурам. Сеть Ванга-Менделя может при этом трвюоваться как сеть Т8К, в которой все параметры (кроме подлежащего уточнению VI = рю) РЦ (* = 1,2,..., М%) = 1 ,2 ,..., АО тождественно равны нулю. Поэтому дальнейшие рассуждения будут касаться сети ТЗК как более общей, чем сеть Ванга-Менделя.

В гибридном алгор)гтме подлежащие адаптации параметры разделяются на две группы. Первая иэ них состоит из линейных параметров рц третьего слоя, а вторая группа - из параметров нелинейной функции принадлежности первого слоя. Уточнение параметров проводится в два этапа.

На первом этапе при фиксации определенных значений параметров функции принадлежности (в первом цикле - это значения, получеш!ыс в резуль­ тате инициализации) путем решения системы линейных уравнений

рассчитываются линейные параметры рц полинома Т8К. При известных значениях функции принадлежности зависимость (12.6) можно представить в линейкой форме

у(х) = рА0 + Хр^х7 1, (|2.9)

1ПЛ?’(*у)

Ч NГ-1

= СОН51

( 12. 10)

1 Пя5’Ц)]

 

/=> и - *

]

 

для * = 1,2, .... М. При р обучающих выборках (дг^, «ДО)

(/ «= 1, 2,.... р)

и замене выходного сигнала сети ожидаемым значением «ДО получим сксгему

из р

линейных уравнений вида

 

 

 

Рхо

Ч |

 

>

Ч

 

■•■Чи*? Р\н - «ДО1

 

 

Рио

ч >

 

«ДО>

 

 

 

 

Рня.

где

обозначает уровень октиоацин

(вес) условия *-го правила лрн

предъявлении Аг-го входного вектора х. Эго выражение можно записать в сокращенной матричной форме

А р =Л.

(12.12)

Размерность матрицы А равна р х (/V+ 1)Д при этом обычно количество строк значительно больше количества столбцов (N + I)М. Решение этой системы уравнений можно получить за один шаг при помощи псевдоннверсии матрицы А

р =

(12.13)

Пссвдоинверсня матрицы заключается в проведении декомпозиции ЗУО с последующим сокращением се размерности так, как эго представлено в разделе 5. Подробности вычислительной реализации алгоритма 5УО можно найти, например, в работе Г. Голуба и К. ВонЛоана [42].

На втором этапе после фиксации значений линейных параметров рц рассчитываются фактические выходные сигналы }(}) сети для /*= 1, 2,.... р,

для чего используется линейная зависимость

„<■ >1

= А р

(12.14)

и следом за ними - вектор ошибки е = у -4 . Сигналы ошибок направляются через подключенную сеть по направлению ко входу сети (обратное распространение) вплоть до первого слоя, где могут быть рассчитаны компоненты градиента целевой функции относительно конкретных параметров су\о***,Ь1**. После формирования вектора градиента пара­ метры уточняются с использованием одного из градиентных методов обучения. Если применяется простейший метод наисморейшеш спуска, то соответствующие формулы адаптации принимают форму:

(12.15)

(12.16)

(12.17)

где л обозначает номер очередной итерации.

После уточнения нелинейных параметров вновь запускается процесс адаптации линейных параметров функции Т5К. (первый этап) к нелинейных параметров (второй этап). Этот цикл повторяется вплоть до стабилизации всех параметров процесса. Формулы (12.15)-(12.17) требуют расчета градиента целевой функции относительно параметров функции принадлежности. Окончательный вид эпос формул зависит как от используемого определения функции погрешности на выходе сети, так и от формы функщш принадлежности. Например, при использовании обобщенной функции Гауссе

(12.18)

соответствующие формулы градиента целевой функции (1 2 .8) для одной пары обучающих данных (л, л() принимают вид

Щ . П Щ т ф .............

гпгг.

307

 

 

Ах»' '° '(*Ь<',|,[Ао+|,'’л ] ^ ' СИЯ»

 

 

^,-м х)^)![Ло+| лл] ^ г

 

( 12.21)

Пр.»,.од«ьК

^

Л»;

 

ут

 

 

 

 

 

. —

 

определенные на основе зависимости

 

 

 

 

 

(12.10) и (12.18), можно записать как

 

 

 

 

 

&у,

 

<5г>ш(.уу) -/(* ,)

 

П[р'?>,

■)‘Ч

«?’

Д

( 12.22)

* У '

 

м * , » 1

 

Ч*/)1]

 

I

*

!

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

^

’ Г * , - * У Т

 

Л»1;

 

 

)-/(* ,)

ш / ^ и,)]

«

К

«?*

Д

(12.23)

 

 

 

[м(*у)]2

 

 

 

 

 

 

 

 

 

М Л /

 

 

 

 

 

 

 

*мм(*у) -/(* ,)

 

 

Г

' ^

Д

Л ) * '=

 

(гл(*,))’

*

х

М Л/

И

^

 

П №

 

 

Кронекерл,Г

 

(12.24)

для г = I, 2....... А/,

где 4* обозначает(дельту^

/(* ,)= П /4‘4*;)*

м(.т/ ) = х | й ^ ? ,< ^|)|

Несмотря

 

на сложную структуру приведенных фор­

мул, выражающих компоненты вектора градиента, они позволяют аналити­ чески определить величины, необходимые для уточнения параметров нечеткой сети.

При практической реализации шбридмого метода обучения нечетких сетей доминирующим фактором их алаптпцни считается первый этап, ла котором веса рц подбираются с использованием псевдоннверсии за один шаг. Для

уравновешивания его вл> ния второй этап (подбор нелинейных параметров градиентным методом) многократно повторяется в каждом цикле.

Представленный гибридный алгоршгм - один из наиболее эффективных способов обучения нечетких сетей. Его главная черта состоит в разделении процесса обучения на два обособленных во времени этапа. На каждом этапе уточняется только часть параметров сети. Если принять во внимание, что вычислительная сложность хпждого алгоритма оптимизации пропорциональна (нелинейно) количеству параметров, то уменьшение размерности задачи оптимизации существенным образом сокращает количество математических операций и увеличивает скорость выполнения алгоритма. Благодаря этому гибридный алгоритм значительно более эффективен, чем обычный градиентный алгоритм фронтального типа, согласно которому уточнение всех параметров сети производится параллельно и одновременно.

12.4. Применение алгоритма самоорганизации для обучения нечеткой сети

Алгоритм самоорганизации приписыаает вектор х к соответствующей группе данных, представляемых центром с\, с использованием обучения конкурентного типа подобно тому, как это имело место в сетях с самоорганизацией Кохонеио. При обучении этого типа процесс самоорганизации становится возможным при предъявлении вектора х Базовая форма алгоритма самоорганизации позволяет точно определять положение центров с/ соответствующих групп данных (кластеров), на которые подразделяется многомерное пространство. Эти центры в последующем могут использоваться в гибридном алгоритме обучения нечеткой сети в качестве начальных значений, что существенно ускоряет процесс обучения

игарантирует сходимость решения к глобальному минимуму.

12.4.1.Алгоритм нечеткой самоорганизации С-теала

Допустим, что в сети существует К нечетких нейронов с центрами в точках е{(* = ], 2, .... 10. Начальные значения этих центров могут быть выбраны случайным образом из областей допустимых значений соответствующих компонентов векторов л) (/ = I, 2, .... р), использованных для обучения. Пусть функция фузэнфиквцин задана в форме обобщенной функции Гаусса, выраженной формулой ( 12 .2).

Подаваемый на вход сети вектор дубудет принадлежать к различным труппам, представляемым центрами с„ в степени иц, причем 0 й иц & 1, а суммарная

степень принадлежности ко всем группам, очевидно, равна 1. Поэтому

 

1 |л ,= 1

(12.25)

м

 

для у - 1, 2 , ...» р. Функцию погрешности, соответствующую

такому

представлению, можно определить как сумму частных погрешностей принад­ лежности к центрам су с учетом степени принадлежности му. Следовательно,

Е&*# 1к|-дГ/||1

(12.26)

тде т - это весовой коэффициент, который принимает значения из интервала [1, «)• Цель обучения с самоорганизацией состоит в таком подборе центров с,, чтобы для заданного множества обучающих векторов ху обеспечить достижение минимума функции (12.26) при одновременном соблюдении условий ограничения (12.25). Тлким обратом возникает задача минимизации нелинейной функции (12.26) с р ограничениями типа (12.25). Решение этой задачи можно свести к минимизации функции Лагранжа, определенной в виде [60]

 

 

 

 

Х.Е= Е Е й; ||с,-.т, I* + 1 аек» - 0 •

(1227)

 

 

 

 

1-1/-1

у-1

(/■!

)

 

ще Ау (/ = I, 2,.... р) - это множители ЛаГранжа. В [60] доказано, что решение

задачи (12.27) можно представить в виде

 

 

 

 

 

 

 

 

 

 

с,

-

 

 

 

(12.28)

 

 

 

 

 

и

 

 

 

 

 

 

 

 

 

 

"* = --------— г

*

 

 

<12.29)

где

о'у

-

это

эвклидово

расстояние

между

центром С{ и

вектором ху,

=

Но

-

дгу||.

Поскольку

точные значения

центров «| в начале процесса' не

известны, алгоритм обучения должен быть итерационным. Он может быть сформулирован в следующем виде.

1.Выполнить случайную инициализацию коэффициентов му, рыбироя их значения из интервала [О, 1] таким образом, чтобы соблюдалось условие (12.25).

2.Определить К центров с\ в соответствии с (12.28).

3.Рассчитать значение функции погрешности согласно выражению (12.26). Если ее значение окажется ниже установленного порога либо если уменьшение этой погрешности относительно предыдущей итерации пренебрежимо мало, то завершить вычисления. Последние значения центров составляют искомое решение. В противном случае перейти к п. 4.

4.Рассчитать новые значения му по формуле (12.29) и перейти к л. 2.

Такую процедуру нечеткой самоорганизации будем называть алгоритмом

С-теаю.

Многократное повторение итерационной процедуры ведет к достиже­ нию минимума функции Ег который необязательно будет глобальным минимумом. Качсстио находимых центров, оцениваемое значением функции погрешности Е, существенным образом зависит от предварительного подбора как значений м^, так и центров с/. Наилучшим может быть признано такое размещение центров, при котором они располагаются о областях, содер­ жащих наибольшее количество предъявленных векторов лгу. При таком подборе центров они будут представлять векторы данных лгу с наименьшей суммарной погрешностью.

Поэтому начало итерационной процедуры расчета оптимальных значений центров должно предваряться процедурой их инициализации. К наиболее известным алгоритмам инициализации относятся алгоритмы пикового группирования н разностного группирования данных.

12.4.2. Алгоритм пикового группирования

Алгоритм пикового группирования был предложен Р. Егером и Д. Филевым [60, 173]. В качестве меры плотности размещения векторов x^ в нем генери­ руются так называемые пиковые функции. При использовании р входных век­ торов создается сетка, равномерно накрывающая пространство векторов ху. Узлы этой сетки рассматриваются как потенциальные центры V, и для каждого из них рассчитывается пиковая функция т(»>)

(12.30)

Коэффициент <т - это константа, шщнвидуалыю подбираемая для каждой конкретной задачи, а Ь- показатель степени обобщенной функции Гаусса, кото­ рая применяется в нечеткой сети.

Величина функции ш(и> рассматривается хак оценка высоты пиковой функции. Она пропорциональна количеству векторов ду, находящихся в окрестности потенциального центра V. Малое значение ш(у) свидетельствует о том, что центр V располагается в области, в которой сосредоточено неболь­ шое количество векторов X). Следует обратить внимание, что коэффициент

а оказывает незначительное

влияние на итоговые пропорции между

т(р) для различных значений V, поэтому подбор его величины не является

критичным.

 

После расчета значений т(и)

для всех потенциальных центров среди них

отбираются первые (с|), имеющие наибольшее значение т ( 0 . Для выбора следующих центров необходимо прежде всего исключить с\ к узлы, расположенные в непосредственной близости от С|. Это можно сделать путем переопределения пиковой функции за счет отсечения от нес функции Гаусса с

центром в точке с\. Сели эту вновь определяемую функцию обозначить (н), то получим

Необходимо обратить внимание, что новая функция лгтм (и) имеет нулевое значение в точке с\. Рис. 12.3 иллюстрирует типичный процесс; пикового группирования в двумерной пространстве [60]. На рис. 12.3 л показан график исходной функции т(к), на рис. 12.36 - график функции МмчЧу) после отсечения первого центра в точке сь на рис. 12.3вграфик после отсечения второго центра в точке «2* л но рис. 12.3г - после отсечения третьего центра в точке су Заметно, чго последовательное отсечение центров (с максимальными значениями пиковой функции) позволяет обнаруживать и устранять очередные центры.

Рис. 12.3. Иллюстрация функционирования алгоритма пикового группирован!

Процесс нахождения следующих центров С2, сз,

осуществляется

последовательно на модифицированных аначеших функции

(и), полу­

чаемых при исключении ближайшего окружения центра, обнаруженного на предыдущем этане. Он завершается в момент локализации всех центров, используемых в модели нечеткой сети. Метод пикового группирования эффективен, если размерность вскгорп .V не слишком велика. 0 противном случае <лрн большом количестве компонентов х) число потенциальных