Добавил:

mihail1000 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Воронежский государственный технический университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Методическое пособие 701

.pdf

Скачиваний:

Добавлен:

30.04.2022

Размер:

4.94 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 2411 12 13 14 15 16 17 18 19 20 21 22 23 24 > Следующая >>>

Граница

решений

Класс

С1

Класс

С2

Рис. 2.25. Пара линейно-разделимых образов

такой вектор весовых коэффициентов w, для котoрoгo истинно следующее утверждение:

wTх > 0 для любоro входного вектора х, принадлежащего классу С1,

wTх <= 0 для любоrо входногo вектора х, принадлежащего классу С2. (2.34)

Во второй строке утверждения (2.34) указано, что при paвeнстве wTх =0

входной вектор х принадлежит именно классу С2. При определенных таким образом подмножествах Х1 и Х2 задача обучения элементарноrо персептрона сводится к нахождению тaкoгo вектора весов w, для котopoгo выполняются оба неравенства (2.34).

Алгоритм адаптации вектора весовых коэффициентов элементарноrо персептрона можно сформулировать следующим образом.

Если n-й элемент х(n) обучающего множества корректно классифицирован с помощью весовых коэффициентов w(n), вычисленных на n-м шагe алгoритма, то вектор весов не корректируется. Т.е. действует следующее пра-

вило:
w(n+1)= w(n) если wTх(n) > 0 и х(n) C1 ,
w(n+1)= w(n) если wTх(n) <= 0 и х(n) C2.		(2.35)
В противном случае вектор весов персептрона подвергается коррекции в
соответствии со следующим правилом:
w(n+1)= w(n)- (n)x(n) если wT(n)х(n)	> 0 и х(n) C2,
w(n+1)= w(n) + (n)x(n) если wT(n)х(n)	<= 0 и х(n) C1,	(2.36)

где интенсивность настройки вектора весов на шаге n определяется параметром скорости обучения (n).

Если (n)= > 0, где – константа, не зависящая от номера итерации n,

вышеописанный алгоритм называется правилом адаптации с фиксированным приращением.

Докажем сходимость правила адаптации с фиксированным приращением для = 1. Само значение не играет особой роли, если оно положительно.

Значение параметра , отличное от единицы, обеспечивает масштабирование образов, не влияя на их разделимость. Случай с переменным коэффициентом

(n) рассмотрим позднее.

Вприведенном доказательстве считается, что в начале процесса обучения

101

вектор весовых коэффициентов равен нулю, w(0)=0. Предположим, что для n = 1, 2, . . . , wT(n) x(n) <0, а входной вектор х(n) принадлежит подмножеству X1. Это значит, что персептрон некорректно классифицировал векторы х(l), х(2), т.е. условие (2.34) не выполнено. Следовательно, для (n)= 1 можно использо-

вать вторую стpoку правила (2.36):

w(n+1)= w(n) +x(n) для х(n) C1.

(2.37)

Поскольку начальное состояние w(0) = 0, то уравнение (2.37) для w(n+1)

можно решить итеративно и получить следующий результат:

w(n +1) == х(l) + х(l) + … + х(n).

(2.38)

Так как по предположению классы С1

и С2 являются линейно разделимы-

ми, то cyществует такое решение wo, при котором будет выполняться условие w

T х(n) > 0 для векторов x(l), х(2),... , х(n), принадлежащих подмножеству X1. Для

фиксированногo решения w0 можно определить такое положительное число ,

что

min w0T x(n).

(2.39)

x(n) X1

Умножая обе части уравнения (2.38) на вeктop - строку w0T, получим

w0T w(n +1) = w0T х(l) + w0T х(l) + … + w0T х(n).

Учитывая (2.39) имеем

w0T w(n +1) >=n .

(2.40)

Теперь можно использовать неравенство Гучи-Шварца. Для двух векто-

ров, w0 и w(n + 1),eгo можно записать следующим образом:

w(n 1)

2 w0T w(n 1) 2 ,

(2.41)

где ||.|| - Евклидова норма векторноrо аргумента; w0T w(n 1) скалярное про-

изведение векторов. Заметим, что согласно (2.40)

w0T w(n 1) 2 n2 2

. Учитывая

это в (2.41), получим

w(n 1)

n2 2

или

n2 2

w(n 1)

(2.42)

Перепишем ypaвнение (2.37) в следующем виде:

w(k+1)= w(k) +x(k) для k=1,…,n и х(k) X1. (2.43)

Вычисляя Евклидову норму векторов в обеих частях уравнения (2.43), получим

w(k 1)				2					w(k)				2					x(k)				2	2wT (k)x(k).	(2.44)

Если персептрон некорректно классифицировал входной вектор x(k), принадлежащий подмножеству X1, то wT(k)x(k) < 0. Следовательно, из (2.44) получим выражение

102

w(k 1)2 w(k)2 x(k)2

или
w(k 1) 2 w(k) 2	x(k) 2 для k=1,…,n.	(2.45)

Применяя эти неравенства последовательно для k=1,…,n и учитывая изначальное допущение, что w(0)=0, приходим к неравенству

w(n 1)

x(k)

n ,

(2.46)

k 1

где – положительное число, определяемое следующим образом:

max	x(k)	2 .	(2.47)
max	x(k)	2 .	(2.47)
x(k) X1

Уравнение (2.46) означает, что Евклидова норма вектора весов w(n + 1) линейно возрастает с увеличением номера итерации n.

Результат, описываемый неравенством (2.46), при больших n вступает в противоречие с полученным ранее результатом (2.42) [122]. Следовательно, номер итерации n не может превышать значения nmax, при котором неравенства (2.42) и (2.46) удовлетворяются со знаком равенства. Это значит, что число nmax должно быть решением уравнения

nmax		2		2	nmax .
			2
	w		2
	w
	0

Разрешая это уравнение для nmax относительно wo, получим

nmax		w	2

		0		.	(2.48)

	2

Таким образом, доказано, что для (n) 1и w(0)=0, в предположении су-

ществования вектора решения w0, процесс адаптации синаптических весов персептрона должен прекращаться не позднее итерации nmax. Согласно (2.39), (2.40) и (2.41) решение для w0 и nmax не единственно.

Теорема сходимости для алгоритма обучения пeрсептрона с фиксированным приращением для персептрона формулируется следующим образом.

Пусть подмножества векторов обучения Х1 и Х2 линейно разделимы. Пусть входные сигналы поступают персептрону только их этих подмножеств. Тогда алгоритм обучения персептрона сходится после некоторого числа n0 итераций в том смысле, что w(n0)= w(n0+1) = w(n0+2) = … является вектором ре-

шения для n0<= nmax.

Теперь рассмотрим абсолютную процедуру адаптации однослойного персептрона на основе коррекции ошибок, в которой (n)– переменная величина.

В частности, пусть (n)– наименьшее целое число, для которого выполняется соотношение

(n)xT (n)x(n) wT (n)x(n) .

103

Согласно этой процедуре, если скалярное произведение wT(n)x(n) на шаге n имеет неверный знак, то wT(n + 1)х(n) на итерации n+1 будет иметь правильный знак. Таким образом, предполагается, что если знак произведения wT(n)x(n) некорректен, то можно изменить последовательность обучения для итерации n+1, приняв х(n+1)=х(n). Другими словами, каждый из образов представляется персептрону до тех пор, пока он не будет классифицирован корректно.

Использование отличного от нулевого исходного состояния w(0) приводит к увеличению или уменьшению количества итераций, необходимых для сходимости в зависимости от того, насколько близким окажется исходное состояние w(0) к решению w0. Однако независимо от исходного значения w(0) сходимость все равно будет обеспечена.

В табл. 2.10 представлен общий алгоритм обучения персептрона. Таблица 2.10

Общий алгоритм реализации обученияперсептрона

Исходные данные	Последовательность		Содержание
	шагов		шагов
x(n) 1,x1(n),..., xm (n) T -	1.Инициализация	Пусть w(0)=0. После-
вeктop-стpокa размерно-		дующие вычисления вы-
сти m+l;		полняются для шаrов n =
w(n) b(n),w1(n),..., wm (n) T -		1, 2,…
	2. Активация	На шаге n		активируем
вeктop-стpокa размерно-
сти m+l;		персептрон,		используя
		вектор х(n) с веществен-
b(n)-порог;
		ными	компонентами		и
y(n)- фактический отклик
		желаемый отклик d(n).
(дискретизированный);
	3. Вычисление фактиче-	y(n) sgn(wT (n)x(n)) ,			где
d(n)-желаемый отклик;
0 1-параметр скоро-	ского ответа	sgn(.)	функция вычисле-
сти обучения		ния знака aргyментa
	4. Адаптация вектора ве-	Изменение вектора весов

	сов	персептрона
	5. Возврат к п. 2
Таким образом, алгоритм адаптации вектора весовых коэффициентов
w(n) соответствует правилу обучения на основе коррекции ошибок:
	w(n 1) w(n) d(n) -y(n) x(n) ,			(2.49)

где – параметр скорости обучения, а разность d(n)-у(n) выступает в ро-

ли сигнала ошибки. Параметр скорости обучения является положительной константой, принадлежащей интервалу 0 1. Выбирая значение параметра ско-

рости обучения из этогo диапазона, следует учитывать два взаимоисключающих требования.

1. Усреднение предыдущих входных сигналов, обеспечивающее устойчивость оценки вектора весов, требует малых значений .

104

2. Быстрая адаптация к реальным изменениям распределения процесса, отвечающего за формирование векторов входноrо сиrнала х, требует больших значений .

Для решения сложных задач в ПК НПВР используются многослойные персептроны. Они имеют три отличительных признака.

1. Каждый нейрон сети имеет нелинейную функцию активации, которая является гладкой (т.е. всюду дифференцируемой), в отличие от жесткой пороговой функции, используемой в персептроне Розенблатта. Такому требованию, например, удовлетворяет сигмоидальная логистическая функция

yj		1	,	(2.50)
	1	exp( vj)

где vj – индуцированное локальное поле (т.е. взвешенная сумма всех синаптических входов плюс пороговое значение) нейрона j; yj – выход нейрона. Наличие нелинейности играет очень важную роль, так как в противном случае отображение "вход-выход" сети можно свести к обычному однослойному персептрону. Более того, использование логистической функции мотивировано биологически, так как в ней учитывается восстановительная фаза реального нейрона.

2.Сеть содержит один или несколько слоев скрытых нейронов, не являющихся частью входа или выхода сети. Эти нейроны позволяют сети обучаться решению сложных задач, последовательно извлекая наиболее важные признаки из входного образа (вектора).

3.Сеть обладает высокой степенью связности, реализуемой посредством синаптических соединений. Изменение уровня связности сети требует изменения множества синаптических соединений или их весовых коэффициентов.

Комбинация вышеизложенных свойств характеризует вычислительную мощность многослойного персептрона. Эти же свойства являются причиной непрозрачности функционирования персептронов (неполноты современных знаний о их поведении) [84]. Во-первых, распределенная форма нелинейности и высокая связность сети существенно усложняют теоретический анализ многослойного персептрона. Во-вторых, наличие скрытых нейронов затрудняет процесс визуализации обучения. В процессе обучения определяется набор признаков входного сигнала, которые следует представлять скрытыми нейронами. Это приводит к усложнению процесса обучения по причине необходимости выполнения поиска в широкой области возможных функций, поскольку выбор должен производиться среди альтернативных представлений входных образов

[223].

На рис. 2.26 показан структурный граф многослойного персептрона с двумя скрытыми слоями и одним выходным слоем. Показанная на рисунке сеть является полносвязной. Это значит, что каждый нейрон в любом слое сети связан со всеми нейронами (узлами) предыдущего слоя. Сигнал передается по сети

впрямом направлении, слева направо, от слоя к слою.

105

			Выходной
Входной			сигнал
сигнал	.	.	.
	.	.	.

Рис. 2.26. Структурный граф многослойного персептрона

Функциональный сигнал это входной сигнал, поступающий в сеть и передаваемый вперед от нейрона к нейрону по всей сети. Такой сигнал достигает конца сети в виде выходного сигнала. Данный сигнал является функциональным по двум причинам. Во-первых, он предназначен для выполнения некоторой функции на выходе сети. Во-вторых, в каждом нейроне, через который передается этот сигнал, вычисляется некоторая функция с учетом весовых коэффициентов.

Выходные нейроны составляют выходной слой сети. Остальные нейроны относятся к скрытым слоям. Первый скрытый слой получает данные из входного слоя, составленного из сенсорных элементов (входных узлов). Результирующий сигнал первого скрытого слоя, в свою очередь, поступает на следующий скрытый слой, и т.д. до самого конца сети.

Любой скрытый или выходной нейрон многослойного персептрона может выполнять два типа вычислений.

1.Вычисление функционального сигнала на выходе нейрона, реализуемое

ввиде непрерывной нелинейной функции от входного сигнала и синаптических весов, связанных с данным нейроном.

2.Вычисление оценки вектора градиента (т.е. градиента поверхности ошибки по синаптическим весам, связанным со входами данного нейрона), необходимого для обратного прохода через сеть.

Один из важных теоретических вопросов применительно к многослойным персептронам заключается в определении минимального числа скрытых слоев, обеспечивающих аппроксимацию некоторого непрерывного отображения. Ответ содержится в формулировке и доказательстве теоремы об универсальной аппроксимации для нелинейного отображения. Данная теорема представляет собой расширение теоремы Вейерштрасса [223]. Эта теорема утверждает, что любая непрерывная функция на замкнутом интервале действительной оси может быть представлена абсолютно и равномерно сходящимся рядом полиномов. Впервые интерес к данной теме возник в работе Розенблатта [224]. Для доказательства теоремы об универсальной аппроксимации использовалась

106

усовершенствованная теорема Колмогорова о суперпозиции [223]. В дальнейшем было показано, что многослойный персептрон с одним скрытым слоем, косинусоидальной пороговой функцией и линейным выходным слоем представляет собой частый случай "сети Фурье", обеспечивающей на выходе аппроксимацию заданной функции рядом Фурье [222]. Данная теорема формулировалась следующим образом.

Пусть ( )ограниченная, не постоянная монотонно возрастающая непре-

рывная функция. Пусть Imo – mо-мерный единичный гиперкуб [0, 1]m0 . Пусть пространство непрерывных на Imo функций обозначается символом С(Imo). То-

гда для любой функции fC(Imo) и > 0 существует такое целое число m1 и множество действительных констант i , bi и wij, где i = 1, . . . , m1, j = 1, . . . , mо, что

	m	m
F(x1,..., xm0	) 1	i ( 0	wij xj bi ),	(2.51)
	i 1	j 1

является реализацией аппроксимации функции ( ), т.е.

F(x1,...,xm0 ) f (x1,...,xm0 )

(2.52)

для всех x1,...,xm0 , принадлежащих входному пространству.

Теорема об универсальной аппроксимации непосредственно применима к многослойному персептрону, так как в модели многослойного персептрона в качестве функции активации используется ограниченная, монотонно возрастающая логистическая функция 1/[1+ехр(-v)], удовлетворяющая условиям, накладываемым теоремой на функцию ( ). ИНС (сеть Фурье) в символьном вы-

ражении данной теоремы описывается следующим образом.

1.Сеть содержит m0 входных узлов и один скрытый слой, состоящий из m1 нейронов. Входы обозначены x1, х2, . . . , хто.

2.Скрытый нейрон i имеет синаптические веса wi1 , . . . , wmo и порог bi.

3.Выход сети представляет собой линейную комбинацию выходных сигналов скрытых нейронов, взвешенных синаптическими весами выходного

нейрона - 1,..., m1 .

Выражения (2.51) и (2.52) устанавливают тот факт, что многослойного персептрона с одним скрытым слоем достаточно для построения равномерной аппроксимации с точностью для любого обучающего множества, представленного набором входов х1,х2,..., хто и желаемых откликов f(x1,x2,..., хто). Однако из теоремы не следует, что одного скрытого слоя ИНС достаточно для достижения ее качественногообобщения и минимального времени обучения.

В [222] приведены результаты исследований аппроксимирующих свойств персептрона с одним скрытым слоем, с сигмоидальной функцией активации и одним выходным нейроном. Эта сеть обучалась с помощью алгоритма обратного

107

распространения ошибок, после чего тестировалась на новых данных. Во время обучения сети предъявлялись выбранные точки аппроксимируемой функции f, в результате чего была получена аппроксимирующая функция F, определяемая выражением (2.51). Если сети предъявлялись не использованные ранее данные, то функцияF"оценивала"новые точкицелевойфункции,т.е.F=f.

Гладкость целевой функции f выражалась в терминах Фурье разложения. В частности, в качестве значения предельной амплитуды функции f использовалось среднее значение нормы вектора частоты, взвешенного значениями амплитуды распределения Фурье. Пусть fˆ(w) – многомерное преобразование Фу-

рье функции f(х), x m0 , где w – вектор частоты. Функция f(x), представленная в терминах преобразования Фурье fˆ(w) , определяется следующей инверсной формулой:

		f (x)	~f (w)exp( jwT x)dw ,	(2.53)
			m0
где j		. Для комплекснозначной функции fˆ(w)		с интегрируемой
где j	1	. Для комплекснозначной функции fˆ(w)		с интегрируемой

функцией w fˆ(w) первый абсолютный момент распределения Фурье функции f можно определить следующим образом:

Cf	\| ~f (w)\| \|\| w\|\|0,5dw,	(2.54)
	m0

где ||w|| — Евклидова норма вектора w; |f(w)| — абсолютное значение функции f(w). Первый абсолютный момент Cf является мерой гладкости функции f. Первый абсолютный момент Cf является основой для вычисления пределов ошибки, которая возникает вследствие использования многослойного персептрона, представленного функцией отображения "вход-выход" F(х), аппроксимирующей функцию f(х). Ошибка аппроксимации измеряется интегральной квадратичной ошибкой по произвольной мере вероятности для шара

Br {x:x r}радиуса r > 0. На этом основании можно сформулировать сле-

дующее утверждение для предела ошибки аппроксимации [225].

Для любой непрерывной функции f(x) с конечным первым моментом Cf и любого m1> 1 существует некоторая линейная комбинация сигмоидальных функций F(x) вида (2.51), такая, что

(f (x) F(x))2	(dx)	C'f	,	(2.55)

Br		m1

где C'f (2rCf )2.

Если функция f(х) наблюдается на множестве значений {xi}iN1 входного

вектора х, принадлежащего шару Вr, этот результат определяет следующее ограничение для эмпирического риска:

108

R	1	N	( f (xi ) F(xi ))2	C'f	.	(2.56)
	N
		i 1		m1

В [222] результат (2.56) использовался для описания гpаниц риска R, возникающеrо при использовании многослойноrо персептрона с mо входными узлами и m1 скрытыми нейронами:

C2f		m m
	O(	0	1	logN).	(2.57)
R O m	O(	N		logN).	(2.57)
1

Два слагаемых в этом определении границ риска R отражают компромисс между двумя противоречивыми требованиями к размеру скрытого слоя (величина m1 входит в знаменатель первого слагаемого и в числитель второго).

Кроме того, ограничение (2.57) показывает, что для точной оценки целевой функции не требуется экспоненциально большого обучающего множества и большой размерности входного пространства m0, если первый абсолютный момент Cf остается конечным. Последнее подтверждает практическую ценность многослойного персептрона, используемого в качестве универсального аппроксиматора. При этом разность между эмпирическим и оптимальным значениями аппроксимации можно рассматривать как ошибку оценивания. Пусть 0 - сред-

неквадратическое значение ошибки оценивания. Тогда, игнорируя логарифмический множитель во втором слагаемом неравенства (2.57), можно сделать вывод, что размер N обучающего множества, необходимый для хорошего обобщения, должен иметь порядок m0m1/ 0 . Это значит, что для качественной аппрок-

симации размер обучающего множества должен превышать отношение общего количества свободных параметров сети к среднеквадратическому значению ошибки оценивания.

Из ограничения (2.57) вытекает еще один результат. Если размер скрытого слоя выбирается по формуле (т.е. риск R минимизируется по N)

m1 Cf (	N	)1 2 ,	(2.58)
m1 Cf (	m logN	)1 2 ,	(2.58)
	m logN
	0

то риск R ограничивается величиной O(Cf m0(logNN)). То есть скорость

сходимости, представленная как функция от размера обучающего множества N, имеет порядок (1/N)1/2, умноженный на логарифмический член. Однако обычная гладкая функция (например, тригонометрическая или полиномиальная) демонстрирует другое поведение. Пусть s — мера гладкости, определяемая как степень дифференцируемости функции (количество существующих производ-

ных). Тогда для обычной гладкой функции минимаксная скорость сходимости общего риска R имеет порядок (l/N)2s/(2s+m°). Зависимость этой скорости от раз-

мерности входного пространства т0 называют "проклятием размерности". Это свойство ограничивает практическое использование таких функций. Следовательно, использование многослойного персептрона для решения задач аппрок-

109

симации обеспечивает определенные преимущества перед обычными гладкими функциями. Данное преимущество появляется при условии, что первый абсолютный момент Cf остается конечным. В этом состоит ограничение гладкости.

Термин "проклятие размерности" был введен Ричардом Белманом в 1961 году в работе, посвященной процессам адаптивного управления [203]. Рассмотрим пример, в котором х - m0-мерный входной вектор, а множество {(хi,di)},i = 1, 2,..., N, задает обучающую выборку. Плотность дискретизации пропорциональна значению N1/m0. Пусть f(х) — поверхность в m0-мерном входном про-

странстве, проходящая около точек данных {xi ,di}iN1 . Если функция f(х) дос-

таточно сложна и (по большей части) абсолютно неизвестна, необходимо уплотнить точки данных для более полного изучения поверхности. В многомерном пространстве из-за "проклятия размерности" очень сложно найти обучающую выборку с высокой плотностью дискретизации. В частности, в результате увеличения размерности наблюдается экспоненциальный рост сложности, что, в свою очередь, приводит к ухудшению пространственных свойств случайных точек с равномерным распределением.

Функция, определенная в пространстве большой размерности, является значительно более сложной, чем функция, определенная в пространстве меньшей размерности, и эту сложность трудно выявить. Единственной возможностью избежать "проклятия размерности" является получение корректных априорных знаний о функции, определяемой данными обучения. Следовательно, для практического получения хорошей оценки в пространствах высокой размерности необходимо обеспечить возрастание гладкости неизвестной функции наряду с увеличением размерности входных данных [225].

Теорема об универсальной аппроксимации имеет важное теоретическое значение. Она доказывает возможность применения сетей прямого распространения с одним скрытым слоем для решения задач аппроксимации. Воспользоваться на практике результатами данной теоремы затруднительно потому, что у многослойного персептрона с одним скрытым слоем нейроны могут взаимодействовать друг с другом на глобальном уровне. Последнее усложняет задачу повышения качества аппроксимации в одной точке без явного ухудшения в другой. Возникает необходимость использования нескольких скрытых слоев. Однакоданная теорема необосновывает их использование.

Технология применения двух скрытых слоев состоит в следующем. Локальные признаки извлекаются в первом скрытом слое, т.е. некоторые

скрытые нейроны первого слоя можно использовать для разделения входного пространства на отдельные области, а остальные нейроны слоя обучать локальным признакам, характеризующим эти области. Глобальные признаки извлекаются во втором скрытом слое. В частности, нейрон второго скрытого слоя "обобщает" выходные сигналы нейронов первого скрытого слоя, относящихся к конкретной области входного пространства. Таким образом, он обучается глобальным признакам этой области, а в остальных областях его выходной сигнал

110

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 2411 12 13 14 15 16 17 18 19 20 21 22 23 24 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
30.04.20224.89 Mб7Методическое пособие 699.pdf
#
30.04.202211.37 Mб35Методическое пособие 7.doc
#
30.04.2022181.55 Кб5Методическое пособие 7.pdf
#
30.04.2022346.35 Кб3Методическое пособие 70.pdf
#
30.04.20224.89 Mб13Методическое пособие 700.pdf
#
30.04.20224.94 Mб2Методическое пособие 701.pdf
#
30.04.20224.98 Mб8Методическое пособие 702.pdf
#
30.04.20224.98 Mб3Методическое пособие 703.pdf
#
30.04.20225 Mб4Методическое пособие 704.pdf
#
30.04.20225.06 Mб6Методическое пособие 705.pdf
#
30.04.20225.09 Mб4Методическое пособие 706.pdf