Добавил:

photo_life_spb Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Петербургский государственный университет путей сообщения им. императора Александра I

Предмет:

Математическое моделирование

Файл:

Лекция 12

.pdf

Скачиваний:

Добавлен:

12.01.2020

Размер:

410.24 Кб

Скачать

☆

Тема 4. Методы второго порядка

4.1. Метод Ньютона

Исторически метод Ньютона является первым из методов, основанных на квадратичной аппроксимации минимизируемой функции F . Такая аппроксимация, оставаясь достаточно простой, в то же время намного точнее, чем линейная (метод наискорейшего спуска), следовательно, можно разработать более эффективные методы. В качестве квадратичной модели целевой функции F можно взять сумму первых 3-х членов разложения F в

ряд Тейлора в окрестности текущей точки						xk (на примере		одномерной
функции):
f ( x)	f ( xk )	f	( xk )( x	xk )	1		2	(4.1.17)

					2	f ( xk )( x xk )
					2
min f ( x) ищем из необходимого условия экстремума I порядка:
								(4.1.18)
		f ( xk ) f		( xk )( x xk ) 0.				(4.1.18)

Решая полученную систему линейных уравнений и принимая найденную точку минимума за xk 1 , получим (для одномерного случая):


xk 1 xk hk	, где hk	f	( xk )		(4.1.19).
		f	( xk )
		f		( xk )

Алгоритм минимизации, в котором направление pk определяется из (4.1.19), называют методом Ньютона, а решение этой системы – ньютоновским направлением. Итерационный процесс (4.1.19) строит последовательность точек xk , которая при определенных предположениях

сходится к некоторой стационарной точке x* функции f ( x). Если матрица Гессе f ( x* ) положительно определена, эта точка будет точкой строгого локального минимума f ( x).

В точке xk функция	f ( x)	~
В точке xk функция	f ( x)	аппроксимируется параболой f ( x), а в
качестве приближения	xk 1	принимается точка, соответствующая

минимальной ординате этой параболы.

Метод Ньютона более эффективен (меньшее число итераций), чем градиентные методы, т.к. квадратичная функция локально точнее аппроксимирует минимизируемую функцию, чем линейная (основа

градиентных методов). В градиентных методах приходится выбирать шаг k

вдоль направления антиградиента в точке xk , т.к. линейная функция не имеет точек экстремума. В методе Ньютона аппроксимирующая квадратичная функция (4.1.17) имеет конечную точку минимума, поэтому

	f	( xk )
шаг вдоль направления на эту точку	f	( xk )		не выбирается, а
шаг вдоль направления на эту точку				не выбирается, а

	f		( xk )
	f		( xk )

полагается равным 1.

Рассмотрим метод Ньютона в пространстве E2 и продемонстрируем важность положительной определенности матрицы Гессе целевой функции


xk 1		xk			1		(4.1.20)
xk 1		xk		( f ( xk ))		f ( xk ),	(4.1.20)
	( xk ))		1	– обратная к матрице Гессе.
где матрица ( f	( xk ))			– обратная к матрице Гессе.

Аппроксимирующая функция для функции 2-х переменных выглядит следующим образом:

f ( xk ) ( f

( xk ), x xk )

f ( x)

( f ( xk )( x xk ), x xk ) .

Пусть

( x1 , x2 ) ( x, y) X ,

квадратичная

форма

f ( X

) b b x

b y

b x2

b x

b y x

(4.1.21)

0 1

2 k

11 k

22 k

k k

21 k

преобразовывается к каноническому виду (с помощью переноса системы координат и поворота осей):

	*	~ ~2	~ ~2
f ( Xk ) f ( x		) b11 xk	b22 yk	,
		2

где

x* – стационарная точка функции

f . Коэффициенты квадратичной

формы (4.1.21) связаны с элементами матрицы Гессе

f ( x)

следующим

образом:

1 2 f

, b

1 2 f

b ,

1 2

2 x

x y

2 y x

2 y

( xk ). Если

Коэффициенты b11

и b22 – собственные значения матрицы

b11

0,b22

то

f ( x)

имеет вид кругового или эллиптического

параболоида (рис. 4.1.15).

			Рис.4.1.15
~	~	0, то
Если b11	b22	0, то	f ( x) описывает гиперболический параболоид,

поверхность с седловой точкой (рис. 4.1.15). Эта точка будет взята в качестве

следующего приближения xk 1 в методе Ньютона,					хотя может оказаться,
что f ( x	k 1	) f ( x	k	). Это может привести к тому,	что f ( x	) f ( x	k	) ,
					k 1
и вместо приближения к искомой точке минимума x*					будет удаление от нее.

Т.о. сходимость метода Ньютона обеспечена лишь в случае положительной определенности матрицы Гессе целевой функции на каждой итерации.

Рис. 4.1.16

~ ~

Если b11 и b22 одного знака, но сильно отличаются по величине, график квадратичной функции (4.1.21) имеет «овраг». В этом случае градиентные методы работают плохо, а метод Ньютона находит минимум

квадратичной	функции			за	один	шаг,	независимо			от		x0 и			степени
«овражности».
В примере 16			для функции			f ( X ) x2			16 y2			«овраг» вытянут
													1
вдоль оси ОХ. Убедимся, что направление спуска – ( f ( x0 ))															f ( x0 ),
вычисленное в различных точках						x0 , всегда совпадает с направлением в
точке минимума x*			(0,0)T (рис. 4.1.17).
														2	0
Пусть x0			T						T		( x0 )					,
Пусть x0		(2,2)		, тогда f ( x0 )				(4.64) , f			( x0 )			0	32	,
														0	32
( f ( x0 )) 1	1		32	0
					,
	64		0	2	,
	64		0	2
( f ( x0 )) 1					1/ 2	0		4	2
( f ( x0 )) 1	f ( x0 )									.
					0 1/ 32			64	2

	(2,0)T , тогда ( f ( x0 )) 1		2
Пусть x0	(2,0)T , тогда ( f ( x0 )) 1	f ( x0 )	0	.
			0

Рис.4.1.17

В общем случае, когда минимизируемая функция не квадратична,

вектор ( f ( xk )) 1 f ( xk ) не указывает в точку ее минимума, однако имеет большую составляющую вдоль оси «оврага» и значительно ближе к направлению на минимум, чем антиградиент. Этим и обусловлена более высокая сходимость метода Ньютона по сравнению с градиентным при минимизации «овражных» функций, которые встречаются довольно часто.

Метод		Достоинства			Недостатки

Градиен-	1.	Глобальная сходимость		1.	Медленная сходимость
тный	2.	Слабые требования	к	2.	Необходимость выбора шага
	2.	Слабые требования	к	2.	Необходимость выбора шага
	f ( x)			k
	3.	Простота вычислений

Метод	1.	Быстрая сходимость		1.	Локальная сходимость
Ньютона				2.	Жесткие требования к f ( x)
				2.	Жесткие требования к f ( x)
				3.	Большой объем вычислений

Основные недостатки: 1) предполагает вычисление вторых производных, что может быть связано с существенными трудностями; 2) может расходиться, если целевая функция не является сильно выпуклой и начальное приближение находится достаточно далеко от минимума.

Теоремы о сходимости метода Ньютона.

	Определение: Числовая функция f ( x) на Rn		называется выпуклой,
если	для	x, y Rn ,	0 1,
f ( x (1 ) y) f ( x) (1 ) f ( y) .

Геометрический смысл выпуклой функции приведен на рис. 4.1.18.

	Рис.4.1.18
График функции на x, y	лежит	ниже	хорды, соединяющей точки
( x, f ( x)), ( y, f ( y)).
Определение: Функция	f ( x)	на Rn	называется строго выпуклой,
если для x y,0 1

f( x (1 ) y) f ( x) (1 ) f ( y)

исильно выпуклой с константой r 0, если при 0 1

f ( x (1 ) y) f ( x) (1 ) f ( y)	r (1 )	x y	2 .
	r (1 )

2
2
6

Для дифференцируемой функции f ( x) на

Rn сильная выпуклость

эквивалентна неравенству

x, y R

f ( x y)

f ( x) ( f

x , y) 2

Наиболее просто критерий сильной выпуклости формулируется для

дважды дифференцируемых

функций

f ( x):

сильная

выпуклость

эквивалента условию

( x) lE , где E – единичная матрица.

Теорема 1: Пусть функция

f ( x)

– дважды

дифференцируема,

f ( x) удовлетворяет условию Липшица с константой R :

x, y En

x y

f ( x)

f ( y)

f ( x) сильно выпукла с константой r

начальное

приближение x0

удовлетворяет условию

f ( x0 )

тогда

метод Ньютона

2r 2

сходится к точке глобального минимума x*

с квадратичной скоростью

q2n .

Условия теоремы 1 можно несколько ослабить лишь в одном направлении –

можно глобальные требования к функции

f ( x) заменить на локальные.

Теорема 2: Пусть

f ( x) дважды дифференцируема в окрестности U

точки

невырожденного

минимума x

f ( x) удовлетворяет условию

Липшица на U . Тогда найдется 0

такое, что при

метод

x x*

Ньютона сходится к x*

с квадратичной скоростью.

Из теоремы 1 следует, что сходимость метода Ньютона доказана лишь

для

достаточно

хорошего начального приближения

x0 .

Условие

f ( x0 )

гарантирующее

сходимость для

заданного x0 ,

2r 2

труднопроверяемо, т.к фигурирующие в нем константы, как правило,

неизвестны. Сложность отыскания нужного x0 – недостаток метода Ньютона. Еще более существенным недостатком является высокая трудоемкость метода, обусловленная необходимостью вычисления и обращения на каждом шаге f ( xk ). Следовательно, применение классического метода Ньютона далеко не всегда приводит к успеху. Многочисленные модификации направлены на то, чтобы, сохраняя основные достоинства метода Ньютона – его быструю сходимость, уменьшить трудоемкость и ослабить требования на выбор x0 . Тем не менее, метод Ньютона считается эталоном, с которым надо сравнивать другие алгоритмы.

Соседние файлы в предмете Математическое моделирование

#
12.01.2020431.23 Кб26Лекция 1.pdf
#
12.01.2020373.88 Кб13Лекция 10.pdf
#
12.01.2020396.62 Кб10Лекция 11.pdf
#
12.01.2020410.24 Кб16Лекция 12.pdf
#
12.01.2020513.93 Кб14Лекция 2.pdf
#
12.01.2020456.5 Кб19Лекция 3.pdf
#
12.01.2020413.95 Кб13Лекция 4.pdf
#
12.01.20201.53 Mб15Лекция 5.pdf
#
12.01.20201.67 Mб17Лекция 6.pdf