Добавил:

arhimagist Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Анализ и интерпретация данных

Файл:

конспект_АИД_полный_2017.doc

Скачиваний:

Добавлен:

08.07.2017

Размер:

4.26 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 1213 / 2513 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

3.2. Персептронный алгоритм получения линейных решающих правил

Простейший методы получения линейных решающих функций на основе персептронных алгоритма обучения основывается на рекуррентном построении решающего правила путем коррекции ошибок.

Требуется найти ^T, W_n₊₁для построения решающего правила d()=^T + W_n₊₁ на основе использования конечных обучающих выборок .

Введем понятие расширенных векторов . Перейдем от размерности n к n+1 следующим образом:

=	W₁	=	X₁
	..		..
	W_n		X_n
	W_n+1		1

Тогда наша система неравенств сводится к более простой задаче:

(*) d(X) = ^T > 0 (или <) x  X₁ (x  X₂)

Персептронный алгоритм основан на последовательном просмотре обучающей выборки:

X₁, ... X_N₁……….X_N

X₁ X₂

N = N₁ + N₂

Процесс обучения заключается в том, что мы циклически просматриваем выборку и подставляем получаемое значение в Wв (*), и на каждом шаге просмотра производим или не производим коррекцию весового вектора.

1. _n₊₁ = _n, если		x  X₁,	_n^T> 0
		x  X₂,	_n^T< 0

В этом случае получен правильный ответ при классификации текущего вектора

2. _n₊₁ = _n + С, если _n^T < 0, x  X₁

_n₊₁ = _n - С, если _n^T > 0, x  X₂

Этот случай соответствует ошибочной классификации и соответственно производится коррекция весового вектора (должно быть С>0)

Эта процедура и является процедурой обучения персептронного типа.

Пусть мы имеем величину весового вектора после коррекции:

_n₊₁ = _n + С,

Подставим новый весовой вектор в выражение для решающей функции:

= (_n + С)^T = _n^T + С^T = _n^T + C║║²,

Видно, что значение весовой функции увеличилось на положительную величину C║║², то есть мы продвинулись к правильному решению.

Показано, что если решение существует, то алгоритм сходится за конечное число шагов.

Различные варианты выбора коэффициента C позволяют улучшить данный алгоритм:

1. С – константа . Скорость сходимости может быть мала.

2. С = C_n = var(n)

Попробуем менять C на каждом шагу так .чтобы сразу получить на текущем векторе правильное решение. Здесь можно использовать такой выбор С _n^T + C_n║║² > 0 , отсюда следует

C_n >

Рассмотренный алгоритм появился на основе интуитивных соображений при разработке моделей работы головного мозга человека при решении задач обучения. Дальше мы рассмотрим более формальный подход .

3.3. Правила поиска решения, основанные на минимизации градиента функции качества

3.3.1. Формальный вывод персептронного алгоритма

Y(,) – функция качества.

Определить функцию качества можно по-разному.

_n₊₁ = _n – С {} = _n –

- градиент по функции .

Возьмем X  X₂.

Возьмем новое X’ = -X, в этом случае мы имеем правило решения, которое имеет вид:

^T > 0

Неплохая функция качества имеет следующий вид:

Y(,) = ( |^T| - ^T)

= [sgn(^T) -]

sgn(X) =		1, X>0
		-1, x<0

Тогда правило коррекции имеет вид:

_n+1 = _n – [_nsgn(_n^T_n) - ] =

= _n + [-sgn(_n^T_n)]

Если x  X₁, тогда		_n+1 = _n ,	_n> 0
		_n₊₁ = _n + С ,	_n< 0

Для всей обучающей выборки запишем следующее:

{_j}_j_=1.._N

Рассмотрим задачу в следующем виде: ^T_j = b_j , j=1..N

=	W₁	=	X₁
	..		..
	W_n		X_n
	W_n₊₁		1

Для каждого класса мы введем обозначение:

I класс: b_j = 1

II класс: b_j = 2

То есть для каждого элемента мы ищем номер класса.

Мы получаем переопределенную систему уравнений N>(n+1).

Матрица будет иметь следующий вид:

=	x₁₁ x₁₂ ... x_1n 1		X₁^T
	..	=	..
	x_N1 x_N2 ... x_Nn 1		X_N^T

=	b₁		W₁	= (*)
	..	=	..
	b_N		W_N
			1

Решение переопределенной системы (*) мы можем найти с некоторой ошибкой.

Далее мы строим функционал качества:

J(,,) = = ║ε║² = ║- ║²

Это функционал качества. Мы его должны минимизировать. Один из подходов – это градиентный метод:

Рассмотрим , что собой представляет матрица : ее размерность (n+1)x(n+1)

Если матрица невырождена, решение получается достаточно просто:

- псевдообращение матрицы Х (Матрица Мура-Пенроуза)

Если матрица является вырожденной , то в этом случае задачу можно решать с помощью метода градиентного спуска.

Можно предположить и другой вариант: Видора-Хоффа

- вектора из последовательности {x_j}_j. Градиент строится на каждом отдельном управлении . Процедуру мы можем повторять до тех пор , пока не будет наблюдаться сходимость . Признаком сходимости является то, что искомый параметр перестает меняться или меняется очень мало.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 1213 / 2513 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете Анализ и интерпретация данных

#
08.07.201728.67 Кб5вопросы2017.doc
#
08.07.201769.12 Кб11Задачи.doc
#
08.07.20174.26 Mб41конспект_АИД_полный_2017.doc