4.9.4. Методы редукции сети с учетом чувствительности

Редукция сети производится для уменьшения количества скрытых нейронов межнейронных связей. Поскольку каждый скрытый нейрон представляет гиперплоскость, разделяющую множество данных на кластеры, редукция сети упрощает такое разделение и усиливает способность к обобщению.

Простейшим критерием редукции считается учет величины весов. Веса, которые значительно меньше средних, оказывают незначительное влияние на общий уровень выходного сигнала связанного с ними нейрона. Поэтому их можно отсечь без существенного вреда для его функционирования.

Однако в некоторых случаях малые значения весов не обязательно оказывают наименьшее воздействие на поведение нейрона. В таких ситуациях их отсечение может привести к серьезным изменениям в работе сети. Поэтому лучшим критерием следует признать учет чувствительности сети к вариациям весов. Без серьезных последствий для сети из нее могут быть исключены только те веса, чувствительность к изменениям которых оказывается минимальной.

Такой подход к проблеме отсечения весов может быть обоснован разложением целевой функции в ряд Тейлора. В соответствии с ним изменение величины целевой функции, вызванное вариацией весов, можно выразить формулой

, (4.9)

в которой w_i означает вариацию i-го веса, g_i — i-ю составляющую вектора градиента относительно этого веса , а h_ij — это элементы гессиана, .

Не рекомендуется отсекать веса в процессе обучения, поскольку низкая чувствительность сети к конкретному весу может быть связана с его текущим значением либо с неудачно выбранной начальной точкой (например, при застревании нейрона в зоне глубокого насыщения). Рекомендуется отсекать веса (проводить регуляризацию сети) только по завершении процесса обучения, когда все нейроны обретут свои постоянные характеристики. Это исключает применение градиента в качестве показателя чувствительности, поскольку минимум целевой функции характеризуется нулевым значением градиента. Поэтому в качестве показателя важности конкретных весов приходится использовать вторые производные целевой функции (элементы гессиана).

Одним из лучших способов регуляризации сети считается метод, предложенный ЛеКуном [105]. Он называется OBD (англ. Optimal Brain Damage). Исходная позиция этого метода - разложение целевой функции в ряд Тейлора в окрестности текущего решения. Для упрощения задачи ЛеКун при использовании метода OBD исходит из того, что вследствие положительной определенности гессиана матрица Н является диагонально доминирующей. Поэтому можно учитывать только диагональные элементы h_kk и игнорировать все остальные. В качестве меры значимости веса w_ij в методе OBD используется показатель S_ij, называемый коэффициентом асимметрии (англ. saliency), который определяется в виде

. (4.10)

Отсечение весов с наименьшими значениями показателя S_ij не вызовет существенных изменений в процессе функционирования сети. Процедуру OBD редукции сети можно описать в виде следующей последовательности действий:

1. Полное предварительное обучение сети выбранной структуры с использованием любого алгоритма.

2. Определение диагональных элементов гессиана , соответствующих каждому весу, и расчет значений параметра , характеризующего значимость каждой синаптической связи для сети в целом.

3. Сортировка весов в порядке убывания приписанных им параметров S_ij и отсечение тех из них, которые имеют наименьшие значения.

4. Возврат к п. 1 для обучения сети с редуцированной структурой и повторение процесса отсечения вплоть до исключения всех весов, оказывающих наименьшее влияние на величину целевой функции.

Метод OBD считается одним из лучших способов редукции сети среди методов учета чувствительности. Его применение обеспечивает достижение сетью высокого уровня обобщения, лишь незначительно отличающегося от уровня погрешности обучения. Особенно хорошие результаты дает повторное обучение сети после отсечения наименее значимых весов.

Дальнейшим развитием метода OBD считается метод OBS (англ. Optimal Brain Surgeon), предложенный Б. Хассиби и Д. Шторком тремя годами позднее [24]. Отправная точка этого метода (так же как и в OBD) - разложение целевой функции в ряд Тейлора и игнорирование членов первого порядка. В этом методе учитываются все компоненты гессиана, а коэффициент асимметрии веса определяется в виде (для избавления от четверных индексов вес w_kl обозначается одиночным индексом как w_i)

. (4.11)

Отсечению подвергается вес с наименьшим значением S_i. Дополнительный результат такого подхода заключается в несложной формуле коррекции оставшихся весов, позволяющей вернуть сеть в состояние, соответствующее минимуму целевой функции, несмотря на отсечение веса. Уточнение значений оставшихся (неотсеченных) весов выполняется согласно выражению

, (4.12)

где e_i означает единичный вектор с единицей в i-й позиции, т.е. е_i = [0, ..., 0, 1, ..., 0]^T. Коррекция выполняется после отсечения каждого очередного веса и заменяет повторное обучение сети, необходимое при использовании метода OBD. Процедуру OBS регуляризации сети можно описать в следующем виде [24]:

1. Обучение нейронной сети предварительно отобранной структуры вплоть до отыскания минимума целевой функции.

2. Расчет обратной гессиану матрицы Н^-1 и выбор веса w_i, имеющего наименьшее значение показателя . Если изменение величины целевой функции в результате отсечения этого веса намного меньше значения Е, вес w_i отсекается и осуществляется переход к п. 3, в противном случае отсечение завершается.

3. Коррекция значений весов, оставшихся в сети после отсечения i-гo веса, в соответствии с формулой (2.9) с последующим возвратом к п. 2. Процесс продолжается вплоть до отсечения всех мало значащих весов.

Основное отличие метода OBS от OBD, помимо другого определения коэффициента асимметрии, состоит в коррекции весов после отсечения наименее важного веса без повторного обучения сети. В методе OBS всякий раз отсекается только один вес, тогда как при использовании OBD можно на каждом шаге отсекать произвольное количество весов. Вычислительная сложность метода OBS гораздо выше. Расчет диагональных элементов гессиана в нем заменяется расчетом полной матрицы и обратной ей формы. На практике этот этап можно значительно упростить при использовании аппроксимированной формы матрицы, обратной гессиану, определяемой, например, методом переменной метрики. Однако такое упрощение вызывает снижение точности расчетов и несколько ухудшает качество искомого решения.

<<< < Предыдущая 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 3031 / 3831 32 33 34 35 36 37 38 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.05.20224.14 Mб7Учебное пособие 700378.doc
#
01.05.20224.16 Mб7Учебное пособие 700379.doc
#
01.05.2022242.69 Кб2Учебное пособие 70038.doc
#
01.05.20224.16 Mб11Учебное пособие 700380.doc
#
01.05.20224.24 Mб3Учебное пособие 700381.doc
#
01.05.20224.28 Mб13Учебное пособие 700382.doc
#
01.05.20224.33 Mб15Учебное пособие 700383.doc
#
01.05.20224.36 Mб5Учебное пособие 700384.doc
#
01.05.20224.4 Mб3Учебное пособие 700385.doc
#
01.05.20224.42 Mб9Учебное пособие 700386.doc
#
01.05.20224.43 Mб4Учебное пособие 700387.doc