Добавил:
natribu.org Все что нашел в интернете скидываю сюда Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Точно Не проект 2 / Не books / Источник_1

.pdf
Скачиваний:
10
Добавлен:
01.02.2024
Размер:
20.67 Mб
Скачать

420

Глава 8

 

 

где sj – множество входных векторов, относящихся к j–му кластеру;

Nc

 

 

– вектор средних значений

для

количество кластеров; mj

(1/Nj ) x

x sj

множества sj.

Рассмотрим алгоритм кластеризации, минимизирующий критерий (8.5). Алгоритм основан на вычислении K внутригрупповых средних и соответственно называется алгоритмом К средних. Процедура вычислений предусматривает выполнение следующих шагов [43].

Шаг 1. Фиксируют число кластеров К с центрами zi (1),z2(1),...,zk (1). Обычно в качестве центров используются К первых входных векторов.

Шаг 2. На r–ой итерации входной вектор x относится к кластеру j, если удовлетворяется следующее неравенство

x z j (r)

 

 

 

 

 

x zi (r)

 

 

 

,

j i ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где i = 1, 2, …, k.

Шаг 3. Определяются новые центры кластеров zj (r 1) таким обра-

зом, чтобы минимизировать критерий (8.5), т.е.

Jj x zj (r 1) 2 , j = 1, 2, …, k.

x sj (r)

Минимум Jj обеспечивается лишь при одном zj(r+1), равном среднему арифметическому векторов x, принадлежащих множеству sj(r). Тогда

z j

(r 1)

1

 

x ,

N j

x

 

 

s j (r )

где Nj – число векторов x, входящих во множество sj(r). Таким образом, для определения новых значений центров кластеров требуется вычислить К средних значений. Отсюда и происходит название алгоритма.

Шаг 4. Если zi (r 1) zi (r), то выполнение алгоритма заканчивается, иначе повторяется шаг 2.

Выделенные центры кластеров или сами входные векторы, образующие соответствующий кластер, могут в дальнейшем использоваться в качестве эталонов класса.

Существуют и другие алгоритмы кластеризации. Например, алго-

ритм ISODATA [43].

Распознавание образов и обучение

421

 

 

Формирование эталонов на основе решения задачи кластеризации можно рассматривать как один из подходов к обучению при распознавании образов.

Общая идея, лежащая в основе классификации по минимуму расстояния, предполагает, что все точки, представляющие объекты одного класса в пространстве признаков, расположены близко друг к другу, а точки различных классов удалены друг от друга на некоторое расстояние. В этом случае улучшить результаты классификации можно, если минимизировать расстояния между точками одного класса и максимизировать расстояния между точками разных классов. С этой целью могут выполняться сложные линейные или нелинейные преобразования, деформирующие пространства признаков [26]. Из-за сложности вычислений геометрические методы распознавания используют в основном для иллюстрации других методов

8.3. Байесовский метод распознавания

Байесовский метод распознавания объектов предусматривает построение решающих правил на основе статистических свойств классов. Пусть x – вектор признаков, соответствующий ki классу. Априорная вероятность реализации класса ki равна Р(ki). Задача состоит в том, чтобы отнести входной вектор x к одному из известных классов с минимальной ошибкой. Считается, что система распознавания допускает ошибку, если относит к классу kj объект, на самом деле принадлежащий классу ki .

Если в результате измерений определить p(x | ki ) – плотность рас-

пределения вектора x при условии, что он принадлежит классу ki , то в соответствии с теоремой Байеса

 

p(x | ki )P (ki

)

 

 

p(ki | x )

 

 

 

,

(8.6)

M

 

 

 

p( x

| k j )P (k j )

 

j 1

где М – число классов. Выражение (8.6) определяет вероятность того, что наблюдаемый вектор x принадлежит классу ki.

Анализируя значения p(ki | x), можно вынести решение об отнесении наблюдаемого вектора к тому или иному классу. Решение об отнесении вектора x к классу ki можно считать оправданным, если для любого j выполняется условие:

p(ki | x) p(kj | x) ,

j i .

(8.7)

422

Глава 8

 

 

Данное правило называют правилом максимума апостериорной ве-

роятности.

Из (8.6) и (8.7) следует байесовское решающее правило

p(x |ki )P(ki ) p(x|kj )P(kj ), j i .

(8.8)

В частном случае, когда априорные вероятности реализации классов равны (т.е. Р(ki) = P(kj)), решающее правило записывается в виде

p(x | ki) p(x | kj ) ,

 

j i

(8.9)

или

 

 

 

 

 

 

 

 

p ( x

|

k

i

)

1

,

j i .

(8.10)

 

|

 

)

p ( x

k j

 

 

 

 

Функцию p(x | ki ) называют функцией правдоподобия,

а правило

(8.10) – правилом максимального правдоподобия.

 

Введем в рассмотрение функцию потерь с(ki, kj), которая характеризует потери (риск), возникающие при ошибочном отнесении объекта, принадлежащего к классу ki, к классу kj . Математическое ожидание потерь, связанных с отнесением вектора x к классу kj, определится из выражения:

 

M

 

(8.11)

Rj (x) c(ki,kj )p(ki

| x).

i 1

Величину Rj (x) называют условным средним риском или условны-

ми средними потерями. Общие средние потери при выборе класса kj равны

Rj Rj (x) p(x)dx ,

(8.12)

X

 

где Х – область определения x.

Классификатор, минимизирующий общие средние потери, называется байесовским классификатором. Покажем, что классификация на основе правила (8.8) обеспечивает минимизацию общих средних потерь, называе-

мых средним риском.

Минимизация среднего риска сводится к минимизации Rj (x). Рас-

смотрим частный вид функции потерь

Распознавание образов и обучение

 

423

 

 

 

 

 

 

 

c(ki ,k j )

1 ij ,

(8.13)

где ij 1

при i=j, и ij

0 при

i j . Такое определение функции по-

терь устанавливает потери, равные нулю при правильной классификации и единице при ошибочной классификации. Отметим, что в этом случае потери одинаковы при любых неправильных классификациях.

Подставив (8.13) в (8.11), получим

 

M

 

M

 

M

 

 

(8.14)

Rj (x) (1 ij )p(ki

| x) p(ki

| x) ij p(ki

| x) 1 p(kj

| x).

 

i 1

 

i 1

 

i 1

 

 

 

Минимум Rj (x)

достигается

в том случае, когда

p(kj | x)

или

p(x|kj ) P(kj ) (см. 8.6)

имеют максимальные значения. Таким образом,

применение байесовского правила (8.8) обеспечивает минимизацию (8.12) для случая функции потерь вида (8.13).

Структурная схема классификатора, функционирующего на основе правила (8.8), изображена на рисунке 8.4. [43].

Рисунок 8.4 – Структурная схема байесовского классификатора

Выражение (8.14) получено для случая фиксированной функции потерь, имеющей равные значения при отнесении объекта к любому ошибочному классу. Если функции потерь характеризуется различными значениями при отнесении объекта к тому или иному ошибочному классу, то применяется решающее байесовское правило вида

Ri(x) Rj (x) ,

i j .

(8.15)

Конкретизируем данное выражение для случая М=2. Тогда

424

Глава 8

 

 

R1(x) C(1,1)p(x |k1)P(k1) C(2,1)p(x,k2 )P(k2) ,

R2(x) C(1,2)p(x | k1)P(k1) C(2,2)p(x,k2)P(k2).

Подставив значения R1(x) и R2(x)в (8.15), получим

(C(2,1) C(2,2))p(x | k2)P(k2) (C(1,2) C(1,1))p(x | k1)P(k1).

Так как обычно C(ki ,kj ) C(ki ,ki ), то из последнего выражения сле-

дует, что вектор x принадлежит классу k1, если

p(x | k )

 

(C(2,1) C(2,2))P(k )

 

p(x | k1 )

 

2

.

(8.16)

(C(1,2) C(1,1))P(k

)

2

 

 

1

 

 

Отношение L12(x) p(x | k1)/ p(x | k2 ) называют отношением правдоподобия. Отношение, записанное в правой части выражения (8.16), представляет собой некоторое пороговое значение. Обозначим его через 12 .

Вектор x относится к классу k1, если выполняется условие L12(x) 12. Применение байесовского подхода к решению задачи классифика-

ции требует знания априорных вероятностей появления классов Р(ki), плотностей распределения вероятностей для каждого из классов p(x | ki ), а также соответствующих значений функций потерь.

Рассмотрим особенности байесовской классификации для случая, ко-

гда плотность распределения

p(x | ki )

задана многомерным нормальным

законом распределения

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

1

 

 

T

1

 

 

 

p(x | ki)

 

 

 

 

exp(

 

(x

mi)

 

Ci

(x

mi )),

(8.17)

(2 )

n / 2

 

1/ 2

 

 

 

 

| Ci |

2

 

 

 

 

 

 

 

где mi – вектор средних значений i – го класса; Ci – ковариационная мат-

рица с определителем |Ci|; n – число элементов вектора x. Ковариационная матрица Ci определяется из выражения

Ci E{(x mi)(x mi )T},

где E{.} – символ математического ожидания.

Распознавание образов и обучение

425

 

 

Так как плотность нормального распределения выражается экспоненциальной функцией, то представим решающую функцию di(x) p(x | ki)P(ki), соответствующую правилу (8.8), в виде:

di (x) ln(p(x | ki)P(ki)) ln p(x | ki) lnP(ki ).

(8.18)

Такое представление не меняет суть правила (8.8) в силу того, что натуральный логарифм – монотонно возрастающая функция. Поставив

(8.17) в (8.18), получим

 

 

1

 

 

1

 

 

T

1

 

 

 

 

di (x) lnP(ki

)

 

ln | Ci

|

 

[(x

mi

)

Ci

(x

mi

)].

(8.19)

2

2

 

 

 

 

 

 

 

 

 

 

 

 

При выводе (8.19) член (n/2)ln2

 

был опущен, так как он не зави-

сит от i. Решающая функция (8.19) определяет разделяющую поверхность, представленную суммой линейных и квадратичных членов. Если ковариационные матрицы для всех классов одинаковы, то (8.19) можно переписать в виде [43]:

 

T

 

 

1

 

1

T

1

 

di (x) ln

P(ki ) x

C

 

 

mi

 

 

mi C

mi .

(8.20)

 

 

 

 

 

 

 

 

 

 

2

 

 

 

Сравнив (8.20) с (8.3), приходим к выводу, что решающая функция

(8.20) представляет собой гиперплоскость. Если положить

C I , где I -

единичная матрица, и P(ki ) 1/M , то

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

di(x) xTmi

 

 

miT mi .

 

 

(8.21)

2

 

 

 

 

 

 

 

 

 

 

 

 

Решающая функция (8.21) совпадает с решающей функцией (8.3), которая соответствует классификатору, функционирующему на основе минимума расстояния для случая единственного эталона класса. При этом в качестве эталона класса выступает вектор средних значений mi .

Вероятность ошибки байесовского классификатора при использовании решающей функции (8.20) зависит от расстояния Махалонобиса между классами ki и kj, представленных эталонами mi и mj :

d(ki,kj ) (mi mj)T C 1(mi mj ).

Вероятность ошибки монотонно убывает с ростом d(ki,kj ). При d(ki,kj)=11 вероятность ошибки меньше 0,05 [43].

426

Глава 8

 

 

Основная проблема применения байесовского классификатора, связана с необходимостью восстановления плотностей распределения вероятностей. В [43] показано, что в тех случаях, когда единственными известными параметрами плотности распределения являются математическое ожидание и дисперсия, целесообразно использовать нормальное распределение. Процесс обучения при этом сводится к оцениванию указанных параметров плотности распределения вероятностей по обучающей выборке.

8.4. Рекуррентные алгоритмы обучения распознаванию образов

Байесовское правило классификации минимизирует средний риск (8.12) и вероятность ошибки. Однако оно требует оценки плотности распределения p(x | ki ) для каждого класса. В тех случаях, когда объем априорной информации не достаточен для восстановления указанной плотности распределения, могут быть использованы алгоритмы обучения.

Рассмотрим постановку задачи обучения распознаванию образов для случая двух классов. Пусть система распознавания функционирует на ос-

нове множества решающих правил вида f (x,w), где f

непрерывная

функция; w – вектор настраиваемых параметров,

w (w1,w2,...,wm).

Если

f (x,w)>0, то вектор x относится

к первому

классу, если

f (x,w)<0,

то x относится ко второму классу.

 

 

Выберем в качестве цели обучения минимум среднего риска. При

этом функцию потерь представим в параметрической форме

 

 

 

 

 

 

(8.22)

C(x,w) (y f (x,w))2 ,

где

 

 

x k ,

 

y

1,

если

 

 

если

 

1

 

 

0,

x k2

 

представляет собой классификацию, заданную “учителем”.

В соответствии с (8.22) функция потерь зависит от вектора настраиваемых параметров w. При этих условиях цель обучения заключается в минимизации среднего риска

 

1

 

 

 

 

R(w) C(x,w)p(y | x)p(x)dx .

(8.23)

y 0 X

Распознавание образов и обучение

 

 

 

 

 

427

 

 

 

 

 

 

Минимум (8.23) достигается, если

 

 

 

 

 

 

 

 

wR(w) 0 ,

 

 

 

(8.24)

 

 

 

 

 

 

 

 

 

 

 

 

R(w)

 

R(w)

где

 

R(w) grad

R(w)

 

 

,...,

 

 

 

w

w

 

w

w

 

 

 

 

– градиент сред-

него риска по аргументу w.

 

1

 

 

m

 

 

 

p(x) не известна и отсутствует

 

Так как плотность распределения

возможность ее восстановления, то уравнение (8.24) не может быть задано в явной форме. В этом случае определение оптимального вектора w = w* осуществляется на основе алгоритмов обучения. Дискретный алгоритм обучения может быть записан в форме разностного рекуррентного уравнения

w[t] w[t 1] [t] wC(x[t],w[t 1]),

(8.25)

где wC(x[t],w[t 1]) – градиент функции потерь по аргументу w; [t]

– диагональная матрица коэффициентов, определяющая скорость сходимости алгоритма. Алгоритм обучения (8.25) позволяет по наблюдаемому век-

торуx определять оценку вектора w[t],

которая с течением времени

стремится к оптимальному вектору

w*. Случайность градиента

wC(x,w) накладывает определенные ограничения на характер изменения во времени матрицы коэффициентов [t]. С течением времени элементы матрицы [t] должны стремиться к нулю. Это обеспечивает сходимость векторов w[t] к оптимальному вектору w* с вероятностью единица. При этом элементы матрицы [t] должны уменьшаться таким образом, чтобы устранять влияние шума, но не настолько быстро, чтобы остановиться в точке, отличной от минимума [50]. Если [t] I [t], где I – единичная матрица, [t] – элемент последовательности уменьшающихся положительных чисел, то алгоритм обучения (8.25) соответствует методу стохастической аппроксимации. Примером последовательности [t] может служить гармонический ряд 1, 1/2, 1/3,…,1/t.

Отметим, что алгоритм обучения (8.15) может быть построен только для таких функций потерь C(x,w), для которых определен градиент

wC(x,w). Найдем градиент функции потерь (8.22). Представим решаю-

щую функцию f (x,w) в виде

428

Глава 8

 

 

 

 

 

 

N

 

(8.26)

f (x

,w) wT (x) wi i

(x), i 1,2,...,N

i 1

где i (x) – линейно независимые функции. Тогда

 

 

 

 

 

 

 

wC(y f (x

,w)) wC(y wT (x))

 

(8.27)

 

 

 

 

 

C (y wT (x)) (x) 2(y

wT (x)) (x).

 

Подставив (8.27) в (8.25), получим рекуррентное уравнение обучения

w[t] w[t 1] 2 [t]( y wT [t 1] (x[t])) (x[t]) . (8.28)

Структурная схема обучающейся системы распознавания, реализующая алгоритм (8.28), изображена на рисунке 8.4 [50]. Так как разностьy wT (x) представляет собой ошибку распознающей системы, то правило изменения значений вектора параметров w[t] можно записать в виде:

w[t] 2 [t] [t] (x[t]).

(8.28)

Таким образом, коррекция вектора настраиваемых параметров w[t] выполняется в направлении вектора (x[t]) и пропорциональна ошибке

[t].

Рисунок 8.4 – Обучающаяся система распознавания

Правила с подобной структурой применяются при построении обучаемых классификаторов образов на основе моделей нейронных сетей. Рассмотрим подробнее основные модели нейронных сетей и алгоритмы их обучения.

Распознавание образов и обучение

429

 

 

8.5. Распознавание и обучение на основе моделей нейронных сетей

Коннекционистские модели машинного обучения используются в ИИ с момента появления персептрона Розенблатта. Название данных моделей происходит от английского слова connection (соединение, связь). В общем случае такие модели представляют собой сети, в которых узлы соединены направленными связями с определенными весами. Каждый узел выполняет обработку сигналов, поступающих на его вход, и рассматривается как некоторый процессорный элемент (ПЭ). Так как алгоритм функционирования процессорных элементов подобен алгоритмам преобразования информации в нервных клетках человека и животных – нейронах, то коннекционистские модели также называют искусственными нейронными сетями (ИНС). В этом случае узлы сети – это искусственные нейронные элементы.

За последние двадцать лет ИНС нашли широкое применение при решении самых разнообразных задач, к которым относят: распознавание рукописных знаков и речи, сжатие различных сигналов, обработка и понимание изображений, экспертные системы, оптимизация, прогнозирование и др.

Обучение ИНС сводится к модификации весов связей между нейронными элементами. Существуют три различных подхода к обучению ИНС: обучение с учителем, обучение с подкреплением, обучение без учителя (самоорганизующиеся нейронные сети). Ниже рассмотрим указанные модели обучения на примерах ИНС различной структуры. Однако предварительно введем основные понятия.

8.5.1. Модели нейронных элементов

Известно, что мозг человека содержит примерно 10¹¹ нейронов [47]. Каждый нейрон представляет собой живую клетку, состоящую из дендритов, сомы и аксона (рисунок 8.5). Дендриты – ветвеобразные отростки, которые обеспечивают сбор сигналов от других нейронов или рецепторов. Сома нейрона представляет тело клетки. В соме происходят сложные биохимические процессы, благодаря которым осуществляются нелинейные преобразования сигналов, поступающих через дендриты. Аксон является отростком клетки, по которому ее выходной сигнал поступает на дендриты других нейронов. Аксон разветвляется на большое число волокон. Место соединения волокон с дендритами называется синапсом.

Сигналы, распространяющиеся в биологической нейронной сети, представляют собой короткие электрические импульсы. Под воздействием

Соседние файлы в папке Не books