Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Галушкин, А. И. Синтез многослойных систем распознавания образов

.pdf
Скачиваний:
11
Добавлен:
22.10.2023
Размер:
12.65 Mб
Скачать

познавания в зависимости от характеристик нестационар­ ных образов, памяти СР, времени упреждения решения СР. Необходимо отметить, что аналитическая оценка точ­ ности СР, настраивающихся по разомкнутому циклу, яв­ ляется трудной математической задачей.

Рассмотрим основные этапы синтеза системы распозна­ вания с фиксированной структурой, настраивающейся по замкнутому циклу (гл. 4). Под структурой разомкнутых СР понимается структура преобразования, осуществляе­ мого СР на этапе распознавания. Описание и выбор струк­ туры разомкнутых СР, как следует из табл. В-1, являются первыми при рассмотрении направления, связанного с син­ тезом СР с фиксированной структурой, настраивающихся по замкнутому циклу. При настройке по замкнутому циклу в данном случае мы отказываемся от необходимости апри­ орного задания вида условных плотностей для совокупно­ стей образов внутри классов и считаем их произвольными. Вместо априорной информации о виде условных плотно­ стей при рассматриваемом подходе задается априорная информация об общем виде и структуре преобразования, осуществляемого системой на этапе распознавания.

Нейрон в настоящее время признается основным эле­ ментом нервной системы человека и животных. Изучение организации нейронов показало, что их расположение в нервной ткани и взаимосвязь подчиняются некоторым, пока еще мало изученным законам. Одним из таких зако­ нов является расположение нейронов по слоям с элемен­ тами связи между различными слоями нейронов. Подобное топологическое свойство достаточно хорошо изучено на примерах головного мозга, а также зрительного анализа­ тора. Данное свойство нейронной сети является мало изу­ ченным с формальной точки зрения. Основная цель на­ стоящей книги заключается в получении ответа на во­ просы: почему система распознавания образов должна строиться как нейронная сеть? Как выбрать топологию этой сети (число слоев, число элементов в слое, характер свя­ зей, характер структуры)? Как, наконец, синтезировать алгоритм адаптации нейронной сети?

Объективная необходимость построения многослойных

СР различной

структуры в книге обосновывается только

с формальной

точки зрения. Однако это позволяет не

только приблизиться к конкретным нейронным структурам [Л. 11, 21, 24], введенным с точки зрения нейрофизиоло­ гического, а не формального аспекта, но и рассматривать

Ю

намного более сложные структуры, работающие в более общих режимах, чем режим распознавания. С этих пози­ ций автором на одном из этапов исследований была выдви­ нута рабочая гипотеза: однородная многослойная нейрон­ ная сеть может выполнить любую операцию. Конечно, дан­ ная гипотеза выражена несколько упрощенно. Однако она позволила показать возможность применения излагаемой методики синтеза для решения с помощью многослойных систем следующих задач: обращение матриц, скалярное перемножение векторов, реализация преобразователей чи­ сел из двоичной системы в десятичную и обратно.

Очевидно, задача пороговой логики является частной по отношению к задаче, рассматриваемой в книге, так как представляет собой случай двоичных пространств призна­ ков, указаний учителя и решений. Уже сейчас очевидны ограничения формальных подходов к синтезу сетей из ли­ нейных пороговых элементов (ЛПЭ), реализующих логи­ ческие функции, в плане ограниченности размерности ло­ гических функций и структуры сетей из ЛПЭ [Л. 12, 66J. Те частные применения неформальных методов синтеза систем, реализующих пороговые функции [Л. 5, 12], по­ казывают, по нашему мнению, единственность неформаль­ ного подхода к решению задачи с помощью многослойных систем из пороговых элементов для логических функций большого числа переменных. Это открывает широкие воз­ можности применения разработанных ниже методов син­ теза многослойных СР для синтеза узлов и блоков совре­ менных ЦВМ на пороговых элементах с настраиваемыми на этапе синтеза коэффициентами, узлов и блоков мини­ мальной сложности и максимальной надежности.

В заключение вопроса, связанного с выбором и описа­ нием структуры разомкнутых СР, отметим три основных перспективных направления применения теории много­ слойных систем распознавания образов:

1)построение многослойных специализированных си­ стем распознавания образов;

2)построение блоков и узлов современных ЦВМ в виде многослойных структур на пороговых элементах с настраи­ ваемыми коэффициентами;

3)построение формальных моделей функций мозга, основываясь на том, что формальный и нейрофизиологичес­ кий аспекты независимо друг от друга привели к необ­ ходимости построения некоторых частных моделей (а именно СР) в виде многослойных систем с однородной структурой.

11

Формальным аппаратом, используемым при анализе разомкнутых СР, является аппарат, основанный на точных методах вероятностного анализа многомерных нелиней­ ных систем. Переход в основном к анализу распределений и моментов распределений ошибок СР обусловливается тем, что результаты данного анализа, как показано ниже, формально не зависят от сложности и вида разомкнутой СР, за исключением характеристик пространства призна­ ков и пространства решений. Этот существенный момент в дальнейшем широко используется на этапах выбора или формирования функционала вторичной оптимизации, а также построения замкнутой СР (гл. 5, 6, 7).

Под функционалом вторичной оптимизации понимается функционал, выражаемый через параметры распределений текущих сигналов в СР и непосредственно минимизируе­ мый в многослойных СР при настройке по замкнутому циклу. На данном этапе синтеза рассматриваются в основ­ ном два вопроса. Первый вопрос связан с исследованием соответствия используемых в известных работах функцио­ налов вторичной оптимизации некоторым критериям пер­ вичной оптимизации. Предметом рассмотрения здесь яв­ ляются известные адаптивные СР, такие как АДАЛИН, матрица Штайнбуха, трехслойной персептрон Розенблатта (вернее, его настраиваемый выходной блок), а также не­ которые СР с функционалами вторичной оптимизации, рассмотренными Я- 3. Цыпкиным. В качестве основного недостатка таких подходов отмечается, что в большинстве случаев не рассматривается соответствие выбираемых функ­ ционалов вторичной оптимизации конкретным критериям первичной оптимизации. Это приводит к практическому отсутствию работоспособности некоторых СР при много­ модальных распределениях входного сигнала.

Вторым, основным на данном этапе синтеза вопросом является формирование в СР функционала вторичной оп­ тимизации, соответствующее заданному критерию первич­ ной оптимизации. Соответствие здесь понимается в смысле совпадения параметров СР при обеспечении минимума функ­ ционалов первичной и вторичной оптимизации. В книге изложена общая методика формирования функционала вторичной оптимизации, соответствующего заданному кри­ терию первичной оптимизации. Приведены результаты применения данной методики для многослойных СР

различной структуры и критериев первичной оптими- . зации.

12

Вопросу организации процедуры поиска экстремума функционала вторичной оптимизации СР в литературе уде­ ляется значительное внимание. Нас в основном будут ин­ тересовать вопросы правомочности и целесообразности применения той или иной градиентной процедуры (Нью­ тона, релаксационной, наискорейшего спуска, стохастиче­ ской аппроксимации и т. д.) поиска локального экстре­ мума.

Применение итерационных методов при составлении стандартных программ поиска экстремума функций многих переменных имеет свои особенности при построении адап­ тивных систем. Они связаны в основном с тем, что при не­ известных характеристиках входного сигнала в условиях так называемой априорной недостаточности даже при фик­ сированной структуре разомкнутой СР ничего нельзя ска­ зать о виде функционала вторичной оптимизации кроме того, что он имеет несколько локальных экстремумов, все или по крайней мере некоторые из которых должны быть найдены в процессе настройки по замкнутому циклу. Именно этот факт делает необходимым введение элементов случайности в процедуру поиска, связанных с выбором множества случайных начальных условий для некоторой градиентной процедуры. Основным вопросом исследования при этом является вероятность нахождения некоторого числа локальных экстремумов функционала вторичной оптимизации в зависимости от числа выбросов случайных начальных условий градиентной процедуры поиска локаль­ ного экстремума. Одна из задач, которую нужно решать на этапе построения замкнутых систем, заключается в том, чтобы оценить вектор градиентов функционала вторичной

оптимизации

в СР. Это

можно сделать двумя путями:

1) введением

поисковых

колебаний и детектированием;

2) нахождением оценки вектора градиентов в виде вы­ ражения через сигналы в СР (выходные и промежу­ точные) .

Впервом случае имеем дело с поисковой СР, во втором—

саналитической. Естественно, предпочтительнее построе­ ние СР в виде аналитических систем, настраивающихся по замкнутому циклу, так как введение поисковых колебаний вводит дополнительные шумы в систему. Однако построе­ ние СР аналитическими средствами не всегда возможно. Ограничения аналитического подхода показаны ниже при подробном рассмотрении этапа построения. Основное вни­ мание на этапе построения замкнутых СР уделяется реали­

13

зации заданных критериев первичной оптимизации в мно­ гослойных СР различного вида.

Важным является вопрос построения многослойных СР в режимах самообучения и произвольной квалификации учителя. Методология построения замкнутых СР здесь та же, что и в режиме обучения. В этом проявляется принцип единого подхода к обучению и самообучению, проходящий красной нитью через всю методику синтеза многослойных СР, излагаемую в данной книге.

Исследование замкнутых СР (гл. 8) является заключи­ тельным для многослойных СР с фиксированной структу­ рой, настраивающихся по замкнутому циклу. На данном этапе синтеза решается ряд вопросов, связанных с оценкой качества работы разомкнутых многослойных СР. Первым таким вопросом является выбор начальных условий для настройки коэффициентов многослойной СР. Выше было отмечено свойство многоэкстремальности функционала вторичной оптимизации СР. Ввиду этого ниже рассматри­ ваются два способа выбора начальных условий: случай­ ный, когда нужно найти все локальные и глобальный экс­ тремумы, и детерминированный, когда многослойная СР вводится в область глобального экстремума функционала вторичной оптимизации. Вторым вопросом является вы­ бор класса типовых входных сигналов многослойных СР, достаточно полного для того, чтобы при данных сигналах можно было в дальнейшем исследовать и сравнивать ка­ чество работы многослойных СР. Для систем автоматиче­ ского управления подобная задача решена, в частности, выбором в качестве типовых сигналов класса полиномиаль­ ных сигналов, где сложность входного, сигнала опреде­ ляется порядком полинома. В случае многослойных СР ввиду специфики данных систем сложность входного сиг­ нала определяется модальностью условных распределе­ ний. Третьим вопросом является выбор оптимальных па­ раметров контура настройки многослойных СР, в частно­ сти параметрической матрицы системы поиска экстремума функционала вторичной оптимизации. Решение данной задачи возможно аналитическим путем и с использованием

методов статистического моделирования. Общая

методика

аналитического исследования замкнутых СР,

настраива­

ющихся

по замкнутому циклу, состоит из этапов:

1)

определение плотности распределения

вероятносте

для оценки вектора градиентов функционала вторичной оптимизации;

14

2)вывод стохастического дифференциального уравне­ ния для изменения в процессе настройки плотности рас­ пределения настраиваемых коэффициентов СР;

3)решение данного уравнения;

4)нахождение параметров распределения функционала первичной оптимизации интегрированием по пространству признаков и пространству состояний (пространству на­ страиваемых коэффициентов) СР как системы со случай­ ным входным сигналом и случайными параметрами.

Результаты данного анализа в принципепозволяют решить и задачу синтеза контура настройки СР по крите­ риям, связанным с характеристиками изменения в процессе настройки параметров распределения функционала пер­ вичной оптимизации.

Однако необходимо отметить, что выбор оптимальных параметров контура настройки аналитическим путем яв­ ляется трудной математической задачей. В книге методика

аналитического исследования замкнутых СР иллюстри­ руется лишь частными примерами. Основным методом ре­ шения остается метод, связанный со статистическими ис­ пытаниями. Особое внимание здесь уделяется вопросу вы­ бора оптимальных параметров контура настройки СР по оценке текущего значения функционала первичной оптими­ зации. В книге приводятся результаты исследования боль­ шого числа многослойных СР, полученные моделированием на ЦВМ.

В целом по данному этапу синтеза многослойных СР необходимо отметить следующее. Рассмотрение класса не­ формальных задач, в частности задач распознавания об­ разов при неизвестных достаточно сложных функциях ус­ ловных плотностей распределения, создает определенные трудности не только при построении самих систем, способ­ ных решать подобные задачи, но и при попытке теоретиче­ ски оценить качество решения данных задач. Поэтому за­ частую приходится прибегать к методам, связанным со ста­ тистическим моделированием.

Выше было отмечено, что СР с фиксированной структу­ рой, настраивающиеся по замкнутому циклу, обеспечивают оптимум при условных плотностях произвольного, не за­ данного заранее вида. Однако потенциальное качество та­ ких СР ограничено априорной информацией о структуре разомкнутой СР. В гл. 9 рассматриваются методы синтеза СР, структура разомкнутой части которых априори не фик­ сируется и является результатом настройки наряду со

15

значениями настраиваемых коэффициентов. При этом в про­ цессе настройки выбираются число слоев и число элементов ЛПЭ в слое многослойной СР. В данной книге рассматри­ ваются некоторые варианты построения СР с переменной структурой, особенности исследования динамики процесса настройки на уровне исследования зависимости значения функционала первичной оптимизации от числа ЛПЭ в слоях и числа слоев. В конечном итоге СР с переменной структу­ рой реализуется в виде однородной многослойной сети из ЛПЭ.

В книге, как это видно из табл. В-1, этап выбора инфор­ мативных признаков охватывает три направления: СР, настраивающиеся по разомкнутому циклу; СР с фиксиро­ ванной структурой, настраивающиеся по замкнутому циклу

иСР с переменной структурой.

Вгл. 10 делается попытка с единой точки зрения взгля­ нуть на разрозненные и достаточно многочисленные работы по вопросу выбора информативных признаков и дать на­ чало так называемым структурным методам, имеющим объективной предпосылкой своего рассмотрения методы синтеза многослойных СР.

Необходимо отметить, что зачастую бытующее в настоя­ щее время представление о возможности так называемого предварительного выбора признаков, по мнению автора, является неверным, так как при любой процедуре выбора признаков косвенно или прямо должна быть использована конкретная СР. Именно поэтому с этой точки зрения вся­ кая процедура выбора признаков является субъективной, где субъектом является СР конкретного типа.

Второй тезис, выдвигаемый автором для утверждения предлагаемого подхода, заключается в «абсолютности» функционала первичной оптимизации как показателя ин­ формативности признаков. Именно поэтому оценки, свя­ занные с дивергенцией, средней условной энтропией, яв­ ляются приближенными и частными.

Вышесказанное делает необходимым рассмотрение во­ проса выбора информативных признаков после окончания процедур синтеза и исследования динамики СР. По мнению автора, многослойные СР с фиксированной и переменной структурой обладают наименьшей степенью субъективизма по отношению к входному сигналу (предмету исследования

спомощью СР), так как синтезируются, исходя из условия отсутствия информации об условных плотностях распреде­ ления, образов внутри классов. Именно поэтому в книге

16

в основном рассматривается применение данных СР для выбора наиболее информативных признаков исходного пространства признаков.

Применение и исследование многослойных СР позволяет поставить задачу выбора наиболее информативных призна­ ков не исходного, а промежуточных пространств, форми­

руемых

выходными

сигналами

ЛПЭ

первого,

второго

и т. д.,

выходного

слоев СР.

Данная задача

может

трактоваться как задача минимизации структуры

(числа

ЛПЭ в

каждом слое) многослойной СР

после окончания

настройки ее коэффициентов по замкнутому циклу.

 

Приведенная в книге методика синтеза многослойных СР открывает новые пути для построения качественных специализированных СР. В книге кратко описаны разра­ ботанные в настоящее время специализированные СР, от­ носящиеся к классу многослойных. Основное внимание при этом уделяется структуре разомкнутой СР, определяю­ щей потенциальное качество распознавания. Приводится изложение предложенного автором принципа реализации многослойных СР, когда разомкнутая СР реализуется в аналоговом виде, а блок настройки — на ЦВМ. Показаны результаты макетирования и моделирования многослойных специализированных СР.

Ограниченность объема книги не позволила остано­ виться на многих важных вопросах теории и практики мно­ гослойных СР, решенных автором совместно с теми, кто непосредственно участвовал и помогал ему в работе. Ав­ тор выражает свою искреннюю благодарность за помощь, оказанную в работе в области многослойных СР, коллек­ тиву сотрудников, принимавших участие в разработке и отладке экспериментальных программ, реализующих многослойные СР. Замечания по книге автор с благодар­ ностью примет по адресу: 113114, Москва, Шлюзовая на­ бережная, д. 10, издательство «Энергия».

I

Гос.

I

ч а у * * 4 ^ tjC-TjLj 1

I

Ок'Зпногенл ССС

I

■I Ч И П ' о , - " О ЗА,

Г л а в а п е р в а я

ИССЛЕДОВАНИЕ ХАРАКТЕРИСТИК ВХОДНЫХ СИГНАЛОВ СИСТЕМЫ РАСПОЗНАВАНИЯ

1-1. Постановка задачи

Система распознавания образов (СР) может быть пред­ ставлена в виде эквивалентной системы, приспосабливаю­ щейся в определенном режиме к внешним условиям. Об­ щая структурная схема такой СР изображена на рис. 1-1, где х (п) есть многомерный случайный процесс, представ­

ляющий собой

последовательность образов на входе

СР,

п — дискретный

аргумент. Сигнал е (п) определяется

как

указание учителя о принадлежности текущего образа на входе СР к тому или иному классу. Каждый класс охваты­ вает определенное множество образов, объединенных неторым общим свойством1. Многомерный выходной сигнал системы распознавания xk (п) формируется в виде данных СР о принадлежности текущего образа к той или иной об­ ласти пространства решений. В связи с этим рассматри­ ваются X, Е, Х к — соответственно пространства образов, указаний учителя и выходных сигналов СР. Блок настройки параметров СР, кроме вектора а( п) настраиваемых ко­ эффициентов, в общем случае выдает информацию о струк­ туре преобразования хк (х), представляющего собой за­ висимость выходного сигнала СР от входного; g (п) — век­ тор промежуточных сигналов СР.

Входным сигналом СР является сигнал [х (п), е (/г) ], одной из характеристик которого является число градаций сигнала е (п) по уровню, определяемое числом классов об­ разов. При этом независимо от этого сигнал х (п), имею­ щий размерность N, в общем случае может быть как

1 В некоторых работах данное определение образа и класса заменяется соответственно определениями объекта и образа, что по мнению автора, является терминологической тонкостью и не­ существенно.

18

дискретным, так и непрерывным по амплитуде. Если е (я) есть одномерный сигнал, квантованный по уровню на две или К градаций, имеют дело соответственно с двумя или К классами образов. Если вектор е (я) имеет размерность N* и число градаций каждой компоненты его по ампли­ туде равно Ко, то число клас-

С0В

K - ( K o f * .

Для сигнала е (я), имею­ щего не дискретное, а непре­ рывное распределение, рас­ сматривается случай конти­ нуума классов, когда задачу настройки СР при общей по­ становке можно трактовать как задачу оценки системой некоторого непрерывного па­ раметра s распределения/ (х, е) случайного процесса.

х(п)

Система

Х н ( л )

 

распознавания

 

 

образов

 

 

а(п)

 

блок

настройки

£(п) параметров системы

Рис. 1-1. Структурная схема системы распознавания обра­ зов.

Конкретную задачу настройки (обучения ) СР можно проилшсстрировать следующим примером.

Рассмотрим формирование входного сигнала СР в случае кон­ тинуума признаков в задаче прогнозирования надежности некото-

Рис. 1-2. К формированию пространства признаков и указа­ ний учителя в задаче прогнозирования надежности приборов.

рого устройства. На рис. 1-2 Xj (t0) — кривые изменения во времени некоторого параметра устройства, по которому проверяется надеж­ ность при испытании, / — номер испытываемого устройства, х0 — допустимое значение параметра, ниже которого устройство считается негодным.

Точка пересечения кривой xj (tn) с уровнем х0 определяет время работы устройства. Каждой кривой соответствует вектор X/ (я),

19

Соседние файлы в папке книги из ГПНТБ