книги / Теория признаков распознавания образов на основе стохастической геометрии и функционального анализа
..pdfГЛАВА 5
ПОДХОД К ФОРМИРОВАНИЮ ПРИЗНАКОВ РАСПОЗНАВАНИЯ НА ОСНОВЕ СТОХАСТИЧЕСКОЙ ГЕОМЕТРИИ
И ФУНКЦИОНАЛЬНОГО АНАЛИЗА
5.1. Трейс-преобразование
Признак изображения понимается как некоторое число или вектор, которые ставятся в соответствие этому изображению. Вновь введен ные признаки традиционно полагаются имеющими очевидный смысл. Проблема состоит в поиске многих признаков для эффективного раз личения изображений, т.е. иероглифов, микрообъектов или текстур.
В книге предлагается теория для генерации большого количества (тысяч) признаков. Специально спроектированные компьютерные про граммы могут затем выбрать признаки, которые эффективно решают данную проблему распознавания образов.
Долгое господство предположения, что процесс формирования при знаков является эмпирическим и зависит от интуиции проектировщика распознающей системы, помешало развитию теоретического обобщения признаков распознавания.
Подход с позиций стохастической геометрии и функционального анализа, развитый в наших предшествующих работах [16, 44, 45, 47, 48, 59, 67, 73, 76, 78, 79, 90, 91, 110, 111 и др.], позволяет восполнить этот пробел и, наряду с конструктивной теорией признаков, дать прак тические методы генерации большого числа новых признаков распо знавания изображений. Столь мощное смещение акцента с решающих правил на новые признаки распознавания даёт основание говорить о новом понимании изображений.
В работе [43] предложено в качестве признаков распознавания изображений использовать вероятности геометрических событий, под которыми понимают результат взаимодействия геометрических объ ектов: пересечения, покрытия и т. п. Роль геометрических объектов выполняют, с одной стороны, сложные траектории сканирования со случайными параметрами (отрезки, линии, кривые, фигуры и т. п.), с другой — фрагменты распознаваемого изображения (этот подход рассмотрен в предшествующих главах книги).
5.1. Трейс-преобразование |
115 |
Характерной особенностью конструктивных признаков нового клас са является их структура в виде композиции трёх функционалов, вследствие чего они получили название триплетные признаки распо знавания. Источником триплетных признаков является новое геомет рическое трейс-преобразование (от английского слова trace — след), связанное со сканированием изображений по сложным траекториям. Трейс-преобразование введено в [43] и исследовано автором и его научной школой в работах [44, 45, 47, 48, 71, 73, 76, 78, 110 и др.]. Рассмотрим детально сущность трейс-преобразования.
Рассмотрим входную сетчатку распознающего устройства, под ко торой будем понимать сканируемую часть плоскости изображения. В этой части плоскости располагается некоторое изображение, тогда как оставшаяся часть плоскости — фоновая. Таким образом, изображе ние финитно. Рассмотрим случайную прямую I \ которая может пере секать изображение. Предположим, что пересечение прямой I и изобра жения позволяет нам вычислить некоторое число д, характеризующее их взаимное расположение. Производя серию случайных бросаний пря мой I на плоскость, получаем выборку для случайной величины д. Да лее, можно определить какую-нибудь эмпирическую характеристику п случайной величины д. Выше рассматривалась реализация описанной процедуры в технических системах, осуществляющих распознавание изображений.
Математическая сторона указанной процедуры интенсивно исследо валась в стохастической геометрии. Было выяснено, что при некоторых условиях характеристика п может иметь явный геометрический смысл. Для нас важно, что, легко реализуясь в технических системах, эта идея может служить исходной точкой для получения новых признаков распознавания образов, как в теоретическом анализе, так и в практи ческой сфере.
Во второй главе приведены формулы, на основе которых строятся критерии распознавания. Рассматриваются только бинарные изображе ния (черные фигуры на белом фоне).
1.Рассмотрим изображение в виде кусочно-дифференцируемой кри вой, которая может быть границей фигуры. Пусть д — число пере сечений этой кривой со случайной прямой /. Тогда математическое ожидание Мд пропорционально длине кривой.
2.Рассмотрим изображение в виде выпуклой фигуры. Это может быть выпуклая оболочка некоторой другой фигуры. Пусть д — длина пересечения выпуклой фигуры со случайной прямой I. Тогда средние
величины Мд°, Мд, Мд2 пропорциональны соответственно периметру, площади и собственному потенциалу однородного слоя (см. § 2 .2).
Приведенные выше формулы и их многочисленные аналоги имеют для распознавания образов следующие недостатки:
1) число этих формул ограничено, поскольку ясно выраженных геометрических характеристик не так много, а признаков требуются тысячи и более;1
1 Здесь и далее в книге через I обозначается прямая.
8*
116 Гл. 5. Подход к формированию признаков распознавания
2) формулы применимы только для бинарных изображений.
К достоинствам следует отнести возможности параллельных вы числений (одновременно обрабатывается несколько прямых сразу) и стохастической реализации, последнее позволяет оборвать процесс при достижении нужной точности, кроме того, вычисленные признаки не зависят от движений объектов. Известно, что обычно признаки сильно зависят от поворота и сдвига объекта, в то время как во многих задачах распознавания поворот и сдвиг объектов совершенно неинформативны.
В книге предлагается обобщение приведенного выше подхода с целью преодоления его недостатков и с сохранением достоинств.
Новое геометрическое преобразование. Обозначим буквой F фи нитное изображение. Если дана прямая I, то число д, характеризующее взаимное расположение прямой I и изображения, будем вычислять согласно некоторому правилу Т: g = T(l,F); отображение Т есть функционал. Для нас желаемым свойством является независимость вычислений от движения объекта, поэтому единственное требование, которое мы накладываем на Т, формулируется следующим образом. Пусть изображение претерпело сдвиг и поворот, при этом возникло новое изображение F '. При этом же сдвиге и повороте прямая I перейдет в прямую V, оставаясь, таким образом, «вмороженной» в изоб ражение. Требуется, чтобы T(l, F) = Т(/', F'). Это равенство должно быть верным для всех прямых и всех допустимых изображений. Такое свойство назовем полной инвариантностью функционала Т. Следует отметить, что понятие полной инвариантности весьма сильно рас ширяет возможности распознавания образов, ибо это не обязательно число пересечений, длина секущей и т. д. Например, если изображение цветное, переменной яркости, то таких функционалов можно найти довольно много. Итак, круг функционалов и обрабатываемых изобра жений значительно расширен.
Аналогично, как и в стохастической геометрии, определена слу чайная величина д = T(l, F), распределение которой не зависит от сдвигов и поворотов изображения. Поэтому числовые характеристики этой случайной величины опять могут служить признаками изображе ний, которые определяются специальными техническими системами. Недостаток нового семейства признаков — первоначальное отсутствие ясного геометрического смысла, и заранее не известна их различаю щая сила. Однако для распознавания образов это не так важно, ибо решающей все-таки является экспериментальная проверка.
Отметим еще одно свойство вполне инвариантного функцио нала Т (трейс): он не обязательно определяется лишь сечением прямой изображения. Для его вычисления может быть привлечена также и другая информация, например, свойства окрестности это го сечения.
Чтобы понять, что предложенное обобщение в некотором смысле исчерпывает все его возможности, изложим теорию трейспреобразований. Прямая /, если введены полярные координаты на плоскости, характеризуется расстоянием р от начала координат до нее
5.1. Трейс-преобразование |
117 |
и углом в (с точностью до 2тт) ее направляющего вектора:
I = {(ж, у ): ж cos# + у sin в = р}, I = 1(6, р),
где х уу — декартовы координаты на плоскости.
Таким образом, множество всех направленных прямых, пересека ющих круг радиусом R с центром в начале координат («сетчатку»), однозначно параметризуется множеством
Л ={(#,/>): 0 ^ 6 ^ 7г, —R ^ р ^ R}
при условии, что параметры (0,р) и (тг,—р) задают одну прямую. Вид но, что множество прямых на сетчатке есть в топологическом смысле не что иное, как лист Мёбиуса. Множество чисел Т (l(6,p),F), зави сящее от точки на листе Мёбиуса Л, есть некоторое преобразование изображения, которое назовем трейс-преобразованием. Если, напри мер, при численном анализе трейс-преобразование представлено мат рицей, то будем называть ее трейс-матрицей. Если направить ось 0# горизонтально, а ось 0р вертикально, то в точке (6j,pi) будет распо ложен элемент матрицы с номером (i,j), т. е. значение T(l(6j, pi), F).
Здесь 9jy pi — некоторые значения равномерных дискретных сеток на указанных осях. Матрица будет 27г-периодична в направлении го ризонтальной оси, причем через каждый интервал длины д столбцы ее переворачиваются.
Будем считать дополнительно, что если прямая I не пересекает изображения, то Т ( l , F ) есть заданное число (например, 0) или дру гой фиксированный элемент, если функционал Т нечисловой. В этом случае первоначальному изображению F соответствует T(.F) — новое изображение (можно трактовать Т(1(6, р), F) как изображение, харак теристики которого в точке (6,р) — его трейс-образ).
К полученному промежуточному изображению (трейс-образу) можно вновь применить трейс-преобразование. Этот приём прак тически используется в главе 8 для нелинейной фильтрации изобра жений.
Рассмотрим подробнее вычисление трейс-преобразования.
Пусть F — некоторая векторная функция, представляющая изоб ражение. Она содержит всю информацию об изображении, яркость, цвет и другие характеристики в каждой точке, поэтому мы можем обозначить её той же буквой, что и изображение F .
Рассмотрим функцию трёх независимых переменных
1(6, p,t) = (р cos 6 —t sin 6, psin 6 + 1cos 6).
Это естественное параметрическое представление сканирующей прямой. Параметр t связан с естественной одномерной системой ко ординат на прямой (см. § 2 .2).
Пересечение изображения F прямой I даёт функцию
f(e,p,t) = F(i(e,p,t)).
Рассмотрим бинарное изображение китайского иероглифа, состо ящее из квадратных пикселов, пересекаемых сканирующей прямой
5.1. Трейс-преобразование |
119 |
как изображение на цилиндре (склеивается левая и правая сторона рисунка с изображением трейс-трансформанты).
В нашем примере функционал Т независим от любого сдвига изображения основной функции и при вычислении выражения Т u ( t ) . Также он независим от изменения знака параметра t, т. е. Т u(t) = = Т u(—t). Это ведет к тому, что мы можем интерпретироватв результат трейс-преобразования так, как будто он расположен на листе Мёбиуса. Рисунок с изображением трейс-трансформанты разрежем вдоль верти кальной оси симметрии, правую часть рисунка перевернём вдоль го ризонтальной оси симметрии, и склеим левый и правый края рисунка. В нашем представлении этих результатов трейс-преобразований числа для наглядности интерпретируются цветом.
Если выбрать в качестве Т функционала суммарную длину пе ресечения (отрезок t \ — t 2 плюс отрезок то в этом частном случае трейс-преобразование совпадет с преобразованием Радона для бинарных изображений. Действительно, пусть пересечение изображе ния F сканирующей линией I даёт функцию пересечения fgtP. Если интегрировать эту функцию вдоль каждой линии по параметру t, то совокупность интегральных значений яркости для всех линий даёт преобразование Радона. В терминах трейс-преобразования имеем
Tfe,P |
fe,P{t) dt. |
|
—ОО |
Совокупность {Т/^р}, в Е [0,27г], р Е К несёт всю информацию об изображении.
Для бинарных изображений, рассматриваемых в вышеприведённом примере, определение суммарной длины пересечений изображений с каждой из сканирующих линий даёт трейс-преобразование, эквива лентное преобразованию Радона.
Примеры применения преобразования Радона в качестве трейспреобразования можно найти в работах [48-50, 57, 94, 110, 111, 126 и др.].
Следует отметить, что при определённом выборе Т функцио налов трейс-преобразование становится эквивалентным преобра зованиям Фурье, Хо, Радона-Хо, но не совпадает с ними.
Трейс-преобразование является эффективным инструментом при изучении движений распознаваемых объектов и их масштабных изменений. Это объясняется тем, что трейс-образ сохраняет информа цию о первоначальном объекте, т. е. тип трейс-матрицы не изменяется под действием группы движений (поворота, переноса) и гомотетии, но каждое их этих преобразований вносит свою характерную компоненту при формировании трейс-преобразования. Кратко остановимся на том, как меняется изображение Т(/, F) при сдвигах и вращениях исходного изображения F. Если первоначальное изображение поворачивается, то его трейс-образ сдвигается по горизонтальной оси.
Если же происходит сдвиг исходного изображения на некоторый вектор, то его трейс-образ претерпевает следующие изменения. Лучше
120 Гл. 5. Подход к формированию признаков распознавания
их изложить в терминах трейс-матриц. Столбцы остаются неизмен ными, на своих местах, но могут сдвигаться вверх или вниз. Вектор сдвига определяют числа а и b такие, что столбец с координатой 0* сдвигается в вертикальном направлении на а ■cos(0* —Ъ). Следует под черкнуть, что вполне строгим это описание будет лишь в том случае, если трейс-матрицу считать непрерывной, т. е. i и j непрерывные параметры.
На цветной вклейке на рис. 5.2 представлено изображение иерогли фа в центре картинного поля и результат его трейс-преобразования — трейс-трансформанта; на рис. 5.3 — повёрнутое изображение этого иероглифа и его трейс-трансформанта, сдвинутая по горизонтальной оси на расстояние, пропорциональное углу поворота а; на рис. 5.4, 5.5 — изображение иероглифа при сдвигах и соответствующие транс форманты; на рис. 5.6 — изображение иероглифа, претерпевшее мас штабное преобразование, и соответствующая ему расширенная трейстрансформанта.
Обычная евклидова мера dO dp листа Мёбиуса инвариантна к ука занным преобразованиям, поэтому плотность распределения всякой функции, заданной на листе Мёбиуса, в данном случае функции
изображения Т (l,F) |
не зависит от указанных преобразований, т. е. |
если изображение F |
сдвинуто и повернуто до состояния F', то распре |
деление значений функций изображения Т(/, F) и T(l,F ') одинаковы. Именно поэтому их значения могут трактоваться как случайные функ ции, не зависящие от движений исходного изображения.
Триплетный признак распознавания. Рассмотрим формирование триплетных признаков, представляющих последовательную компози цию трех функционалов:
U(F) = @ o P o T (F o l(e ,p ,t)) .
Каждый функционал (©, Р и Т) действует на функции одной переменной (0, р и t) соответственно.
Функционал Т, соответствующий трейс-преобразованию, подробно рассмотрен выше. В дискретном варианте вычислений результат этого преобразования, или трейс-трансформанта T{F о1(в,р,Ф)), представ ляет собой матрицу, элементами которой являются, например, зна чения яркости изображения F на пересечениях со сканирующей ли нией 1{в,р). Параметры сканирующей линии 0 и р определяют позицию этого элемента в матрице. Последующее вычисление признака заклю чается в последовательной обработке столбцов матрицы с помощью функционала Р, а затем в преобразовании полученной периодической функции с помощью функционала © в число-признак П(.Р).
Трёхзвенная форма триплетного признака позволяет получить боль шое число новых конструктивных признаков распознавания, причём в режиме автоматической компьютерной генерации. Обилие признаков даёт возможность расширить круг решаемых задач распознавания, включить в него задачи с большим алфавитом образов: распознавание иероглифов [78, 90], объектов из области нанотехнологий [52, 81,