Добавил:
natribu.org Все что нашел в интернете скидываю сюда Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Точно Не проект 2 / Не books / Источник_1

.pdf
Скачиваний:
10
Добавлен:
01.02.2024
Размер:
20.67 Mб
Скачать

560

Глава 10

 

 

Система компьютерного зрения должна формировать символьное или словесное описание сцены (рисунок 10.4). Именно такое описание может быть понятным роботу, который должен собрать предметы со стола и перенести их в другое место. Формирование такого символьного описания предполагает наличие априорных знаний об объектах реального мира и соответствующего словаря.

БЛОК B7

ЛЕЖИТ НА СТОРОНЕ A2 ЦЕНТР ТЯЖЕСТИ (16,8 8,0 2,7)

ЛИЦЕВАЯ СТОРОНА ОБРАЩЕНА НА ЮГО-ЗАПАД

Рисунок 10.4 – Символьное описание сцены

Задачи, относящиеся к компьютерному зрению, являются сложными по многим причинам. Отметим некоторые из них.

1.Изображения обычно представляют собой проекции трехмерной реальности на двухмерную плоскость (например, на матрицу ПЗС элементов камеры). В ходе этого процесса безвозвратно теряется информация о сцене, главным образом информация о глубине, и, следовательно, утрачивается информация об отношениях соседства между объектами сцены. Чтобы выполнить восстановление трехмерной реальности с помощью компьютера, необходимо использовать, наряду с данными, представляющими изображение, разумные допущения (эвристики) и априорные знания

осцене. Восстановить трехмерную картину можно (при определенных ограничениях), воспользовавшись двумя камерами и пространственной схемой, изображенной на рисунке 10.5. Здесь используется тот факт, что в схеме с двумя камерами, оптические центры которых находятся на базовом расстоянии b, изображение физической точки P(x,y,z) на каждой из плоскостей изображений смещается на некоторую величину по отношению к точке пересечения оптической оси с плоскостью изображения. Разность указанных смещений называется диспаритетом. Для точек, находящихся на значительном расстоянии от камеры, диспаритет примерно равен нулю. Рассмотренная пространственная схема позволяет находить координаты x, y, z точки P, если она фиксируется обеими камерами. Чтобы восстановить трехмерную сцену (3D-сцену), необходимо получить изображения точечных стереопар для соответствующих точек объектов, образующих сцену.

2.Шумы изображения, создаваемые датчиками изображений, также приводят к потерям информации. Это следует учитывать при анализе изображений. Прежде чем выполнить ту или иную операцию по извлечению информации из изображения, необходимо осуществить регуляризацию

Компьютерное зрение

561

 

 

изображения, например, сглаживание путем свертки изображения с двумерным окном Гаусса;

Рисунок 10.5 – Схема получения стереоизображения

3.Чтобы зафиксировать точку изображения с определенной интенсивностью и цветом, применяют различные физические процессы. При этом учитываются многие особенности этих процессов, например: характер излучения (прямое и косвенное), форма и отражающие способности поверхности объекта, тени, атмосферное поглощение и др. Учет всех особенностей не возможен без априорных знаний или эвристик;

4.В области компьютерного зрения требуется быстро обрабатывать большие объемы данных. Обычное изображение имеет размер 512х512 пикселей (элементы изображения) с разрешением по интенсивности 8 битов (256 градаций). Система зрения человека может обрабатывать в реальном времени объемы данных, намного превышающие названные. В компьютерном зрении тоже имеются задачи, требующие решения в реальном времени. Например, в робототехнике и различных системах наблюдения. Анализ последовательности изображений (подвижных изображений) – одно из быстро развивающихся направлений компьютерного зрения, требующее больших вычислительных ресурсов.

10.2. Система зрения человека

При разработке систем компьютерного зрения весьма ценными являются сведения о системе зрения человека. Зрение – одно из важнейших чувств человека. Оно незаменимо при ориентации в окружающей

562

Глава 10

 

 

среде, а также при выполнении коммуникативных функций (тексты, диаграммы, картины и т.д.). Поэтому не удивительно, что примерно одна четвертая часть нашего мозга (половина коры головного мозга) относится к системе зрения. Источниками знаний о системе зрения человека являются:

-нейроанатомия (изучает строения мозга посредством препарирования);

-анатомия мозга (изучает дисфункции после повреждений мозга);

-нейрофизиология (изучает электрические сигналы нейронов);

-психофизические эксперименты (реакции на различные стимулы);

-самоанализ (к сожалению, не очень полезно).

Рассмотрим кратко некоторые результаты исследований в указанных областях.

Нейроанатомический и нейрофизиологический подходы. Общая схема глаза человека изображена на рисунке 10.6. [40]. Устройство глаза имеет много общего с оптическими приборами, например, с ПЗС камерой. При этом имеется и много отличий: диафрагма и фокусное расстояние хрусталика глаза изменяются с помощью мышц; изображение проецируется на вогнутую поверхность сетчатки; плотность фоторецепторов на поверхности сетчатки зависит от расстояния до центральной ямки. Имеются и другие существенные отличия.

Рисунок 10.6 – Строение глаза человека

Компьютерное зрение

563

 

 

Рецепторы глаза. Сетчатка содержит большое количество светочувствительных рецепторов. Рецепторы подразделяются на палочки и колбочки в соответствии с их формой. В глазу человека имеется 120 миллионов палочек и 6 миллионов колбочек. Распределение палочек и колбочек на поверхности сетчатки показано на рисунке 10.7 [40]. Палочки реагируют на низкие, а колбочки на более высокие световые уровни. Имеются три типа колбочек, которые являются чувствительными к различным длинам световых волн (рисунок 10.8)[40].

Височная сторона Носовая сторона Рисунок 10.7 – Число палочек и колбочек на миллиметре сетчатки в

зависимости от угла отклонения от зрительной оси

Рисунок 10.8 – Относительная чувствительность (S) колбочек

Предварительная обработка данных в глазу. В сетчатке обнаружена вертикальная и горизонтальная организация (рисунок 10.9). Горизонталь-

564

Глава 10

 

 

ные связи вызывают подавление активности одних рецепторов при возбуждении других рецепторов. Волокна зрительного нерва начинаются у ганглиозных клеток и проходят через слепое пятно глаза. Общее количество волокон приблизительно равно 800 000. В то же время глаз имеет 126 миллионов рецепторов. Очевидно, значительное сжатие визуальных данных происходит уже в глазу.

Рисунок 10.9 – Фрагмент сетчатки глаза

Передача сигналов (рисунок 10.10). Сигналы распространяются, начиная с аксонов ганглиозных клеток, и следуют со скоростью примерно 80 м/с. Эти сигналы представляют собой последовательности электрических импульсов. Частота следования импульсов составляет 10-1000 Гц. Даже, когда нет никакого визуального стимула, вдоль аксонов следуют самопроизвольные импульсы с частотой несколько герц. Аксоны связывают одни нейроны с другими нейронами. Зрительный нерв соединяется с хиазмой, где волокна нерва перераспределяются таким образом, чтобы каждое полушарие мозга получило два изображения. Это необходимо для восприятия пространственной информации. Левое полушарие обрабатывает два изображения правой половины сцены, а правое, наоборот, – два изображения левой половины сцены. В конечном итоге сигналы достигают

Компьютерное зрение

565

 

 

первичной зрительной коры.

Зрительная кора. Входящие аксоны соединяются со зрительной корой так, чтобы смежные области поля зрения оставались смежными и в зрительной коре с одним исключением: поле зрения разбивается в вертикальном направлении на две части и границы этих двух областей расположены в зрительной коре далеко друг от друга. Масштаб отображения поля зрения в зрительной коре не является постоянным. Области поля зрения с высоким разрешением (соответствуют центральной ямке) занимают большую часть поверхности зрительной коры, чем области с низким разрешением. Вместе с тем структура зрительной коры однородная и, что весьма важно, слоистая. Аксоны достигают самых внешних слоев коры (около черепа). Далее связи идут к следующим слоям в направлении от черепа и т.д. Наряду с вертикальными связями, имеются также и горизонтальные связи, которые могут быть весьма протяженными.

Рисунок 10.10 – Зрительные пути в мозгу человека

Нейроны зрительной коры как детекторы признаков. Если в по-

ле зрения лабораторного животного создавать различные световые стимулы, то электрические сигналы нейронов можно обнаружить с помощью тончайших электродов, которые вводят непосредственно в нейроны или помещают рядом с ними. При объяснении реакции нейронов на световые стимулы используется концепция рецептивного поля нейрона [46]. В соответствии с этой концепцией каждый нейрон реагирует на стимулы в определенной области поля зрения.

566

Глава 10

 

 

Ганглиозные клетки сетчатки и нейроны коленчатого тела не обнаруживают направленности: они имеют рецептивные поля концентрической структуры. Имеются два типа таких полей – с on-центром и off- центром. Оба типа полей показаны на рисунке 10.11. Для поля с onцентром высокая интенсивность света в центре повышает частоту импульсов на выходе нейрона, а высокая интенсивность света в кольцевой области вокруг центра снижает её. При этом наибольшая частота импульсов получается для стимула с ярким пятном в центре и темной зоной вокруг. Постоянная яркость света в пределах всего поля создаёт слабую или нулевую реакцию нейрона. Стимулы с темными пятнами и ярким окружением приводят к максимальной частоте следования импульсов на выходе нейронов с рецептивным полем off-типа.

Рисунок 10.11 – Рецептивные поля с off- и onцентрами

Рассмотрим психофизический эксперимент, основанный на использовании сетки Германа и подтверждающий концепцию рецептивных полей с on- и off-центрами (рисунок 10.12).

Рисунок 10.12 – Сетка Германа

Рассматривая сетку с соответствующего расстояния, можно заметить на пересечениях белых полос диффузионные пятна, которые кажутся более

Компьютерное зрение

567

 

 

темными, чем сами белые полосы. На рисунке изображены два рецептивных поля с on-центром – одно на пересечении белых полос, а другое на некотором расстоянии от места пересечения. Для рецептивного поля, находящегося на пересечении полос, наблюдается большая часть его подавляющей кольцевой области, по сравнению со вторым полем. Это и создаёт темное пятно в центре первого рецептивного поля. Противоположный эффект получается при негативном изображения сетки, т. е. сетки, состоящей из темных полос на белом фоне. В этом случае будут видны несколько более яркие пятна на пересечениях. Здесь эффект объясняется рецептивными полями с off-центрами.

Имеются нейроны с различными размерами рецептивных полей, радиусы которых могут отличаться в десятки раз.

Нейроны с рецептивными полями круговой симметрии найдены не только в сетчатке, но и в первичной зрительной коре. Имеются также нейроны с удлиненными рецептивными полями. Они относятся к классу так называемых простых клеток. Рисунок 10.13 поясняет, каким образом можно получить детектор ярких строк на основе нескольких нейронов с рецептивными полями круговой симметрии. Это, конечно, всего лишь гипотеза.

Рисунок 10.13 – Нейронный детектор ярких строк

Чтобы выяснить функции нейронов, через отверстие в черепе лабораторного животного (в большинстве случаев макак из-за подобия их мозга человеческому мозгу) в зрительную кору вводят тончайший электрод и осторожно меняют его позицию. При некоторых положениях электрода обнаруживаются электрические сигналы в ответ на визуальный стимул, создаваемый в определенных точках поля зрения. Хотя такой подход кажется

568

Глава 10

 

 

довольно несовершенным, тем не менее, он дал важные результаты. С его помощью были открыты рецептивные поля, реагирующие на яркость граней и линий, идущих в разных направлениях. Кроме простых клеток, реагирующих на направление граней или линий, имеются так называемые комплексные клетки, которые реагируют на более сложные элементы изображений. Реакция гиперкомплексных клеток зависит от присутствия концов линий в рецептивном поле. Эти клетки также реагируют на углы, имеющиеся на изображениии.

Рисунок 10.14 поясняет поведение гиперкомплексных клеток [69]. Здесь показана реакция нейрона (частота импульсов) на два различных стимула: темную линию, изображенную слева вверху, и ряд линий с выровненными концами, изображенный справа.

Рисунок 10.14 – Зависимость частоты импульсов от ориентации линий

Данные стимулы демонстрировались лабораторному животному под различными углами поворота. Сплошная кривая на рисунке представляет реакцию для одиночной темной линии, а штриховая – для ряда линий. Из графика следует, что наиболее сильная реакция наблюдается для одиночной линии, расположенной под углом 0 градусов (в некоторой системе отсчета). В случае отклонения этой линии влево или вправо частота снижается. При предъявлении этому же нейрону ряда линий был получен неожиданный результат: очень сильная реакция наблюдалась, когда виртуальная линия, соединяющая концы ряда линий, имела направление близкое к нулю градусов. Это означает, что нейрон реагирует на несуществующую (виртуальную) линию, которая отчетливо ощущается. Безусловно, это оптическая иллюзия, но она имеет материальное основание. Из рисунка также видно, что частота импульсов увеличивается при повороте линий, изображенных справа, на угол +90 или -90 градусов. Это реакция на от-

Компьютерное зрение

569

 

 

дельные линии. Следовательно, нейрон не делает никаких отличий между виртуальными и реальными линиями.

Рассмотренные нейрофизиологические представления оказывают огромное влияние на теоретические и прикладные исследования в области компьютерного зрения.

Другие области мозга, связанные с визуальными задачами. Зри-

тельная кора – наиболее исследованная часть мозга, так как она относительно легко доступна. Другие части мозга исследованы в меньшей степени. Предполагается, что они имеют отношение к более высоким уровням анализа зрительной информации.

Психофизические эксперименты и оптические обманы. Некото-

рые функции системы зрения могут быть исследованы с помощью психофизических экспериментов. Наряду с методами позитронной эмиссионной томографии или функциональным магнитным резонансом (ФМР), посредством которых образы, возникающие в мозгу, могут быть сделаны видимыми, психофизические эксперименты являются единственным средством для изучения сложных явлений, происходящих не в зрительной коре.

Один такой эксперимент был выполнен P. Шэпардом и Й.Мэтцлером [85]. В этом эксперименте испытуемых просили проанализировать два представления объекта, изображенных на рисунке 10.15 один над другим, и сообщить, можно ли преобразовать один объект в другой трехмерным вращением. Время между представлением изображений и выдачей ответов фиксировалось. Было обнаружено, что это время линейно зависит от трехмерного угла вращения, на который необходимо повернуть объект. Данный факт интерпретируется как доказательство того, что в зрительной системе человека углы вращения представляются аналоговыми величинами. Современные изучения этого эксперимента выполнялись с одновременной фиксацией ФМР изображения мозга, чтобы определить участок мозга, вовлеченный в процесс трансформации изображения. Результаты показывают, что первичная зрительная кора не вовлечена в этот процесс и, скорее, является областью мозга, чувствительной к движению.

Другое явление, которое нуждается в объяснении – постоянство представления внешнего мира, даже в том случае, когда мы меняем положение головы или вращаем её.

Исследование так называемых оптических обманов также сыграло определенную роль. Примерами являются:

-сетка Германа (концепция рецептивного поля, рисунок 10.12);

-треугольник Каница (виртуальные контуры, рисунок 10.16);

-куб Нэккера (рисунок 10.17).

На рисунке 10.16 в дополнение к контурам виртуального треугольника можно видеть несуществующие отличия в яркости. Виртуальный

Соседние файлы в папке Не books