Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Каледина лк Полиграфика.pdf
Скачиваний:
389
Добавлен:
28.10.2018
Размер:
19.42 Mб
Скачать

какие шрифты использовать при сохранении распознанного

текста;

следует ли распознавать штрих-коды.

Вкладка ВИД содержит:

настройки для вида страниц в окне СТРАНИЦЫ (ПИКТОГРАММЫ или ТАБЛИЦА);

опции для окна ТЕКСТ — выделять ли цветом (и каким) неуверенно распознанные символы и слова, отображать ли непечатаемые символы (например, перевод строки), какой шрифт использовать для отображения простого текста (plain text);

параметры задания цвета и толщины рамок, используемых для выделения различных типов областей в окне ИЗОБРАЖЕНИЕ.

На вкладке ДОПОЛНИТЕЛЬНЫЕ можно выбрать:

настройки верификации неуверенно распознанных символов;

корректировать ли пробелы до и после знаков пунктуации;

просмотр и редактирование пользовательских словарей;

язык интерфейса программы;

открывать ли при запуске приложения последний использованный документ FineReader;

показывать ли панель предупреждений;

участвовать ли в программе по улучшению качества Abbyy FineReader;

следует ли восстановить настройки по умолчанию.

4.Основные этапы процесса ввода документа в компьютер

Процесс ввода документа в компьютер можно подразделить на следующие этапы:

1)сканирование или открытие цифрового файла;

2)анализ макета;

3)распознавание;

4)проверка результатов;

5)сохранение распознанного текста.

4.1. Сканирование

Сканирование — процесс ввода в компьютер изображений текстов и различной графической информации с помощью специального

12

устройства — сканера. При этом происходит перевод визуальной информации в цифровую. Сканирование позволяет значительно сократить время на работы в издательстве по набору печатных изданий.

В издательском деле сканер является необходимым устройством. Существуют различные типы сканеров. Наиболее широко распространены планшетные сканеры. В планшетных сканерах сканируемое изображение освещается белым светом. Отраженный свет через уменьшающую линзу попадает на электронный элемент, называемый прибором с зарядовой связью (ПЗС), который «реагирует» на уровень освещенности уровнем напряжения. Значения напряжения легко преобразуются

вцифровую форму и представляются в виде пиксельного изображения.

Кпрофессиональным сканерам относятся слайд-сканеры, ориентированные на сканирование слайдов, фотографических негативов, и барабанные сканеры, в которых сразу несколько оригиналов (непрозрачных) закрепляются на барабане, вращающемся с большой скоростью. Считывающий элемент располагается очень близко к оригиналу. Такая конструкция обеспечивает наивысшее качество сканирования. Также используются проекционные сканеры, позволяющие кроме документов сканировать проекции трехмерных предметов.

Косновным характеристикам сканеров относятся:

1)разрешение — параметр сканирования, показывающий, какое количество точек приходится на единицу длины. Обозначается обычно

вточках на дюйм dpi, например, 600 dpi, или в пикселах на дюйм — ppi (от англ. pixel per inch), например, 600 ppi. Для профессионального применения характерны следующие показатели: для планшетных сканеров — 1200–3000 dpi; для барабанных: 2400–5000 dpi. Для распознавания текста следует использовать разрешение 300 dpi для кегля 10 и более пунктов, 400–600 dpi для текстов, набранных мелким шрифтом (9 и менее пунктов);

2)глубина распознавания цвета, которая показывает, сколько различных оттенков цветов способно распознать устройство. При сканировании изображения разбиваются на следующие типы:

монохромные черно-белые (Black and White) — для запоминания 1 пиксела требуется всего 1 бит памяти компьютера;

оттенки серого (Grayscale) — для каждого пиксела выделяется 8 битов, поэтому получается 256 = 28 градаций яркости, перекрывающих все оттенки от черного до белого цвета;

полноцветные изображения — для формирования изображения используется 24 бита и более, т. е. более 16 млн. цветов. В полиграфии используются 24–48-битовые сканеры;

13

ИНДЕКСИРОВАННЫЙ ЦВЕТ (Paletted) — режим с ограниченным количеством цветов (256), используется для изображений предназначенных к размещению в сети Интернет, при этом сканировать достаточно с разрешением 72 dpi.

3)время сканирования, которое зависит от совершенства механической части устройства и от типа интерфейса для сопряжения с компьютером;

4)максимальный размер сканируемого документа.

Уровень качества изображения закладывается в процессе сканирования в зависимости от устанавливаемого разрешения. А правильный выбор величины разрешения зависит от назначения изображения и способа его использования. Необходимо находить разумный баланс между качеством, размером файла и временем его обработки, а также учитывать возможности системы обработки.

На этапе сканирования сканер «просматривает» изображение и передает его компьютеру. При этом полученное изображение является не чем иным, как набором черных, белых или цветных точек, картинкой, которую невозможно отредактировать ни в одном текстовом редакторе. Качество изображения регулируется установкой основных параметров сканирования: типа изображения, разрешения и яркости.

FineReader работает со сканерами через TWAIN-интерфейс. Это единый международный стандарт, введенный в 1992 году для унификации взаимодействия устройств для ввода изображений в компьютер (например, сканера) с внешними приложениями. При этом возможно два варианта взаимодействия программы со сканерами через TWAINдрайвер:

1)через интерфейс FineReader: в этом случае для настройки опций сканирования используется диалог программы FineReader НАСТРОЙКИ СКАНЕРА;

2)через интерфейс TWAIN-драйвера сканера: для настройки опций сканирования используется диалог TWAIN-драйвера сканера.

Обработка изображения системой FineReader включает в себя анализ графического изображения, переданного сканером, и распознавание каждого символа. Процессы анализа макета страницы (определение областей распознавания, таблиц, картинок, выделение в тексте строк

иотдельных символов) и распознавания изображения тесно связаны между собой: алгоритм поиска блоков использует информацию о распознанном тексте для более точного анализа страницы.

14

4.2. Анализ макета страницы

Переданное в программу ABBYY FineReader изображение необходимо распознать и преобразовать в текст. Прежде, чем приступить к распознаванию, программа выделяет на изображении области с текстом, картинки, таблицы и штрих-кодами, чтобы указать системе, какие участки изображения надо распознавать и в каком порядке. Области разных типов имеют различные цвета рамок. Анализ страницы может проводиться автоматически одновременно с распознаванием при нажатии кнопки РАСПОЗНАТЬ или вручную до распознавания. При использовании кнопки АНАЛИЗ окна ИЗОБРАЖЕНИЕ производится выбор и определение типа области. Ручное выделение блоков применяется:

1)для распознавания части страницы;

2)если автоматическое выделение блоков не устраивает;

3)для разделения операций сканирования и распознавания. При обработке изображений выделяют блоки следующих типов:

1)ЗОНА РАСПОЗНАВАНИЯ — блок используется для распо-

знавания и автоматического анализа части изображения. После нажатия на кнопку РАСПОЗНАТЬ выделенный блок автоматически анализируется и распознается;

2)ТЕКСТ — блок используется для обозначения текста. Он должен содержать только одноколонный текст. Если внутри текста содержатся картинки, необходимо выделить их в отдельные блоки;

3)ТАБЛИЦА — этот блок используется для обозначения таблиц или текста, имеющего табличную структуру. При распознавании программа разбивает данный блок на строки и столбцы и формирует табличную структуру. В выходном тексте данный блок передается таблицей. Можно выделить и отредактировать таблицу вручную;

4)КАРТИНКА — этот блок используется для обозначения картинок. Он может содержать картинку или любую другую часть текста, которую Вы хотите передать в распознанный текст в качестве картинки;

5)ШТРИХ-КОД (только в версии Corporate Edition) — этот блок используется для распознавания штрих-кодов. Т. е., если Ваш документ содержит штрих-код и Вы хотите передать его не картинкой, а перевести его в последовательность букв и цифр, то выделите штрих-код в отдельный блок и присвойте ему тип ШТРИХ-КОД.

4.3. Распознавание

Задача распознавания состоит в том, чтобы преобразовать отсканированное изображение в текст, сохранив при этом оформление

15

Соседние файлы в предмете Полиграфика