Лекція___ тема: ocr-системи. Призначення, види та використання Что такое ocr-системы

Системы оптического распознавания символов (Optical Character Recognition - OCR) предназначены для автоматического ввода печатных документов в компьютер.

FineReader — омнифонтовая система оптического распознавания текстов. Это означает, что она позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии "целостного целенаправленного адаптивного распознавания".

Процесс ввода документа в компьютер можно подразделить на два этапа:

Сканирование. На первом этапе сканер играет роль "глаза" Вашего компьютера: "просматривает" изображение и передает его компьютеру. При этом полученное изображение является не чем иным, как набором черных, белых или цветных точек, картинкой, которую невозможно отредактировать ни в одном текстовом редакторе.
Распознавание. Обработка изображения OCR-системой.

Остановимся на втором шаге более подробно.

Обработка изображения системой FineReader включает в себя анализ графического изображения, переданного сканером, и распознавание каждого символа. Процессы анализа макета страницы (определение областей распознавания, таблиц, картинок, выделение в тексте строк и отдельных символов) и распознавания изображения тесно связаны между собой: алгоритм поиска блоков использует информацию о распознанном тексте для более точного анализа страницы.

Как уже упоминалось, распознавание изображения осуществляется на основе технологии "целостного целенаправленного адаптивного распознавания".

Целостность- объект описывается как целое с помощью значимых элементов и отношений между ними.
Целенаправленность- распознавание строится как процесс выдвижения и целенаправленной проверки гипотез.
Адаптивность- способность OCR-системы к самообучению.

В соответствии с этими тремя принципами система сначала выдвигает гипотезу об объекте распознавания (символе, части символа или нескольких склеенных символах), а затем подтверждает или опровергает ее, пытаясь последовательно обнаружить все структурные элементы и связывающие их отношения. В каждом структурном элементе выделяются части, значимые для человеческого восприятия: отрезки, дуги, кольца и точки. Следуя принципу адаптивности, программа самостоятельно "настраивается", используя положительный опыт, полученный на первых уверенно распознанных символах. Целенаправленный поиск и учет контекста позволяют распознавать разорванные и искаженные изображения, делая систему устойчивой к возможным дефектам письма.

В результате работы в окне FineReader появится распознанный текст, который Вы можете отредактировать и сохранить в наиболее удобном для Вас формате.

Форматы, в которых FineReader сохраняет распознанный текст FineReader сохраняет результаты распознавания в следующих форматах:

Microsoft Word Document (*.DOC)
Rich Text Format (*.RTF)
Microsoft Word XML Document (*.XML) (только для Microsoft Word 2003)
Adobe Acrobat Format (*.PDF)
HTML
Microsoft PowerPoint Format (*. PPT)
Comma Separated Values File (*.CSV)
Простой текст (*.TXT). FineReader поддерживает различные кодовые страницы (Windows, DOS, Mac, ISO) и кодировку Unicode.
Microsoft Excel Speadsheet (*.XLS)
DBF

1 / 81 2 3 4 5 6 7 8 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
20.03.201524.83 Кб14Ціноутворення.docx
#
13.08.201955.81 Кб10целостный анализ лит. произведения.doc
#
07.03.201636.41 Mб297Центральная Азия. Проблемы и перспективы.pdf
#
23.11.201936.08 Кб5Черненко, 2-Д.docx
#
16.08.2019367.15 Кб6чистовик.rtf
#
20.03.2015101.38 Кб10Что такое OCR.docx
#
07.03.20161.03 Mб41шевцова магистерская.docx
#
20.03.2015901.12 Кб5Шекспир - Ромео и Джульетта.doc
#
25.04.20191.19 Mб3шкільна програма 5-12 класи.doc
#
20.03.2015321.02 Кб5Шлеймович2.doc
#
24.08.2019158.72 Кб2Шостий тиждень.doc