|
||||||||||||||||||
Этапы преобразование документа в электронный вид OCR-системами
Выполненные задания отправлять на электронную почту chikisheva@i.ua, Индивидуальные консультации, оценивание устных ответов по тел. 0721297530, 0669911714. Чикишева Наталья Николаевна
Теоретические сведения: В зависимости от цели может быть два варианта действий: 1. Создание текстового документа на выходе. 2. Создание распознанного слоя в исходном документе. Виды исходных документов для обоих вариантов одни и те же: JPEG, BMP, PNG, GIF, DjVu, TIFF, PDF Виды документов на выходе: 1. DOC, TXT, RTF, ODT и даже HTML. 2. DjVu (OCR), PDF (OCR) Этапы преобразование документа в электронный вид OCR-системами Для графических файлов и PDF 1. Сканирование и предварительная обработка изображения (например, получение документа в формате PDF) 2. Анализ структуры документа. 3. Распознавание. 4. Проверка результатов. 5. Реконструкция документа (воссоздание его исходного вида). 6. Экспорт. Примечание: Для DjVu DjVu OCR служит для внедрения текстового слоя OCR в книги djvu. Текстовый слой позволяет пользоваться поиском по документу, копировать текст из djvu в doc или txt. DjVu OCR работает только совместно с FineReader 7-ой,8-ой,9-ой версий, предназначающейся для распознавания текста. Процедура оцифровки текста происходит за три этапа: 1) Во-первых, программа (djvu OCR) конвертирует документ в формат tiff или djvu в doc 2) Во-вторых, FineReader распознает текст из полученных изображений 3) И наконец, djvu OCR обрабатывает рабочий проект FineReader и извлекает информацию, которую затем интегрирует текстовый слой в djvu.
Задание: Отсканировать произвольный документ и применить программу оптического распознавания при выходе документа любым из выше перечисленных способов.
|
||||||||||||||||||
|