Этапы преобразование документа в электронный вид OCR-системами

Выполненные задания отправлять на электронную почту chikisheva@i.ua,
или страницу ВКонтакте https://vk.com/chikisheva1989,

Индивидуальные консультации, оценивание устных ответов по тел. 0721297530, 0669911714. Чикишева Наталья Николаевна

Дата	19 февраля 2021 г.
№ занятия по расписанию
Группа	2 жз
Учебная дисциплина	Технология электронной верстки текста
№ занятия по плану
Тема	Практическое занятие №7. Применить программу оптического распознавания при выходе документов.
Домашнее задание. Форма выполнения. Источник информации	Прочитать теоретические сведения. Выполнить практическое занятие.
Срок предоставления выполненного задания	20 февраля 2021 г.

Теоретические сведения:

В зависимости от цели может быть два варианта действий:

1. Создание текстового документа на выходе.

2. Создание распознанного слоя в исходном документе.

Виды исходных документов для обоих вариантов одни и те же: JPEG, BMP, PNG, GIF, DjVu, TIFF, PDF

Виды документов на выходе:

1. DOC, TXT, RTF, ODT и даже HTML.

2. DjVu (OCR), PDF (OCR)

Этапы преобразование документа в электронный вид OCR-системами

Для графических файлов и PDF

1. Сканирование и предварительная обработка изображения (например, получение документа в формате PDF)

2. Анализ структуры документа.

3. Распознавание.

4. Проверка результатов.

5. Реконструкция документа

(воссоздание его исходного вида).

6. Экспорт.

Примечание:

Для DjVu

DjVu OCR служит для внедрения текстового слоя OCR в книги djvu. Текстовый слой позволяет пользоваться поиском по документу, копировать текст из djvu в doc или txt.

DjVu OCR работает только совместно с FineReader 7-ой,8-ой,9-ой версий, предназначающейся для распознавания текста. Процедура оцифровки текста происходит за три этапа:

1) Во-первых, программа (djvu OCR) конвертирует документ в формат tiff или djvu в doc

2) Во-вторых, FineReader распознает текст из полученных изображений

3) И наконец, djvu OCR обрабатывает рабочий проект FineReader и извлекает информацию, которую затем интегрирует текстовый слой в djvu.

Задание: Отсканировать произвольный документ и применить программу оптического распознавания при выходе документа любым из выше перечисленных способов.