Як розпізнати текст в djvu (djv) файлі, softmixer

Як розпізнати текст в djvu (djv) файлі, softmixer

Для цього спочатку його необхідно конвертувати в формат, який розуміють розпізнавачі тексту, наприклад, в картинки tiff. Необхідною умовою правильного розпізнавання повинно бути гарна якість вихідного файлу.


Чинимо так: відкриваємо вихідний файл в програмі, яка працює з djv файлами. Я для цього використовував DjV Editor. Для текстового файлу не забудьте переключитися в чорно-білий режим (на малюнку не включений). Що вийшло, ви бачите нижче.

Відкриваємо меню "друк" і вибираємо віртуальний принтер з MS Office. Він, звичайно, встановлений за замовчуванням.

У вікні "друк" (верхнє по малюнку) вибираємо номера сторінок, необхідні для перетворення, і натискаємо кнопку "властивості".

На вкладці "додатково" (нижнє вікно) встановлюємо формат tiff з дозволом 300 dpi. Натискаємо кнопку OK і ще раз ОК.

Віртуальний принтер зберігає вибрані сторінки в досить компактний багатосторінковий tiff - файл (одна сторінка займає 35 Кбайт), який тепер зрозуміють потрібні нам програми.

З конвертацією закінчено. Тепер можна відкрити цей файл для розпізнавання і потім зберегти його як текст. Такою програмою може бути вбудований в MS Ofice "Document Imaging" або "ABBYY Fine Reader". Як це зробити, видно з малюнка.

Натискаємо на отриманому нашому файлі правою кнопкою миші і з контекстного меню вибираємо "відкрити за допомогою". MS Ofice Document Imaging або ABBYY Fine Reader в залежності від поставленої нами мети. Я відкрив документ в MS Office. Вийшла наступна картина:

Зручність цієї програми полягає в тому, що можна виділити необхідний фрагмент тексту
і правою кнопкою вибрати "копіювати як текст".

Програма розпізнає виділену область і
копіює в буфер обміну. При розпізнаванні тексту вона виглядає так:

Якість розпізнавання тексту цілком прийнятно, хоча помилок багато. З картинками можуть бути проблеми. Тому для складних сторінок краще використовувати Fine Reader.