Як розпізнати текст в djvu (djv) файлі, softmixer
Для цього спочатку його необхідно конвертувати в формат, який розуміють розпізнавачі тексту, наприклад, в картинки tiff. Необхідною умовою правильного розпізнавання повинно бути гарна якість вихідного файлу.
Чинимо так: відкриваємо вихідний файл в програмі, яка працює з djv файлами. Я для цього використовував DjV Editor. Для текстового файлу не забудьте переключитися в чорно-білий режим (на малюнку не включений). Що вийшло, ви бачите нижче.
Відкриваємо меню "друк" і вибираємо віртуальний принтер з MS Office. Він, звичайно, встановлений за замовчуванням.
У вікні "друк" (верхнє по малюнку) вибираємо номера сторінок, необхідні для перетворення, і натискаємо кнопку "властивості".
На вкладці "додатково" (нижнє вікно) встановлюємо формат tiff з дозволом 300 dpi. Натискаємо кнопку OK і ще раз ОК.
Віртуальний принтер зберігає вибрані сторінки в досить компактний багатосторінковий tiff - файл (одна сторінка займає 35 Кбайт), який тепер зрозуміють потрібні нам програми.
З конвертацією закінчено. Тепер можна відкрити цей файл для розпізнавання і потім зберегти його як текст. Такою програмою може бути вбудований в MS Ofice "Document Imaging" або "ABBYY Fine Reader". Як це зробити, видно з малюнка.
Натискаємо на отриманому нашому файлі правою кнопкою миші і з контекстного меню вибираємо "відкрити за допомогою". MS Ofice Document Imaging або ABBYY Fine Reader в залежності від поставленої нами мети. Я відкрив документ в MS Office. Вийшла наступна картина:
Зручність цієї програми полягає в тому, що можна виділити необхідний фрагмент тексту
і правою кнопкою вибрати "копіювати як текст".
Програма розпізнає виділену область і
копіює в буфер обміну. При розпізнаванні тексту вона виглядає так:
Якість розпізнавання тексту цілком прийнятно, хоча помилок багато. З картинками можуть бути проблеми. Тому для складних сторінок краще використовувати Fine Reader.