Ocr в djvu файлах - новий підхід до старих можливостям

OCR в djvu файлах - новий підхід до старих можливостям.

На СКР лежить досить багато матеріалів про застосування djvu, оскільки формат набуває все більшої і більшої популярності, то з'являється необхідність доповнити вже наявну інформацію.

Про можливість OCR (Optical Character Recognition - оптичне розпізнавання знаків, зазвичай тексту) в djvu відомо давно, але єдиним інструментом для цього був платний і недешевий софт від самого Лізард, але навіть у нього немає і не передбачається кирилиці. ВУкаіни були спроби розробити софт, що дозволяє подолати цей недолік, але це стосувалося технічних бібліотек, принаймні, таку інформацію можна почерпнути в російськомовному Інтернеті.

Сьогодні можна з упевненістю сказати, що розпізнавання тексту в файлах djvu отримало нове життя! Завдяки зусиллям болгарського програміста Генчо створений комплект утиліт, що дозволяють отримати файли djvu з текстом, що дозволяє в плагіні до Internet Explorer копіювати текст в буфер, а найголовніше - мати можливість пошуку в документі. Ось саме ця можливість і є ключовою. Чому? Припустимо, ви відсканували і отконвертілі в djvu технічний довідник, де маса схем, формул і всього іншого, що практично не піддається OCR. Немає шансів на те, що хто-небудь коли-небудь зробить фактично повний перенабор всієї книги, це не художня література, що складається в більшості своїй тільки з тексту. Виходить, що книга є, але знайти в ній потрібну інформацію по тексту неможливо, адже djvu не «чистий" pdf, де знайти певний текст закладений за замовчуванням. До того ж OCR не дає і не може дати гарантію безпомилковості передачі вихідної інформації. Жодна програма не здатна виявити всі помилки після OCR, з цим може впорається тільки людина, але це тяжка праця коректора. Якщо в звичайному тексті ще можна знайти і виправити ті чи інші помилки, то в технічній літературі це зажадає таких зусиль, що навряд чи знайдеться ентузіаст, здатний повністю перевірити кожен знак у кожній формулі, та ще й заново набрати все формули в спеціальному софт.

Вся необхідна інформація щодо застосування OCR djvu міститься в файлах пакета. Перший пакет для розпізнавання, як такого, а другий для індексації вже розпізнаного тексту.
Зрозуміло, що для цих операцій, крім кодера djvu, потрібно мати ФайнРідер 5-й або 7-й версії, можливо в цей список додасться і 6-я версія.

На закінчення хотілося б від імені радіоаматорів подякувати Генчо за його працю по створенню безкоштовної програми для всіх, хто користується форматом djvu.

Помилка в переданих параметрах