Ноу Інти, лекція, документообіг на сучасному підприємстві
Технології перекладу паперових документів в електронні
На відміну від паперових документів, електронні можуть оброблятися більш ефективно (тиражуватися, розсилатися, зберігатися і т.п.). В даний час активно розвиваються технології перекладу паперових документів в електронну форму з метою реалізації електронного документообігу. Зупинимося докладніше на застосовуваних технологіях і використовуваної термінології.
На першому етапі перекладу документа в електронну форму проводиться його сканування і створюється електронна копія документа у вигляді зображення. Зображення, отримане в результаті сканування, також називають чином документа. Сканування є початковим етапом будь-якої системи автоматизованого введення документів.
У процесі сканування може виконуватися програмна обробка зображення, а також проводиться візуальний контроль якості (рис. 3.6).
Мал. 3.6. Схема переведення паперового документа в електронний вигляд
Якщо мова йде про промислове введенні документів, то сканери зазвичай надають ряд додаткових функцій, наприклад можливість подачі різноформатних документів.
Зазвичай процес сканування - це проміжна стадія отримання електронного документа. Очевидно, що з електронним зображенням документа набагато зручніше працювати, ніж з паперовим (його можна копіювати, відправляти по мережі і т.д.).
Однак в більшості випадків саме по собі зображення (образ документа) дає мало переваг. Для того щоб можна було редагувати документ, здійснювати пошук по нього або використовувати його фрагменти при підготовці нових документів і т.д. необхідно перевести отриманий образ в текстовий документ, зрозумілий офісних програм. Тому наступне завдання полягає в розпізнаванні відсканованих документів.
Для цього необхідний спеціальний інструмент, здатний перевести зображення в текстовий редагований електронний документ. Такі інструменти існують, їх загальна назва - програми оптичного розпізнавання символів (optical character recognition, OCR). C допомогою OCR-програми комп'ютер зможе "прочитати" на відсканованої сторінці текст, відокремивши його від ілюстрацій і інших елементів оформлення, знайти таблиці та "розібратися" в їх вмісті. А потім скомпонувати все це заново, відтворивши зовнішній вигляд сторінки.
З точки зору перекладу документів в електронний вигляд (введення документів в комп'ютер) їх умовно ділять на формалізовані, неформалізовані і спеціальні (рис. 3.7).
Мал. 3.7. Класифікація документів з точки зору специфіки перекладу в електронний вигляд
Формалізовані документи - це документи, в яких заздалегідь визначена форма: розташування обов'язкових полів, в які заносяться дані. Наприклад, бланки, накладні, анкети, картотеки і т.д. Неформалізовані документи - це документи довільної форми: договори, листи і т.д. До спеціалізованих відносяться такі документи як, наприклад, карти і відбитки пальців.
Переклад кожного з перерахованих видів документів має свою специфіку. Якщо вводяться фотографії, то досить електронного зображення, якщо документ містить текст, його необхідно розпізнати, якщо це форматований текст з малюнками, то потрібно не тільки розпізнати текст, а й відновити формат документа, а якщо це анкета, то, швидше за все, сам документ взагалі не потрібен, важлива тільки що міститься в ньому інформація. Наприклад, при обробці листів для голосування звичайно не потрібно зображення самого документа, достатньо інформації про те, за кого віддано голос.
Введення формалізованих документів
Щоб пояснити, які завдання виникають при введенні формалізованих документів, розглянемо конкретний приклад.
Припустимо, в офісі готелю проводиться анкетування проживають для оцінки рівня обслуговування на різних поверхах. Кожному жителю готелю в його номері залишається анкета, яку він повинен заповнити (рис. 3.8).
Мал. 3.8. Приклад заповненої анкети
Якщо за місяць накопичується кілька тисяч таких анкет, то їх обробка являє собою непросту задачу. Очевидно, що отримання образів (електронних зображень) цих анкет хоч і полегшує завдання їх зберігання, проте не дозволяє використовувати комп'ютер для обробки інформації.
Найчастіше завдання введення форм (в даному випадку анкети) складається в перетворенні образу документа в рядок бази даних, що містить відповідну інформацію. Коли всі анкети будуть введені в базу даних, можна буде їх обробити і, наприклад, з'ясувати, на якому поверсі обслуговування ведеться краще.
При заповненні анкети потрібно відповісти на питання і внести інформацію в певні службові поля, а завдання програми при введенні форм - визначати ці спеціальні поля, розпізнавати інформацію в них і ввести її в базу даних. При цьому особливістю введення форм в комп'ютер є необхідність розпізнавання текстів, заповнених від руки.
Зазвичай в тому випадку, якщо форма повинна розпізнаватися комп'ютером, що заповнює просять ввести текст роздільними буквами, і такий текст називають рукопечатним. Технології розпізнавання рукопечатних символів позначаються терміном ICR (Intelligent Character Recognition). Розпізнавання рукопечатних символів являє собою більш складне завдання в порівнянні з розпізнаванням друкованих, оскільки потрібно розпізнати символ, вписаний в форму від руки з урахуванням можливих його відхилень, обумовлених індивідуальними особливостями почерку.
Мал. 3.9. Схема переведення паперової форми в запис бази даних
Завдання розпізнавання при введенні форм не обов'язково пов'язані з розпізнаванням тексту. При введенні форм може знадобитися розпізнавання різних міток і знаків, для якого теж існує свій термін: OMR (Optical Mark Recognition). Наприклад, в бюлетенях для голосування голосуючого просять поставити хрестик (або інший знак) навпроти прізвища кандидата, і завдання комп'ютера - розпізнати, є в певному полі якийсь знак чи ні.