Кодування айті бубон

У загальному випадку кодування або кодова таблиця. - це однозначне відповідність між підмножиною цілих чисел (як правило, йдуть підряд) і деяким набором символів. Ключовим тут є поняття символу. Символ може бути буквою (а може і не бути), може відповідати звуку мови (а може і не відповідати) і може бути представлений графічним знаком (але може обходитися і без якого б то не було видимого образу). Символ - це атом сенсу, найдрібніша неподільна частка інформації.

Так, латинське «А» і кириличне «А» - це різні символи, тому що вони вживаються в різних контекстах і несуть в собі різну інформацію.

Визначальним для будь-якої кодування є кількість охоплених нею кодів і, відповідно, символів. Оскільки тексти в комп'ютері зберігаються в вигляді послідовності байтів, більшість кодувань природним чином розпадаються на однобайтові, або восьмібітних, здатні закодувати не більш 256 символів, і двобайтові, або шістнадцятибітну, чия ємність може досягати 65636 знакомест.

ASCII - перш ніж переходити до восьмібітних кодувань, потрібно сказати кілька слів про кодування під назвою ASCII (American Standard Code for Information Interchange) - кодуванні також восьмібітной, але охоплює тільки 128 символів і тому задовольняється сім'ю значущими бітами (старший, восьмий біт при цьому завжди дорівнює нулю). Важливість цієї кодування, що включає латинський алфавіт, цифри і основні знаки пунктуації, надзвичайно велика: майже всі інші (великі за розміром) кодування сумісні з нею, т. Е. Розміщують на своїх перших 128 знакоместу ті ж самі символи в тому ж порядку.

КОІ8. Хронологічно одним з перших стандартів кодування українських літер на комп'ютерах був КОІ8 ( «Код обміну інформацією, 8-бітний»). Це кодування застосовувалася ще в доісторичні радянські часи на комп'ютерах ЄС ЕОМ, і коли в середині 80-х з'явилися перші русифіковані версії операційної системи UNIX, вони успадкували це кодування у своїх «предків». В результаті КОІ8 є зараз однією з кодувань, які обов'язково повинна підтримувати будь-яка російська web-сторінка.

Windows-1251. Друга за значенням в українському Інтернеті (і, безумовно, перша з употребимости на персональних комп'ютерах) кодування - це стандартна кирилична кодування Microsoft Windows, що позначається абревіатурою СР1251 ( «СР» розшифровується як «Code Page», «кодова сторінка»). Все Windows- програми, що працюють з українською мовою, зобов'язані розуміти це кодування без перекладу. Завдяки поширеності Windows кодування СР1251, разом з КОІ8, входить в абсолютний мінімум кодувань, які доводиться підтримувати російськомовних сайтів.

Сімейство 8859. Latin-1. Схожа ситуація з конкуруючими платформами і операційними системами і, як наслідок, з конкуруючими несумісними кодуваннями спостерігається і в інших мовах, які користуються своїм власним алфавітом або навіть латинським алфавітом з розширеннями. Міжнародна організація по стандартизації (International Standards Organization, ISO) спробувала навести порядок в восьмибітних кодуваннях, створивши серію кодувань ISO 8859, що розширюють таблицю ASCII для латинських букв з діакрітікой і лігатур (кодування ISO 8859-1), кирилиці (ISO 8859-5), арабського (ISO 8859-6), грецького (ISO 8859-7), та інших алфавітів.

Якщо кодування ISO 8859-5 для кирилиці так і не прижилася, перша з цієї серії - кодування ISO 8859-1, відома також під ім'ям Latin-1, - зуміла стати загальноприйнятим стандартом для кодування «розширеної» латиниці. У цю систему кодування включені майже всі символи, що їх вживають в писемностях західноєвропейських мов - французької, німецької, іспанської та т.д.

Впровадження Юникода призвело до зміни підходу до традиційних 8-бітовим кодувань. Якщо раніше кодування задавалася шрифтом, то тепер вона задається таблицею відповідності між даним кодуванням і Unicode. Фактично 8-бітові кодування перетворилися в форму подання деякого підмножини Юникода. Це набагато спростило створення програм, які повинні працювати з безліччю різних кодувань: тепер, щоб додати підтримку ще одного кодування, треба всього лише додати ще одну таблицю перекодування в Юнікод.

Найближчим часом все більш важливу роль буде грати особливий формат Unicode (і ISO 10646) під назвою UTF-8. Ця «похідна» кодування користується для запису символів ланцюжками байтів різної довжини (від одного до шести), які за допомогою нескладного алгоритму перетворюються в Unicode- коди, причому більш вживаним символам відповідають більш короткі ланцюжки. Головне достоїнство цього формату - сумісність з ASCII не тільки за значеннями кодів, а й за кількістю біт на символ, так як для кодування будь-якого з перших 128 символів в UTF-8 досить одного байта (хоча, наприклад, для букв кирилиці потрібно вже по два байта).

Для вказівки кодування символів web-сторінки можуть використовуватися такі символи кодових таблиць:

windows-1251 - кирилиця Windows

KOI8-R - Кодування КОІ8 для української мови

Схожі статті