Імовірнісний підхід до оцінки кількості інформації
В основі нашого світу лежать три складові: речовина, енергія та інформація. Як багато в світі речовини, енергії та інформації? Чи можна їх виміряти і як саме? Нам відомі способи вимірювання кількості речовини і енергії. Але як бути з інформацією? Чи можна її виміряти?
Раніше вже зазначалося, що існує кілька підходів до оцінки кількості інформації. Зараз ми більш детально зупинимося на одному з них.
Будь-яке повідомлення буде інформативним, якщо воно поповнює знання людини, тобто зменшує невизначеність його знань.
рівноімовірні події
Наприклад, при підкиданні монети ми намагаємося вгадати, яким боком вона впаде. Можливий один з варіантів результату: монета виявиться в положенні «орел» або «решка». Кожне з цих двох подій виявиться рівно можливих, т. Е. Жодне з них не має переваги перед іншим. Перед підкиданням монети ніхто не може знати, як вона впаде, тобто існує невизначеність знання. Після ж настання події, навпаки, присутня повна визначеність, так як той, що кидає отримує зорове повідомлення про становище монети, яке, в свою чергу, зменшує невизначеність його знання в два рази, оскільки з двох рівноймовірно подій відбулася одна.
Іншим прикладом є ситуація з шестигранним кубиком, тобто перед кидком ніхто не може знати, яким боком він впаде. В даному випадку є можливість отримати один результат з шести рівноймовірно. Таким чином, до кидка невизначеність знань кидає буде дорівнює 6, після ж кидка, вона зменшиться рівно в 6 разів, оскільки саме 6 рівноймовірно подій може статися.
Розглянемо приклад, де для іспиту приготували 40 квитків. Імовірність подій, які відбудуться при витягуванні квитка, буде дорівнює 40. Причому ці події будуть рівноймовірно. При цьому невизначеність знань студента перед вибором квитка, буде дорівнює 40. Відповідно невизначеність знання після того як студент взяв квиток зменшиться в 40 разів. Задамося питанням, чи залежить цей показник від номера витягнутого квитка. Ні, оскільки події рівноймовірно.
Проаналізувавши всі розглянуті вище приклади, можна прийти до висновку, що чим більше вихідне число можливих рівноймовірно подій, тим в більшу кількість разів зменшується невизначеність знань, і тим більшу кількість інформації буде міститися в повідомленні про результати досвіду.
Вирішуємо контрольні з усіх предметів. 10 років досвід! Ціна від 100 руб. термін від 1 дня!
Неравновероятние події
Розглянемо як приклад розмовні мови. Звернімося до фактів доведених досліджень, які показують, що у всіх розмовних мовах одні букви зустрічаються набагато частіше, ніж інші. Результати досліджень підтверджують, що на $ 1000. $ букв в різних розмовних мовах доводиться різне число повторень. Як приклади в таблиці наведені деякі букви в українській та англійській мовах:
Крім цього, ймовірність появи окремих букв буде залежати від того, які букви використовуються перед ними. Так, в українській мові після голосної ніколи не може стояти м'який знак, а також в словах не використовуються чотири голосні поспіль і т.д. Розмовні мови мають, як правило, свої особливості та закономірності. Саме тому кількість інформації, що міститься в повідомленнях будь-якого розмовної мови, неприйнятно оцінювати за допомогою формули Хартлі, яка використовується в алфавітному підході до оцінки інформації і характерна для прикладів з рівноімовірними подіями (приклади з монетою і кубиком).
Вирішуємо контрольні з усіх предметів. 10 років досвід! Ціна від 100 руб. термін від 1 дня!
Як визначити, яка кількість інформації містить, наприклад, текст роману "Війна і мир", або фрески і полотна великих італійських художників, або генетичний код людини? Відповіді на ці питання і подібні до них науці поки не відомі і, цілком ймовірно, ще не скоро будуть відомі. Однак усіх цікавить, чи можливо об'єктивно оцінити кількість інформації? До задачі подібного роду можна віднести наступний приклад.
Як з'ясувати, чи є рівноімовірними повідомлення "першою вийде з будівлі жінка" і "першим вийде з будівлі чоловік"? Однозначної відповіді на це питання немає. Все буде залежати від того, про який саме будівлі йде мова. Якщо це, наприклад, будівля гінекологічної клініки, то ймовірність вийти першої у жінки дуже висока, якщо це військова казарма, то ймовірність вийти першим для чоловіка буде вище, ніж для жінки, а ось якщо ця будівля кінотеатру, то ймовірності вийти першими для чоловіка і жінки будуть однаковими.
Оцінка кількості інформації. Формула Шеннона
Для вирішення завдань подібного роду використовується загальна оцінка кількості інформації, запропонована американським ученим Клодом Шенноном в 1948р. Створена ним формула визначення кількості інформації здатна враховувати можливу неоднакову вірогідність повідомлень, що містяться в наборі. Шеннон при створенні формули використовував застосовується в математиці і гідродинаміки вірогідну міру невизначеності (звану ентропією) для того, щоб повною мірою оцінити стан досліджуваної системи і отримати максимально можливу інформацію про протікають в цій системі процесах. Ця оцінка кількості інформації, по суті, є ймовірнісної мірою. і, як оцінка невизначеності, вона відображає здатність будь-якого джерела проявляти все нові і нові стану і таким чином віддавати інформацію.
Вирішуємо контрольні з усіх предметів. 10 років досвід! Ціна від 100 руб. термін від 1 дня!
Шеннон визначив ентропію як середню логарифмічну функцію безлічі ймовірностей можливих станів системи (можливих результатів досвіду). Для розрахунку ентропії Шеннон запропонував наступне рівняння:
$ H = - (p_1log_2p_1 + p_2log_2p_2 +. + P_Nlog_2p_N) $,
де $ p_i $ - ймовірність появи $ i $-того події в наборі з $ N $ подій.
Тоді кількість інформації, отримане в результаті досвіду, буде не що інше, як різниця між ентропією системи до ($ H_0 $) і після ($ H_1 $) досвіду:
причому якщо невизначеність в результаті досвіду повністю виключається, то маємо:
$ I = \ Sigma (p_ilog_2p_i), i = 1, \ dots, N $.
Розглянемо приклад, що підтверджує використання даної теорії Шеннона на практиці.
В озері мешкають піскарі і окуні. Підраховано кількість особин в кожній популяції (пічкурів - $ 1500 $, а окунів - $ 500 $). Необхідно визначити, скільки інформації міститься в повідомленнях про те, що рибалка виловив пічкура, окуня, взагалі рибу?
Рішення. Події улову пічкура або окуня не є рівноімовірними, оскільки окунів в озері живе набагато менше, ніж пічкурів.
Загальна кількість пічкурів і окунів, що мешкають в озері:
Визначимо ймовірність улову пічкура:
Визначимо ймовірність улову окуня:
де $ I_1 $ і $ I_2 $ - ймовірності улову пічкура і окуня відповідно.
Кількість інформації, що міститься в повідомленні про улов пічкура:
$ I_1 = log_2 (\ frac) »0,43 $ біт,
Кількість інформації, що міститься в повідомленні про улов окуня:
$ I_2 = log_2 (\ frac) »2 $ біт.
Кількість інформації, що міститься в повідомленні про улов риби (карася чи окуня) розраховується за формулою Шеннона:
$ I = - p_1log_2p_1 - p_2log_2p_2 $
$ I = -0,75 \ cdot log_20,75- 0,25 \ cdot log_20,25 = -0,75 \ cdot (\ frac) -0,25 \ cdot (\ frac) = 0,604 біт »0.6 $ біт.
Відповідь: в електронному листі є $ 0,6 $ біт інформації