міра відстані

міра відстані

Подібність або відмінність між об'єктами класифікації встановлюється в залежності від обраного метричного відстані між ними. Якщо кожен об'єкт описується властивостями (ознаками), то він може бути представлений як точка в вимірному просторі, і схожість з іншими об'єктами буде визначатися як відповідне відстань. При класифікації використовуються різні заходи відстані між об'єктами.

1. Евклідова відстань

Це, мабуть, найбільш часто використовувана міра відстані. Вона є геометричним відстанню в багатовимірному просторі і обчислюється таким чином:

  • - відстань між об'єктами і;
  • - значення -Властивості об'єкта;
  • - значення -Властивості об'єкта.

Природне, з геометричної точки зору, евклидова міра відстані може виявитися безглуздою, якщо ознаки виміряні в різних одиницях. Щоб виправити становище, вдаються до нормування кожної ознаки. Застосування евклидова відстані виправдано в наступних випадках:

  • властивості (ознаки) об'єкта однорідні за фізичним змістом і однаково важливі для класифікації;
  • просторі ознак збігається з геометричним простором.

2. Квадрат евклидова відстані

Дана міра відстані використовується в тих випадках, коли потрібно надати більше значення більш віддаленим один від одного об'єктів. Це відстань обчислюється таким чином:

3. Виважена евклідова відстань

Застосовується в тих випадках, коли кожному -Властивості вдається приписати певний «вагу», пропорційно ступеня важливості ознаки в завданні класифікації:

Визначення ваг, як правило, пов'язано з додатковими дослідженнями, наприклад, організацією опитування експертів і обробкою їх думок.

4. Хеммінгово відстань

Також називається манхеттенським, сіті-блок відстанню або відстанню міських кварталів. Це відстань є різницею за координатами. У більшості випадків ця міра відстані приводить до таких же результатів, як і для звичайного відстані Евкліда. Однак зазначимо, що для цього заходу вплив окремих великих різниць (викидів) зменшується (так як вони не зводяться в квадрат). Хеммінгово відстань обчислюється за формулою:

5. Відстань Чебишева

Приймає значення найбільшого модуля різниці між значеннями відповідних властивостей (ознак) об'єктів:

6. Відсоток незгоди

Наприклад, перша ознака об'єкта - підлогу, другий - вік, третій - місце роботи. Уявімо значення властивостей (ознак) об'єкта у вигляді вектора значень. Перший вектор - (чоловік, 20 років, учитель), другий вектор - (чоловік, 28 років, менеджер). Відсоток незгоди дорівнює 2/3. Ці вектора розрізняються на 66.6%.

Вибір міри відстані і ваг для классифицирующих властивостей - дуже важливий етап, так як від цих процедур залежать склад і кількість формованих класів, а також ступінь подібності об'єктів усередині класів.

Схожі статті