міра відстані
Подібність або відмінність між об'єктами класифікації встановлюється в залежності від обраного метричного відстані між ними. Якщо кожен об'єкт описується властивостями (ознаками), то він може бути представлений як точка в вимірному просторі, і схожість з іншими об'єктами буде визначатися як відповідне відстань. При класифікації використовуються різні заходи відстані між об'єктами.
1. Евклідова відстань
Це, мабуть, найбільш часто використовувана міра відстані. Вона є геометричним відстанню в багатовимірному просторі і обчислюється таким чином:
- - відстань між об'єктами і;
- - значення -Властивості об'єкта;
- - значення -Властивості об'єкта.
Природне, з геометричної точки зору, евклидова міра відстані може виявитися безглуздою, якщо ознаки виміряні в різних одиницях. Щоб виправити становище, вдаються до нормування кожної ознаки. Застосування евклидова відстані виправдано в наступних випадках:
- властивості (ознаки) об'єкта однорідні за фізичним змістом і однаково важливі для класифікації;
- просторі ознак збігається з геометричним простором.
2. Квадрат евклидова відстані
Дана міра відстані використовується в тих випадках, коли потрібно надати більше значення більш віддаленим один від одного об'єктів. Це відстань обчислюється таким чином:
3. Виважена евклідова відстань
Застосовується в тих випадках, коли кожному -Властивості вдається приписати певний «вагу», пропорційно ступеня важливості ознаки в завданні класифікації:
Визначення ваг, як правило, пов'язано з додатковими дослідженнями, наприклад, організацією опитування експертів і обробкою їх думок.
4. Хеммінгово відстань
Також називається манхеттенським, сіті-блок відстанню або відстанню міських кварталів. Це відстань є різницею за координатами. У більшості випадків ця міра відстані приводить до таких же результатів, як і для звичайного відстані Евкліда. Однак зазначимо, що для цього заходу вплив окремих великих різниць (викидів) зменшується (так як вони не зводяться в квадрат). Хеммінгово відстань обчислюється за формулою:
5. Відстань Чебишева
Приймає значення найбільшого модуля різниці між значеннями відповідних властивостей (ознак) об'єктів:
6. Відсоток незгоди
Наприклад, перша ознака об'єкта - підлогу, другий - вік, третій - місце роботи. Уявімо значення властивостей (ознак) об'єкта у вигляді вектора значень. Перший вектор - (чоловік, 20 років, учитель), другий вектор - (чоловік, 28 років, менеджер). Відсоток незгоди дорівнює 2/3. Ці вектора розрізняються на 66.6%.
Вибір міри відстані і ваг для классифицирующих властивостей - дуже важливий етап, так як від цих процедур залежать склад і кількість формованих класів, а також ступінь подібності об'єктів усередині класів.