кластерний аналіз

Евклидова дистанція (відстань)

Евклидова дистанція між двома точками х і у - це найменша відстань між ними. У дво- або тривимірному випадку - це пряма, що з'єднує дані точки. Загальною формулою для n-мірного випадку (л змінних) є: 1

Скорочення dist, як і в такій формулі, відповідає слову дистанція. Для. наведеного прикладу отримаємо

Квадрат евклідової відстані

Цей варіант встановлюється за умовчанням. Завдяки зведенню в квадрат при розрахунку краще враховуються великі різниці. Ця міра повинна завжди використовуватися при побудові кластерів за допомогою центроїдного і медіанного методів, а також методу Варда (Ward-Method) (див. Розд. 20.5).

Для наведеного прикладу маємо cfot = (5-4) 2 + (4-10) 2 = 37

Як і для кореляційних коефіцієнтів Пірсона, область значень цього заходу знаходиться між -1 і +1.

Для наведеного прикладу маємо

Якщо кластеризация спостережень здійснюється тільки на підставі двох змінних, то кореляційний коефіцієнт Пірсона (див. Розд. 15.1) зі значеннями знаходяться в межах від -1 до +1 не годиться для використання в якості запобіжного подібності; він буде давати тільки значення -1 або +1.

Різницею двох спостережень є абсолютне значення максимальної різниці послідовних пар змінних, які відповідають цим спостереженням.

У наведеному прикладі абсолютна різниця значень першої змінної дорівнює 1, а другою змінною величиною - 6. Тому різниця Чебишева дорівнює 6.

Ця дистанційна міра, яка називається також дистанцією Манхеттена або в жарт - дистанцією таксиста, визначається сумою абсолютних різниць пар значень. Для двовимірного простору це не прямолінійний евклидова відстань між двома точками, а шлях, який повинен подолати Манхеттенський таксист, щоб проїхати від одного будинку до іншого вулицями, що перетинаються під прямим кутом.

Для нашого прикладу маємо dfst = | 5-4 | + | 4-10 | = 7

Відстань Маньківського дорівнює кореню r-го ступеня з суми абсолютних різниць пар значень взятих в r-го ступеня:

В SPSS Під час розрахунку відстані допускається застосування тільки квадратного кореня, в той час як ступінь різниці значень можна вибрати в межах від 1 до 4. Якщо цей ступінь взяти рівної 2, то отримаємо евклідова відстань.

Це узагальнений варіант відстані Маньківського. Це відстань, зване також статечним відстанню, дорівнює кореню r-го ступеня з суми абсолютних різниць пар значень взятої в р-го ступеня:

Тут як для кореня, так і для ступеня суми можна вибирати значення від 1 до 4.

Схожі статті