кластерний аналіз
Евклидова дистанція (відстань)
Евклидова дистанція між двома точками х і у - це найменша відстань між ними. У дво- або тривимірному випадку - це пряма, що з'єднує дані точки. Загальною формулою для n-мірного випадку (л змінних) є: 1
Скорочення dist, як і в такій формулі, відповідає слову дистанція. Для. наведеного прикладу отримаємо
Квадрат евклідової відстані
Цей варіант встановлюється за умовчанням. Завдяки зведенню в квадрат при розрахунку краще враховуються великі різниці. Ця міра повинна завжди використовуватися при побудові кластерів за допомогою центроїдного і медіанного методів, а також методу Варда (Ward-Method) (див. Розд. 20.5).
Для наведеного прикладу маємо cfot = (5-4) 2 + (4-10) 2 = 37
Як і для кореляційних коефіцієнтів Пірсона, область значень цього заходу знаходиться між -1 і +1.
Для наведеного прикладу маємо
Якщо кластеризация спостережень здійснюється тільки на підставі двох змінних, то кореляційний коефіцієнт Пірсона (див. Розд. 15.1) зі значеннями знаходяться в межах від -1 до +1 не годиться для використання в якості запобіжного подібності; він буде давати тільки значення -1 або +1.
Різницею двох спостережень є абсолютне значення максимальної різниці послідовних пар змінних, які відповідають цим спостереженням.
У наведеному прикладі абсолютна різниця значень першої змінної дорівнює 1, а другою змінною величиною - 6. Тому різниця Чебишева дорівнює 6.
Ця дистанційна міра, яка називається також дистанцією Манхеттена або в жарт - дистанцією таксиста, визначається сумою абсолютних різниць пар значень. Для двовимірного простору це не прямолінійний евклидова відстань між двома точками, а шлях, який повинен подолати Манхеттенський таксист, щоб проїхати від одного будинку до іншого вулицями, що перетинаються під прямим кутом.
Для нашого прикладу маємо dfst = | 5-4 | + | 4-10 | = 7
Відстань Маньківського дорівнює кореню r-го ступеня з суми абсолютних різниць пар значень взятих в r-го ступеня:
В SPSS Під час розрахунку відстані допускається застосування тільки квадратного кореня, в той час як ступінь різниці значень можна вибрати в межах від 1 до 4. Якщо цей ступінь взяти рівної 2, то отримаємо евклідова відстань.
Це узагальнений варіант відстані Маньківського. Це відстань, зване також статечним відстанню, дорівнює кореню r-го ступеня з суми абсолютних різниць пар значень взятої в р-го ступеня:
Тут як для кореня, так і для ступеня суми можна вибирати значення від 1 до 4.