Коефіцієнт кореляції Спірмена
Коефіцієнт кореляції Спірмена (Spearman rank correlation coefficient) - міра лінійного зв'язку між випадковими величинами. Кореляція Спірмена є рангової. тобто для оцінки сили зв'язку використовуються не чисельні значення, а відповідні їм ранги. Коефіцієнт інваріантний по відношенню до будь-якого монотонного перетворення шкали вимірювання.
визначення
Задані дві вибірки.
Обчислення кореляції Спірмена:
Коефіцієнт кореляції Спірмена обчислюється за формулою:
\ Sum_ ^ n (R_i-S_i) ^ 2 "/>, [1] де - ранг спостереження в ряду, - ранг спостереження в ряду.
Коефіцієнт приймає значення з відрізка. Рівність вказує на сувору пряму лінійну залежність, на зворотну.
Випадок співпадаючих спостережень:
При наявності зв'язок коефіцієнт кореляції Спірмена слід обчислювати таким чином:
Обгрунтування критерію Спірмена:
Статистикою критерію Спірмена служить коефіцієнт кореляції Пірсона рангових наборів і. Він визначається наступною формулою:
Скориставшись тим, що ^ ni ^ 2 "/>, отримаємо:
Переставивши пари в порядку зростання першої компоненти, отримаємо набір. Тоді перепишемо коефіцієнт кореляції Спірмена у вигляді:
Таким чином, - лінійна функція від рангів. Праву частину рівності можна представити в наступному вигляді: [1]
який найбільш зручний для обчислень.
Статистична перевірка наявності кореляції
Проти альтернативи \ 0 "alt =" H_1: \; \ Rho \> \ 0 "/>:
якщо більше табличного значення критерію Спірмена [1] з рівнем значущості, то нульова гіпотеза відкидається.
Критична область критерію Спірмена.
Розглянемо центрированную і нормовану статистику Спірмена:
Нульова гіпотеза відкидається (проти альтернативи - \ 0 "alt =" \ left | \ rho \ right | \> \ 0 "/>), якщо:
, [1] [1] де "/> є -квантіль стандартного нормального розподілу.
Апроксимація задовільно працює, починаючи з. [1]
У 1978 році Р. Іман та У. Коновер запропонували наступну поправку, що значно підвищує точність апроксимації. Вона використовує лінійну комбінацію нормальної і стьюдентовской квантилів. покладемо:
Гіпотеза відкидається на користь альтернативи \ 0) "alt =" H_1 \ (\ rho \> \ 0) "/>, якщо" />, де, \; "/> позначають відповідно квантилі рівня стандартного нормального розподілу і розподілу Стьюдента з ступенями волі.
Нижче наведені приклади обчислення кореляцій Кенделла і Спірмена. Значення коефіцієнтів вказані над кожним зображенням у вигляді, де - кореляція Кенделла, - Спірмена. Помітно, що в більшості випадків \ \ left | \ Tau \ right | "alt =" \ left | \ Rho \ right | \> \ \ left | \ Tau \ right | "/>. Пояснення цього ефекту наводиться нижче.
Напрямок лінійної залежності
Кореляції Кенделла і Спірмена. Нормальні згущення.
Коефіцієнти кореляції реагують на зміну напрямку і зашумленість лінійної залежності між змінними.
Нахил лінійного тренда
Кореляції Кенделла і Спірмена. Обертається смуга.
Коефіцієнти кореляції реагують на зміну напрямку, але не реагують на зміну нахилу тренда. На першому, четвертому та сьомому малюнках дисперсія однієї з змінних близька до нуля, тому не вдається зафіксувати факт лінійної залежності.
нелінійна залежність
Кореляції Кенделла і Спірмена. Нелінійна залежність.
Кореляції Кенделла і Спірмена не відображають заходи нелінійної залежності між змінними.
Лінійна і нелінійна залежність
На кожній з наведених нижче ілюстрацій здійснюється перехід від лінійної залежності до нелінійної. Коефіцієнти кореляції Кенделла і Спірмена реагують на це однаково.
Кореляції Кенделла і Спірмена. Перехрещені смуги.
Кореляції Кенделла і Спірмена. Розширюється смуга.
Кореляції Кенделла і Спірмена. Синусоїда зі змінною амплітудою.
У міру зміни лінійної залежності нелінійної значення коефіцієнтів кореляції падають.
Зв'язок коефіцієнтів кореляції Спірмена та Пірсона
У разі вибірок з нормального розподілу коефіцієнт кореляції Спірмена може бути використаний для оцінки коефіцієнта кореляції Пірсона за формулою:
Зв'язок коефіцієнтів кореляції Спірмена та Кенделла
Вибірках і відповідають послідовності рангів:
,\ Ldots, R_) "/>, де" /> - ранг -го об'єкта в варіаційному ряду вибірки; , \ Ldots, R_) "/>, де" /> - ранг -го об'єкта в варіаційному ряду вибірки.
Проведемо операцію упорядкування рангів.
Розташуємо ряд значень в порядку зростання величини:. Тоді послідовність рангів впорядкованої вибірки буде являти собою послідовність натуральних чисел. Значення, що відповідають значенням, утворюють в цьому випадку деяку послідовність рангів:
Коефіцієнт кореляції Кенделла і коефіцієнт кореляції Спірмена виражаються через ранги в такий спосіб:
Помітно, що в разі інверсія надаються додаткові ваги, таким чином сильніше реагує на незгоду ранжировок, ніж. Цей ефект проявляється в наведених вище прикладах: у більшості з них \ \ left | \ Tau \ right | "alt =" \ left | \ Rho \ right | \> \ \ left | \ Tau \ right | "/>.
Затвердження. [1] Якщо вибірки і не корелюють (виконується гіпотеза), то величини і сильно закорреліровани. Коефіцієнт кореляції між ними можна обчислити за формулою:
Критерій був запропонований британським психологом Чарльзом Едвардом Спирменом в 1904 році.
Примітки
література
Див. Також методичні вказівки по використанню Ресурсу MachineLearning.ru в навчальному процесі.