Коефіцієнт кореляції Спірмена

Коефіцієнт кореляції Спірмена (Spearman rank correlation coefficient) - міра лінійного зв'язку між випадковими величинами. Кореляція Спірмена є рангової. тобто для оцінки сили зв'язку використовуються не чисельні значення, а відповідні їм ранги. Коефіцієнт інваріантний по відношенню до будь-якого монотонного перетворення шкали вимірювання.

визначення

Задані дві вибірки.

Обчислення кореляції Спірмена:

Коефіцієнт кореляції Спірмена обчислюється за формулою:

\ Sum_ ^ n (R_i-S_i) ^ 2 "/>, [1] де - ранг спостереження в ряду, - ранг спостереження в ряду.

Коефіцієнт приймає значення з відрізка. Рівність вказує на сувору пряму лінійну залежність, на зворотну.

Випадок співпадаючих спостережень:

При наявності зв'язок коефіцієнт кореляції Спірмена слід обчислювати таким чином:

Обгрунтування критерію Спірмена:

Статистикою критерію Спірмена служить коефіцієнт кореляції Пірсона рангових наборів і. Він визначається наступною формулою:

Скориставшись тим, що ^ ni ^ 2 "/>, отримаємо:

Переставивши пари в порядку зростання першої компоненти, отримаємо набір. Тоді перепишемо коефіцієнт кореляції Спірмена у вигляді:

Таким чином, - лінійна функція від рангів. Праву частину рівності можна представити в наступному вигляді: [1]

який найбільш зручний для обчислень.

Статистична перевірка наявності кореляції

Проти альтернативи \ 0 "alt =" H_1: \; \ Rho \> \ 0 "/>:

якщо більше табличного значення критерію Спірмена [1] з рівнем значущості, то нульова гіпотеза відкидається.

Критична область критерію Спірмена.

Розглянемо центрированную і нормовану статистику Спірмена:

Нульова гіпотеза відкидається (проти альтернативи - \ 0 "alt =" \ left | \ rho \ right | \> \ 0 "/>), якщо:

, [1] [1] де "/> є -квантіль стандартного нормального розподілу.

Апроксимація задовільно працює, починаючи з. [1]

У 1978 році Р. Іман та У. Коновер запропонували наступну поправку, що значно підвищує точність апроксимації. Вона використовує лінійну комбінацію нормальної і стьюдентовской квантилів. покладемо:

Гіпотеза відкидається на користь альтернативи \ 0) "alt =" H_1 \ (\ rho \> \ 0) "/>, якщо" />, де, \; "/> позначають відповідно квантилі рівня стандартного нормального розподілу і розподілу Стьюдента з ступенями волі.

Нижче наведені приклади обчислення кореляцій Кенделла і Спірмена. Значення коефіцієнтів вказані над кожним зображенням у вигляді, де - кореляція Кенделла, - Спірмена. Помітно, що в більшості випадків \ \ left | \ Tau \ right | "alt =" \ left | \ Rho \ right | \> \ \ left | \ Tau \ right | "/>. Пояснення цього ефекту наводиться нижче.

Напрямок лінійної залежності

Кореляції Кенделла і Спірмена. Нормальні згущення.

Коефіцієнти кореляції реагують на зміну напрямку і зашумленість лінійної залежності між змінними.

Нахил лінійного тренда

Кореляції Кенделла і Спірмена. Обертається смуга.

Коефіцієнти кореляції реагують на зміну напрямку, але не реагують на зміну нахилу тренда. На першому, четвертому та сьомому малюнках дисперсія однієї з змінних близька до нуля, тому не вдається зафіксувати факт лінійної залежності.

нелінійна залежність

Кореляції Кенделла і Спірмена. Нелінійна залежність.

Кореляції Кенделла і Спірмена не відображають заходи нелінійної залежності між змінними.

Лінійна і нелінійна залежність

На кожній з наведених нижче ілюстрацій здійснюється перехід від лінійної залежності до нелінійної. Коефіцієнти кореляції Кенделла і Спірмена реагують на це однаково.

Кореляції Кенделла і Спірмена. Перехрещені смуги.

Кореляції Кенделла і Спірмена. Розширюється смуга.

Кореляції Кенделла і Спірмена. Синусоїда зі змінною амплітудою.

У міру зміни лінійної залежності нелінійної значення коефіцієнтів кореляції падають.

Зв'язок коефіцієнтів кореляції Спірмена та Пірсона

У разі вибірок з нормального розподілу коефіцієнт кореляції Спірмена може бути використаний для оцінки коефіцієнта кореляції Пірсона за формулою:

Зв'язок коефіцієнтів кореляції Спірмена та Кенделла

Вибірках і відповідають послідовності рангів:

,\ Ldots, R_) "/>, де" /> - ранг -го об'єкта в варіаційному ряду вибірки; , \ Ldots, R_) "/>, де" /> - ранг -го об'єкта в варіаційному ряду вибірки.

Проведемо операцію упорядкування рангів.

Розташуємо ряд значень в порядку зростання величини:. Тоді послідовність рангів впорядкованої вибірки буде являти собою послідовність натуральних чисел. Значення, що відповідають значенням, утворюють в цьому випадку деяку послідовність рангів:

Коефіцієнт кореляції Кенделла і коефіцієнт кореляції Спірмена виражаються через ранги в такий спосіб:

Помітно, що в разі інверсія надаються додаткові ваги, таким чином сильніше реагує на незгоду ранжировок, ніж. Цей ефект проявляється в наведених вище прикладах: у більшості з них \ \ left | \ Tau \ right | "alt =" \ left | \ Rho \ right | \> \ \ left | \ Tau \ right | "/>.

Затвердження. [1] Якщо вибірки і не корелюють (виконується гіпотеза), то величини і сильно закорреліровани. Коефіцієнт кореляції між ними можна обчислити за формулою:

Критерій був запропонований британським психологом Чарльзом Едвардом Спирменом в 1904 році.

Примітки

література

Див. Також методичні вказівки по використанню Ресурсу MachineLearning.ru в навчальному процесі.