Оцінки математичного очікування і дисперсії
Найважливішими числовими характеристиками випадкової величини Х є її математичне сподівання mx = M [x] і дисперсія # 963; 2 x = D [x] = M [(X - mx) 2] = M [x 2] -. Число mx є середнім значенням випадкової величини, біля якого розкидані значення величин Х. мірою цього розкиду є дисперсія D [x] і середнє квадратичне відхилення:
Ми будемо надалі рассмотриваются важливе завдання для дослідження спостерігається випадкової величини. Нехай є деяка вибірка (будемо позначати її S) випадкової величини Х. Потрібно за наявною вибіркою оцінити невідомі значення mx і.
Теорія оцінок різних параметрів займає в математичній статистиці значне місце. Тому розглянемо спочатку спільне завдання. Нехай потрібно оцінити деякий параметр a по вибірці S. Кожна така оцінка a * є деякою функцією a * = a * (S) від значень вибірки. Значення вибірки випадкові, тому і сама оцінка a * є випадковою величиною. Можна побудувати безліч різних оцінок (тобто функцій) a *. але при цьому бажано мати «хорошу» або навіть «найкращу», в певному сенсі, оцінку. До оцінок зазвичай ставляться такі три природних вимоги.
1. Несмещённость. Математичне сподівання оцінки a * має дорівнювати точного значення параметра: M [a *] = a. Іншими словами, оцінка a * не повинна мати систематичної помилки.
2. Спроможність. При нескінченному збільшенні обсягу вибірки, оцінка a * повинна сходитися до точного значення, тобто при збільшенні числа спостережень помилка оцінки прагне до нуля.
3. Ефективність. Оцінка a * називається ефективною, якщо вона не зміщена і має мінімально можливу дисперсію помилки. В цьому випадку мінімальний розкид оцінки a * щодо точного значення і оцінка в певному сенсі є «найточнішою».
На жаль, не завжди вдається побудувати оцінку, що задовольняє всім трьом вимогам одночасно.
Для оцінки математичного очікування найчастіше застосовується оцінка.
тобто середнє арифметичне за вибіркою. Якщо випадкова величина X має кінцеві mx і sx. то оцінка (1.12) НЕзміщена і спроможна. Ця оцінка ефективна, наприклад, якщо X має нормальний розподіл (ріс.п.1.4, додаток 1). Для інших розподілів вона може виявитися неефективною. Наприклад, в разі рівномірного розподілу (ріс.п.1.1, додаток 1) несмещённой, заможної оцінкою буде
У той же час оцінка (1.13) для нормального розподілу не буде ні заможної, ні ефективною, і буде навіть погіршуватися з ростом обсягу вибірки.
Таким чином, для кожного типу розподілу випадкової величини Х було б використовувати свою оцінку математичного очікування. Однак в нашій ситуації тип розподілу може бути відомий лише приблизно. Тому будемо використовувати оцінку (1.12), яка досить проста і має найбільш важливі властивості несмещённості і спроможності.
Для оцінки математичного очікування по асоційованої вибірці використовується наступна формула:
яку можна отримати з попередньої, якщо вважати всі mi значень вибірки, що потрапили в i -й інтервал, рівними представнику zi цього інтервалу. Ця оцінка, природно, грубіше, але вимагає значно меншого обсягу обчислень, особливо при великому обсязі вибірки.
Для оцінки дисперсії найчастіше використовується оцінка:
Ця оцінка не зміщена і спроможна для будь-якої випадкової величини Х. має кінцеві моменти до четвертого порядку включно.
У разі асоційованої вибірки використовується оцінка:
Оцінки (1.14) і (1.16), як правило, зміщені і неспроможні, тому що їх математичні очікування і межі, до яких вони сходяться, відмінні від mx і в силу заміни всіх значень вибірки, що потрапили в i -й інтервал, на представника інтервалу zi.
Відзначимо, що при великих n, коефіцієнт n / (n - 1) у виразах (1.15) і (1.16) близький до одиниці, тому його можна опустити.
Нехай точне значення деякого параметра одно a і знайдена його оцінка a * (S) за вибіркою S. Оцінці a * відповідає точка на числовій осі (рис.1.5), тому така оцінка називається точковою. Всі оцінки, розглянуті в попередньому параграфі, точкові. Практично завжди, в силу випадковості
a * ¹ a. і ми можемо сподіватися тільки на те, що точка a * знаходиться десь поблизу a. Але наскільки близько? Будь-яка інша точкова оцінка матиме той же недолік - відсутність заходів надійності результату.
Рис.1.5. Точкова оцінка параметра.
Більш певним в цьому відношенні є інтервальні оцінки. Інтервальні оцінка являє собою інтервал Ib = (a. B). в якому точне значення оцінюваного параметра знаходиться із заданою вірогідністю b. Інтервал Ib називається довірчим інтервалом. а ймовірність b називається довірчою ймовірністю і може розглядатися як надійність оцінки.
Довірчий інтервал відбудеться за наявною вибірці S. він випадковий в тому сенсі, що випадкові його межі a (S) і b (S). які ми будемо обчислювати за (випадкової) вибірці. Тому b є ймовірність того, що випадковий інтервал Ib накриє невипадково точку a. На рис. 1.6. інтервал Ib накрив точку a. а Ib * - немає. Тому не зовсім правильно говорити, що a «потрапляє» в інтервал.
Якщо довірча ймовірність b велика (наприклад, b = 0,999), то практично завжди точне значення a знаходиться в побудованому інтервалі.
Рис.1.6. Довірчі інтервали параметра a для різних вибірок.
Розглянемо метод побудови довірчого інтервалу для математичного сподівання випадкової величини Х, заснований на центральній граничній теоремі.
Нехай випадкова величина Х має невідоме математичне сподівання mx і відому дисперсію. Тоді, в силу центральної граничної теореми, середнє арифметичне:
результатів n незалежних випробувань величини Х є випадковою величиною, розподіл якої при великих n. близько до нормальному розподілу з середнім mx і среднеквадратическим відхиленням. Тому випадкова величина
має розподіл ймовірностей, яке можна вважати стандартним нормальним з щільністю розподілу j (t). графік якої зображено на рис.1.7 (а також на ріс.п.1.4, додаток 1).
Ріс.1.7. Щільність розподілу ймовірностей випадкової величини t.
Нехай задана довірча ймовірність b і tb - число, яке задовольняє рівняння
де - функція Лапласа. Тоді ймовірність попадання в інтервал (-tb. Tb) буде дорівнює заштрихованої на рис.1.7. площі, і, в силу вираження (1.19), дорівнює b. отже
Таким чином, в якості довірчого інтервалу можна взяти інтервал
так як вираз (1.20) означає, що невідоме точне значення mx знаходиться в Ib із заданою довірчою ймовірністю b. Для побудови Ib потрібно по заданому b найтіtb з рівняння (1.19). Наведемо кілька значень tb. необхідних в подальшому [3. 5]:
При виведенні виразу (1.21) передбачалося, що відомо точне значення середньоквадратичного відхилення Sх. Однак воно відомо далеко не завжди. Скористаємося тому його оцінкою (1.15) і отримаємо:
Відповідно, оцінки і. отримані за асоційованої вибірці, дають наступну формулу для довірчого інтервалу:
Відзначимо, що формула (1.22) має дві похибки. Перша пов'язана з тим, що розподіл величини t лише приблизно однаково j (t). але з ростом обсягу вибірки n точність наближення поліпшується. Друга похибка обумовлена використанням замість невідомого точного значення Sх. При великому обсязі вибірки і ця похибка несуттєва. Формула (1.23) використовує групувати, тобто огрубіння вибірку, тому і дає результат, який залишається огрублённим і при нескінченному зростанні обсягу вибірки.
Слід зазначити також, що можна побудувати скільки завгодно довірчих інтервалів для заданого b. Дійсно, нехай t'b ІТ "b задовольняє умові b = Ф0 (t" b) - Ф0 (t'b). тоді інтервал
також з імовірністю b містить mx (ріс.1.7.). Наприклад, можна взяти t'0,9 = - 4 і t "0,9 = 1,282. Але в цьому випадку довжина отриманого інтервалу збільшиться приблизно в 1,6 рази. Формула (1.21) використовується тому, що вона дає найкоротший довірчий інтервал.
Аналогічним чином можуть бути знайдені інтервальні оцінки інших параметрів, наприклад, дисперсії [1, 5].