Визначення обсягу вибірки 1
Визначення обсягу вибірки
Раніше ми розглянули методи побудови довірчого інтервалу для математичного очікування генеральної сукупності. У кожному з розглянутих випадків ми заздалегідь фіксували обсяг вибірки, не враховуючи ширину довірчого інтервалу. В реальних задачах визначити обсяг вибірки досить складно. Це залежить від наявності фінансових ресурсів, часу і легкості створення вибірки. 1 Наприклад, якщо нам необхідно оцінити середню суму накладних або частку помилкових накладних в інформаційній системі компанії, спочатку слід з'ясувати, наскільки точною повинна бути оцінка. Інакше кажучи, слід задати помилку вибіркового дослідження, що допускається при оцінці кожного з параметрів. Крім того, необхідно заздалегідь визначити довірчий рівень оцінки істинного параметра генеральної сукупності.
Визначення обсягу вибірки для оцінки математичного очікування
Щоб визначити обсяг вибірки, необхідний для оцінки математичного очікування генеральної сукупності, слід врахувати величину помилки вибіркового дослідження і довірчий рівень. Крім того, необхідна додаткова інформація про величину стандартного відхилення. Для того щоб вивести формулу, що дозволяє обчислити об'єм вибірки, почнемо з формули (1) (про походження цієї формули см. Побудова довірчого інтервалу для математичного очікування генеральної сукупності):
де Х̅ - середнє значення вибірки, Z - значення стандартизованої нормально розподіленої випадкової величини, відповідне інтегральної ймовірності, що дорівнює 1 - α / 2. σ - стандартне відхилення генеральної сукупності, n - обсяг вибірки
У цій формулі величина, що додається і віднімається з X̅. дорівнює половині довжини інтервалу. Вона визначає міру неточності оцінки, що виникає внаслідок помилки вибіркового дослідження, яка позначається символом е і обчислюється за формулою
Вирішивши рівняння (2) щодо n. отримаємо:
Таким чином, для визначення обсягу вибірки необхідно знати три параметри:
Необхідний довірчий рівень, який впливає на величину Z. що є критичним значенням стандартизованого нормального розподілу; 2
Прийнятну помилку вибіркового дослідження е;
Стандартне відхилення σ.
На практиці обчислити ці величини непросто. Як визначити довірчий рівень і помилку вибіркового дослідження? Зазвичай відповісти на це питання можуть лише експерти в предметної області (тобто люди, які розуміють сенс оцінюваних величин). Як правило, довірчий рівень дорівнює 95% (в цьому випадку Z = 1,96). 3 Якщо потрібно підняти довірчий рівень, зазвичай вибирають величину, рівну 99%. Якщо можна обмежитися більш низьким довірчим рівнем, вибирають 90%. Визначаючи помилку вибіркового дослідження, не варто думати про її величині (в принципі, будь-яка помилка небажана). Слід поставити таку помилку, щоб отримані результати допускали розумну інтерпретацію.
Крім довірчого рівня і помилки вибіркового дослідження, необхідно знати стандартне відхилення генеральної сукупності. На жаль, цей параметр майже ніколи не відомий. У деяких випадках стандартне відхилення генеральної сукупності можна оцінити на основі попередніх досліджень. В інших ситуаціях експерт може врахувати розмах вибірки і розподіл випадкової змінної. Наприклад, якщо генеральна сукупність має нормальний розподіл, її розмах наближено дорівнює 6σ (тобто ± 3σ в околиці математичного очікування). Отже, стандартне відхилення приблизно дорівнює одній шостій частині діапазону. Якщо величину σ неможливо оцінити таким способом, необхідно виконати пілотний проект і обчислити стандартне відхилення за результатами.
Приклад 1. Повернемося до задачі про аудиторську перевірку. Припустимо, що з інформаційної системи витягнута вибірка, що складається з 100 накладних, заповнених протягом останнього місяця. Компанія бажає побудувати інтервал, що містить математичне очікування генеральної сукупності, довірчий рівень якого дорівнює 95%. Як було визначено обсяг вибірки? Чи слід його уточнити?
Припустимо, що після консультацій з експертами, які працюють в компанії, статистики встановили припустиму похибку вибіркового дослідження рівній ± 5 дол. А довірчий рівень - 95%. Результати попередніх досліджень свідчать, що стандартне відхилення генеральної сукупності приблизно дорівнює 25 дол. Таким чином, е = 5, σ = 25 і Z = 1,96 (що відповідає 95% -ному довірчого рівню). За формулою (3) отримуємо:
Отже, n = 96. Таким чином, обсяг вибірки, що дорівнює 100, був обраний вдало і цілком відповідає вимогам, висунутим компанією.
Приклад 2. Якась промислова компанія на Середньому Заході виробляє електричні ізолятори. Якщо під час роботи ізолятор виходить з ладу, відбувається коротке замикання. Щоб перевірити міцність ізолятора, компанія проводить випробування, в ході яких визначається максимальна сила, необхідна для руйнування ізолятора. Сила вимірюється в фунтах навантаження, що приводить до руйнування ізолятора (рис. 1, стовпець А). Припустимо, що нам необхідно оцінити середню силу руйнування ізолятора з точністю +25 фунтів при 95% -му довірчому інтервалі для цієї величини. Дані, отримані в попередньому дослідженні, свідчать, що стандартне відхилення дорівнює 100 фунтів. Визначте необхідний обсяг вибірки.
Рішення. Отже, е = 25, σ = 100, довірчий рівень 95% (тобто Z = 1,96) (рис. 1).
Мал. 1. Визначення обсягу вибірки
Таким чином, n = 62 (дробові результати, як правило, округлюють з надлишком до найближчого цілого).
Визначення обсягу вибірки для оцінки частки ознаки у генеральній сукупності
Вище ми розглянули спосіб визначення обсягу вибірки для оцінки математичного очікування генеральної сукупності. Припустимо тепер, що нам необхідно визначити частку накладних, які не відповідають правилам, прийнятим компанією (початкові умови див. Приклад 1 вище). Скільки накладних слід витягти з інформаційної системи, щоб побудований інтервал мав заданий довірчий рівень? Для відповіді на це питання можна застосувати той же підхід, що й при визначенні обсягу вибірки для оцінки математичного очікування.
Помилка вибіркового дослідження визначається за формулою (2). При оцінці частки ознаки величину σ слід замінити на величину. Таким чином, формула для помилки вибіркового дослідження приймає наступний вигляд:
Висловлюючи n через інші величини, отримуємо наступну формулу:
Таким чином, для визначення обсягу вибірки необхідно знати три параметри:
Необхідний довірчий рівень, по якому визначається величина Z.
Припустиму похибку вибіркового дослідження е.
Істинну частку успіхів р.
На практиці обчислити ці величини нелегко. Якщо відомий довірчий рівень, можна обчислити критичне значення стандартизованого нормального розподілу Z. Помилка вибіркового дослідження е визначає точність, з якою оцінюється частка успіхів у генеральній сукупності. Третій параметр - частка успіхів у генеральній сукупності р - це саме той параметр, який нам необхідно оцінити. Отже, як оцінити діапазон зміни величини р по його вибірковими значеннями?
Існують два способи. По-перше, у багатьох ситуаціях для оцінки величини р можна використовувати результати попередніх досліджень. По-друге, якщо дані про попередніх дослідженнях недоступні, можна спробувати оцінити параметр р так, щоб виключити недооцінку обсягу вибірки. Зверніть увагу на те, що у формулі (5) величина р (1 - р) коштує в чисельнику. Отже, необхідно знайти максимальне значення цієї величини. Очевидно, що воно досягається при р = 0,5.
Таким чином, якщо частка ознаки у генеральній сукупності р заздалегідь невідома, для визначення обсягу вибірки слід задати р = 0,5. У цьому випадку обсяг вибірки буде переоцінений, що призведе до додаткових витрат на її створення. Якщо справжня частка успіхів у генеральній сукупності сильно відрізняється від 0,5, довірчий інтервал виявиться значно вужче, ніж було потрібно. Оцінка параметра р в цьому випадку буде дуже точною, проте за це доведеться заплатити додатковими тимчасові ми і фінансовими ресурсами.
Повернемося до задачі про аудиторську перевірку. Припустимо, аудитор бажає побудувати інтервал, що містить частку помилкових накладних, довірчий рівень якого дорівнює 95%. Допустима точність дорівнює ± 0,07. Результати попередніх перевірок свідчать, що частка помилкових накладних не перевищує 0,15. Таким чином, е = 0,07, р = 0,15 і Z = 1,96 (що відповідає 95% -ному довірчого рівню). За формулою (5) отримуємо:
Таким чином, обсяг вибірки, що дорівнює 100, був обраний абсолютно правильно і цілком відповідає вимогам, висунутим компанією.
Визначення обсягу вибірки, що витягується з кінцевої генеральної сукупності
Для визначення обсягу вибірки, витягнутої з кінцевої генеральної сукупності без повернення, необхідно використовувати поправочний коефіцієнт. Наприклад, при оцінці математичного очікування вибіркова помилка обчислюється за такою формулою:
При оцінці частки ознаки помилка вибіркового дослідження дорівнює:
Щоб обчислити об'єм вибірки для оцінки математичного очікування або частки ознаки, застосовуються формули:
де n0 - обсяг вибірки без урахування поправочного коефіцієнта для кінцевої генеральної сукупності. Застосування поправочний коефіцієнт призводить до такої формули:
Попередня замітка Побудова довірчого інтервалу для математичного очікування генеральної сукупності
До змісту Статистика для менеджерів з використанням Microsoft Excel
2? Для визначення розміру вибірки використовується величина Z. а не t. оскільки для обчислення критичної позначки t розмір вибірки необхідно знати заздалегідь. У більшості випадків розміри вибірки дозволяють добре апроксимувати t -розподіл стандартизованим нормальним розподілом.
3? Інтервал c довірчим рівнем 95% ділиться на дві рівні частини. Перша частина лежить зліва від математичного очікування генеральної сукупності, а друга - праворуч. Значення величини Z, що відповідає ймовірності 2,5% (площі 0,025), так само -1,96, а значення величини Z, що відповідає сумарній площі 0,975, так само +1,96. Для розрахунку зручно скористатися функцією Excel Z = НОРМ.СТ.ОБР (р), де р - ймовірність, підставляючи значення р1 = 2,5% і р2 = 97,5%
Визначення обсягу вибірки