ДЕРЖАВНИЙ КОМІТЕТ СТАТИСТИКИ УКРАЇНИ
Н А К А З
29.12.2006 N 639
( Наказ втратив чинність на підставі Наказу Державної служби статистики N 354 від 16.12.2020 )
Про затвердження Методики розрахунку характеристик надійності оцінювання показників за результатами вибіркового обстеження населення (домогосподарств) з питань економічної активності
Відповідно до статті 14 Закону України "Про державну статистику" та з метою удосконалення системи показників стану економічно активного населення, їх аналізу та використання
Н А К А З У Ю:
1. Затвердити та ввести в дію з 1 січня 2007 року схвалену методичною комісією Держкомстату Методику розрахунку характеристик надійності оцінювання показників за результатами вибіркового обстеження населення (домогосподарств) з питань економічної активності (далі - Методика), що додається.
2. Департаменту статистики праці (Григорович Н.В.):
2.1. Здійснювати керівництво щодо застосування на практиці Методики, затвердженої пунктом 1 цього наказу.
2.2. Довести Методику, затверджену пунктом 1 цього наказу, до відома головних управлінь статистики в Автономній Республіці Крим, областях, у м. Києві та Управління статистики у м. Севастополі.
3. Контроль за виконанням цього наказу покласти на заступника Голови Власенко Н.С.
Голова О.Г.ОсауленкоЗАТВЕРДЖЕНО
Наказ Держкомстату України
29.12.2006 N 639
МЕТОДИКА
розрахунку характеристик надійності оцінювання показників за результатами вибіркового обстеження населення (домогосподарств) з питань економічної активності
Анотація
Методика визначає основний зміст характеристик надійності оцінювання показників за результатами вибіркового обстеження населення (домогосподарств) з питань економічної активності та принципи їх розрахунку на основі методу збалансованих реплікацій, реалізованого в пакеті статистичних програм "WesVarPC".
В Методиці розглянуто інформаційне забезпечення зазначених розрахунків, наведені конкретні приклади та представлена технологія їх здійснення. Наведені інструктивні матеріали щодо реалізації розрахунків у програмному пакеті "WesVarPC".
Дослідження та практичні роботи виконані за підтримки проекту технічної допомоги в галузі статистики Міністерства у справах міжнародного розвитку Сполученого Королівства Великої Британії та Північної Ірландії.
Методику призначено для використання працівниками органів державної статистики, насамперед на державному рівні. Вона є корисною також для працівників територіальних управлінь статистики, а також фахівців наукових організацій та навчальних закладів, що проводять дослідження в галузі методології вибіркових обстежень.
Методику розроблено фахівцями Інституту демографії та соціальних досліджень НАН України В.Г.Саріогло, О.В.Лисою, фахівцями департаменту статистики праці Держкомстату України Н.В.Григорович, Н.В.Рубльовою, А.В.Солоп та за участю фахівців департаменту обстежень домогосподарств І.І.Осипової, С.О.Радченко.
Передмова
При проведенні вибіркових обстежень вирішальне значення для правильної інтерпретації їх результатів, контролю оптимальності дизайну вибірки та статистичної ефективності окремих етапів обробки даних має інформація щодо надійності оцінювання показників для генеральної сукупності. Оцінка показника, надійність якої є недостатньою, не може бути використана для аналізу процесів та явищ.
Можливість визначення надійності оцінювання показників генеральної сукупності за результатами певного вибіркового обстеження є найважливішим фактором, який обумовлює ефективність вибіркового методу спостережень при зборі статистичної інформації. Як відомо, зазначена можливість забезпечується імовірнісним характером, тобто репрезентативністю вибірки.
Для імовірнісних вибірок зі складним дизайном, якою є, зокрема, вибірка вибіркового обстеження населення (домогосподарств) з питань економічної активності (далі - ОЕАН), побудова аналітичних залежностей для розрахунку характеристик надійності є складною статистичною проблемою, оскільки такі залежності визначаються як особливостями дизайну вибірок, так і типом показників, що оцінюються. При цьому використовувати спрощені залежності, які не враховують реального дизайну вибірок, неприпустимо, оскільки це може призвести до катастрофічної недооцінки похибки вибірки. За таких умов більш ефективними є універсальні наближені розрахункові методи оцінки характеристик надійності, зокрема реплікаційні методи та методи лінеаризації.
З метою визначення характеристик надійності в даній Методиці використовується так званий метод збалансованих реплікацій, який дозволяє за результатами вибіркового обстеження розрахувати величину дисперсії вибіркових оцінок для будь-якого дизайну вибірки та для будь-якого типу показника. Цей метод дозволяє ефективно використовувати первинні дані обстеження, статистичні ваги обстежених одиниць та дизайн вибірки. Метод реалізований в статистичному програмному пакеті "WesVarPC", який в цілому гармонізований з програмним пакетом "SPSS", що є базовим програмним продуктом для обробки статистичних даних в системі Держкомстату України.
Необхідність розробки даної Методики обумовлена, насамперед, визначальною роллю інформації щодо рівня надійності результатів ОЕАН у адекватній їх інтерпретації та використанні, підвищенням зацікавленості користувачів у отриманні характеристик надійності та рекомендаціями міжнародних статистичних служб щодо стандартів оцінювання показників та змісту публікацій за результатами зазначених обстежень.
ПЕРЕЛІК
умовних позначень та символів. Визначення основних термінів
Умовні позначення:
------------------------------------------------------------------
|ПТОВ |- первинна територіальна одиниця вибірки; |
|-----+----------------------------------------------------------|
|ВТОВ |- вторинна територіальна одиниця вибірки; |
|-----+----------------------------------------------------------|
|ОЕАН |- обстеження економічної активності населення; |
|-----+----------------------------------------------------------|
|BRR |- (balanced repeated replications) метод збалансованих |
| |реплікацій. |
| | |
------------------------------------------------------------------
Символи:
-----------------------------------------------------------------------------
|n |- обсяг вибірки; |
|----------------+----------------------------------------------------------|
| ^ | |
|ТЭТА |- оцінка показника за результатами вибіркового обстеження;|
|----------------+----------------------------------------------------------|
| ^ ^ | |
|ТЭТА + ТЭТА |- верхня та нижня межі довірчого інтервалу; |
| L R | |
|----------------+----------------------------------------------------------|
| ^ | |
| CV(ТЭТА) |- коефіцієнт варіації вибіркових оцінок показника ТЭТА; |
|----------------+----------------------------------------------------------|
| ^ | |
| deff(ТЭТА) |- дизайн-ефект; |
|----------------+----------------------------------------------------------|
| ^ | |
| LSE(ТЭТА) |- гранична похибка; |
|----------------+----------------------------------------------------------|
| ^ | |
| SE(ТЭТА) |- стандартна похибка; |
|----------------+----------------------------------------------------------|
| ^ | |
| V(ТЭТА) |- дисперсія вибіркових оцінок ТЭТА. |
-----------------------------------------------------------------------------
Основні терміни [1, 2]:
------------------------------------------------------------------
|Гранична похибка |- гранично припустима |
| |розбіжність між оцінкою |
| |показника за результатами |
| |вибіркового обстеження та |
| |дійсним значенням показника |
| |(невідомим) для генеральної |
| |сукупності, визначена на основі|
| |стандартної похибки вибірки та |
| |встановленого рівня довірчої |
| |імовірності. |
|--------------------------------+-------------------------------|
| ^ | |
|Дизайн-ефект (deff(ТЭТА)) |- міра відносної статистичної |
| |ефективності певного дизайну |
| |вибірки у порівнянні з простою |
| |випадковою вибіркою (відношення|
| |дисперсії вибіркових оцінок |
| |показника для реального дизайну|
| |вибірки, до дисперсії оцінки |
| |цього показника, отриманої за |
| |допомогою простого випадкового |
| |відбору). |
|--------------------------------+-------------------------------|
|Дисперсія вибіркових оцінок |- середній квадрат відхилень |
| |оцінок показника за всіма |
| |можливими вибірками даного |
| |дизайну від середнього значення|
| |оцінки за всіма вибірками. |
|--------------------------------+-------------------------------|
|Довірчі межі (межі довірчого |- крайні значення оцінки |
|інтервалу) |показника, між якими міститься |
| |дійсне значення показника. |
|--------------------------------+-------------------------------|
|Коефіцієнт варіації (відносна |- відносна стандартна похибка |
|стандартна похибка) |вибірки. Визначається як |
| |відношення величини стандартної|
| |похибки вибірки до оцінки |
| |показника у відсотках. |
|--------------------------------+-------------------------------|
|Надійність |- близькість оцінок показника |
| |за всіма можливими вибірками |
| |даного дизайну до дійсного |
| |(невідомого) значення |
| |показника. |
|--------------------------------+-------------------------------|
|Оцінка показника |- значення показника для |
| |генеральної сукупності, |
| |отримане за результатами |
| |вибіркового спостереження. |
|--------------------------------+-------------------------------|
|Стандартна похибка |- середньоквадратичне |
| |відхилення вибіркових оцінок |
| |показника за всіма можливими |
| |вибірками даного дизайну від |
| |дійсного значення показника для|
| |генеральної сукупності. |
------------------------------------------------------------------
1. Загальні положення
Із статистичної точки зору оцінка певного показника за
результатами вибіркового обстеження є надійною, якщо вибіркові
оцінки, побудовані на базі всіх можливих вибірок однакового
дизайну та обсягу, сконцентровані біля дійсного значення показника
[3]. Висока концентрація, тобто надійність, бажана тому, що в
окремому процесі побудови вибірки та розрахунку оцінки, який майже
завжди застосовується на практиці, існує лише деяка імовірність
наблизитись до дійсного значення (див. рис. 1 ( va639202-06 ).
Реальна надійність оцінок будь-якого показника, оціненого за
даними вибіркового обстеження, може бути визначена лише у
виключному випадку, так як на практиці процедура відбору
реалізується лише один раз і дійсні значення показників невідомі.
При обробці даних вибіркових обстежень в більшості випадків
надійність лише оцінюється. Слід відмітити, що в теоретичній
статистиці розвинуті підходи, котрі дозволяють відходити від
необхідності повторення обстеження для широкого спектру дизайнів
вибірок. Ці підходи вимагають, перш за все, імовірнісного
характеру вибірки - кожна сукупність елементів повинна мати відому
(не нульову) імовірність потрапити до вибірки. Крім того існують
методи, які дозволяють прямо оцінити надійність показників - так
звані реплікаційні методи.
Близькість оцінки показника до реального значення показника,
а саме її надійність, має два аспекти (див. рис.1.
- вибіркові оцінки мають малу дисперсію;
- середнє значення оцінок показника близьке до дійсного
значення.
Оцінки дисперсії, отримані по різних вибірках, називають
дисперсією вибіркових оцінок або вибірковою дисперсією.
Дисперсія вибіркових оцінок визначається за формулою:
-
^ 1 H ^ ^ 2
V(ТЭТА) = --- S (ТЭТА - ТЭТА) , (1)
Н i = 1 i
де:
^
ТЭТА - оцінка показника по вибірці
i,i = 1, 2, ..., H; - середнє значення вибіркових оцінок
показника,
-
^ 1 H ^
ТЭТА = --- S ТЭТА ;
H i=1 i
H - кількість вибірок,
S - знак суми.
Рис. 1. Порівняння надійності оцінок при великій дисперсії
без зміщення та при малій дисперсії зі зміщенням ( va639202-06 )
Похибка вибірки розраховується як стандартна похибка SE на
^
підставі величини оцінки дисперсії V(ТЭТА) значень показника за
формулою:
---------
SE = \| ^ (2)
V(ТЭТА)
Для вибірок зі складним дизайном, якою є, зокрема, вибірка
^
для ОЕАН, величина V(ТЭТА) може бути розрахована на основі
класичної формули для оцінки дисперсії ознаки при простому
випадковому відборі:
2
сигма
^ ^ s
V(ТЭТА) = deff(ТЭТА) x --------, (3)
n
де:
2
сигма - дисперсія оцінки показника по одиницях вибірки для
s
простого випадкового відбору.
Коефіцієнт варіації CV (або відносна стандартна похибка
вибірки RSE) розраховується за формулою:
SE
CV = ------- x 100% (4)
^
(ТЭТА)
Відносні стандартні похибки в аналізі надійності результатів
обстежень доцільно використовувати, оскільки вони не залежать від
рівня ознаки.
Величина коефіцієнта варіації часто використовується, як
показник придатності даних для аналізу. Так, якщо CV < = 5%, то
оцінка вважається точною, якщо 5% < = CV < = 10% - оцінка є
придатною для кількісного аналізу, але її точність недостатньо
висока, якщо 10% < CV < = 25% - оцінка придатна лише для якісного
аналізу і її слід використовувати обережно (іноді публікують дані
для яких CV досягає 30% і навіть 40%).
Гранична похибка вибірки LSE розраховується на основі
стандартної похибки вибірки за формулою:
LSE = T x SE, (5)
де:
t - довірче число (квантіль нормального розподілу або
квантіль розподілу ймовірностей), визначає співвідношення
граничної та стандартної похибки при даній ймовірності
p (p - імовірність того, що похибка вибірки для оцінки
показника не перевищить величину LSE). Типові значення t наведені
в таблиці 1.
Таблиця 1
Взаємовідповідність між величинами довірчої
ймовірності p і довірчого числа t [4]
------------------------------------------------------------------
| p | 0,50 | 0,80 | 0,90 | 0,95 | 0,99 |
|--------+-----------+----------+----------+----------+----------|
| t | 0,67 | 1,28 | 1,64 | 1,96 | 2,58 |
------------------------------------------------------------------
Гранична похибка вибірки використовується для побудови
довірчих меж інтервальних оцінок (меж довірчих інтервалів).
^
Наприклад, для побудови нижньої ТЭТА та верхньої довірчих меж
L
^
інтервальної оцінки сумарного значення ТЭТА використовуються
формули:
^ ^ ^ ^
ТЭТА = ТЭТА - LSE; ТЭТА = ТЭТА + LSE. (6)
R
Різниця між середнім значенням вибіркових оцінок показника та
дійсним значенням (майже завжди невідомим) є зміщенням оцінки та
позначається як B (див. рис.1 ( va639202-06 ):
^ ^ 2 ^
B(ТЭТА;ТЭТА) = V(ТЭТА) + B (ТЭТА;ТЭТА). (7)
За наявності зміщення для визначення статистичної надійності
оцінки показника використовується середньоквадратична похибка MSE
^
(ТЭТА;ТЭТА), що визначається формулою:
^ ^ 2 ^
MSE(ТЭТА;ТЭТА) = V(ТЭТА) + B (ТЭТА;ТЭТА). (8)
Таким чином, середньоквадратична похибка складається з
дисперсії вибіркових оцінок та квадрату зміщення. Величина MSE
зазвичай розглядається як показник надійності, тобто для цільового
^ (1)
показника ТЭТА оцінка ТЭТА вважається більш надійною за оцінку,
^ (1) ^ (2)
якщо MSE(ТЭТА ;ТЭТА) < MSE(ТЭТА ;ТЭТА). Слід відмітити, що
B та MSE визначаються процесом оцінювання цільового показника, та
їх значення будуть різними для різних значень цільового показника.
Порівняно з B та MSE дисперсія вибіркових оцінок (так само як і
середнє значення) не пов'язана з цільовим показником. В той же час
і дисперсія, і зміщення так само, як і, відповідно,
середньоквадратична похибка залежать від дизайну вибірки.
За наявністю зміщення для характеристики надійності оцінок
використовується також величина загальної похибка оцінки TE, що
визначається як корінь квадратний з середньоквадратичної похибки:
^ ---------
TE(ТЭТА) = | ^
\|MSE(ТЭТА) (9)
Позначення тут дещо спрощені, і відповідно,
^ ^
прийняте TE(ТЭТА) еквівалентне TE(ТЭТА;ТЭТА).
Якщо при оцінюванні показника зміщення відсутнє
^
(B(ТЭТА) = 0), то величина середньоквадратичної похибки дорівнює
^ ^
дисперсії вибіркових оцінок MSE(ТЭТА) = V(ТЭТА), і загальна
^
похибка дорівнює стандартній похибці TE(ТЭТА) =
---------------------
| ^ ^
\| V(ТЭТА) = SE(ТЭТА)
По аналогії з такою характеристикою надійності оцінок
показників як відносна стандартна похибка із загальної похибки
розраховується відносна загальна похибка (RTE), що визначається як
відношення загальної похибки до значення оцінки показника у
відсотках:
^
^ TE(ТЭТА)
RTE(ТЭТА) = ---------- x 100% (10)
^
ТЭТА
Таким чином, для визначення надійності оцінок показників у
загальному випадку необхідно розраховувати:
- дисперсію вибіркових оцінок (та стандартну похибку) для
дизайну вибіркової сукупності та оцінок;
- оцінку зміщення цільового показника;
- середньоквадратичну похибку оцінки цільового показника.
Для визначення дисперсій, стандартних похибок та величини
дизайн-ефекту для вибірок зі складним дизайном частіше за все
використовуються спеціалізовані розрахункові методи.
В теперішній час, в умовах наявності та доступності досить
потужних комп'ютерів, до методів розрахунку похибки вибірки
ставляться такі загальні вимоги:
- можливість врахування реального складного дизайну вибірки;
- можливість використання для різних дизайнів вибірки;
- можливість використання для всіх основних типів показників
та для будь-яких груп одиниць вибірки у межах вибірки;
- мінімальність величин та прийнятні статистичні властивості
похибок, джерелом яких є самі методи;
- економічність в плані витрат часу;
- наявність та зручність використання спеціалізованого
програмного забезпечення для практичного застосування методів.
При аналізі якості даних ОЕАН застосовується реплікаційний
метод BRR, який реалізований у стандартному пакеті програм
"WesVarPC" [5]. BRR є складною розрахунковою процедурою. Вона
передбачає, що повна вибірка складається з H страт (ці страти у
загальному випадку відрізняються від страт дизайну вибірки), у
кожному з яких міститься два кластера (кластер об'єднує одиниці
спостереження, що розташовані в межах однієї територіальної
одиниці або декількох сусідніх територіальних одиниць, що залежить
від розміру останніх). Кожна реплікація - "напіввибірка",
будується шляхом випадкового відбору по одному кластеру з кожної
страти. Оцінка показника за реплікацією розраховується шляхом
подвоєння статистичних ваг одиниць спостереження, що належать
відібраним кластерам.
Необхідна кількість реплікацій T визначається з використанням
методу балансування. Це досягається спеціальною процедурою
формування реплікацій за допомогою ортогональних матриць Адамара.
Такі матриці мають порядок 4 x z, де z - будь-яке натуральне число
[6].
Матриці Адамара при z = 1, 2 мають вигляд (див. також
табл. 2.).
- -
|1 1 1 1 1 1 1 1|
- - |1 -1 1 -1 1 -1 1 -1|
|1 1 1 1| |1 1 -1 -1 1 1 -1 -1|
|1 -1 1 -1| |1 -1 -1 1 1 -1 -1 1|
H = |1 1 -1 -1|, H = |1 1 1 1 -1 -1 -1 -1|
4 |1 -1 -1 1| 8 |1 -1 1 -1 -1 1 -1 1|
- - |1 1 -1 -1 -1 -1 1 1|
|1 -1 -1 1 -1 1 1 -1|
- -
При формуванні реплікацій число "1" означає, що з відповідної
страти включається другий кластер, а число "-1", що - перший
кластер. При цьому, якщо вибірка складається з меншого числа
страт, ніж число 4 x z, наприклад, T = 9 при z = 3, то слід обрати
будь-які 9 граф повної матриці.
Таблиця 2
Приклад зв'язків елементів матриці
Адамара при z = 2 для вибірки, яка складається з 8 страт
------------------------------------------------------------------
| Реплікація, | Страта, h |
| t |-------------------------------------------------|
| | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
|--------------+-----+------+------+-----+-----+-----+-----+-----|
| 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
|--------------+-----+------+------+-----+-----+-----+-----+-----|
| 2 | 1 | -1 | 1 | -1 | 1 | -1 | 1 | -1 |
|--------------+-----+------+------+-----+-----+-----+-----+-----|
| 3 | 1 | 1 | -1 | -1 | 1 | 1 | -1 | -1 |
|--------------+-----+------+------+-----+-----+-----+-----+-----|
| 4 | 1 | -1 | -1 | 1 | 1 | -1 | -1 | 1 |
|--------------+-----+------+------+-----+-----+-----+-----+-----|
| 5 | 1 | 1 | 1 | 1 | -1 | -1 | -1 | -1 |
|--------------+-----+------+------+-----+-----+-----+-----+-----|
| 6 | 1 | 1 | 1 | -1 | 1 | 1 | -1 | 1 |
|--------------+-----+------+------+-----+-----+-----+-----+-----|
| 7 | 1 | 1 | -1 | -1 | -1 | -1 | 1 | 1 |
|--------------+-----+------+------+-----+-----+-----+-----+-----|
| 8 | 1 | -1 | -1 | 1 | -1 | 1 | 1 | -1 |
------------------------------------------------------------------
Оцінка дисперсії ознаки здійснюється за формулою [5]:
^ 1 T ^ ^ 2
V(ТЭТА) = --- x S (ТЭТА - ТЭТА) (11)
T T t=1 t
де:
^
(ТЭТА) - оцінка ознаки ТЭТА по реплікації t;
t
^
(ТЭТА) - оцінка ознаки (ТЭТА) по всій вибірці;
t - поточний номер реплікації, t = 1,2, ..., T.
2. Інформаційне забезпечення
2.1. Вхідна інформація
Вхідною інформацією для розрахунку характеристик надійності оцінювання показників за результатами ОЕАН є файл первинних даних обстеження у форматі програми "SPSS", що містить ознаки (по домогосподарствах, або по членах домогосподарств), по яких будуються оцінки та додаткові змінні, необхідні для розрахунків.
Додаткові змінні:
- порядковий номер запису (ім'я змінної -id);
- статистична вага домогосподарств (членів домогосподарств - w_q);
- страти для України (strt_ua);
- код територій (регіонів) за КОАТУУ (rg);
- страти для регіонів (strt_rg);
- код економічного району (rn);
- страти для економічних районів (strt_rn);
- код територіальних одиниць вибірки для України (psu_ua);
- код територіальних одиниць вибірки для регіонів (psu_rg);
- код територіальних одиниць вибірки для економічних районів (psu_rn).
Слід зауважити, що імена змінних є довільними, але їх необхідно задавати з використанням латинського шрифту (при цьому мітки змінних можуть задаватися з використанням кирилиці), оскільки програмний пакет "WesVarPC", який використовується для розрахунку похибки вибірки, символи кирилиці ідентифікує як помилку.
2.2. Вихідна інформація
Вихідною інформацією є файл *.lst ("*" - ім'я файла "SPSS" з вхідною інформацією, якщо не задати іншого імені), який є результатом роботи програми "WesVarPC" і містить результати розрахунків. Структуру файла наведено у додатку 1.
На початку файла міститься інформація про програму, дату розрахунку, місцезнаходження вхідної та вихідної інформації та загальні параметри для розрахунку. Далі послідовно ідуть результати розрахунків для замовлених таблиць.
Перші стовпчики результатів розрахунку (один для одномірних таблиць, два - для двомірних і т.д.) містять значення класифікаційних змінних, по яких було побудовано комірки таблиць. Графи "STATISTIC" та "EST_TYPE" містять інформацію про характер та тип оцінки. У графі "ESTIMATE" наведено оцінку показника. Графи "STDERROR" та "CV" містять стандартну похибку та коефіцієнт варіації (відносну стандартну похибку) оцінки. Графа "N" містить дані про кількість одиниць вибірки у групі, для якої розраховується оцінка показника. Графа "DEFF" містить оцінку величини дизайн-ефекту.
3. Порядок побудови додаткових змінних
Змінні strt_ua,strt_rg,strt_rn,psu_ua,psu_rg,psu_rn будуються окремо для кожного дизайну вибірки та для конкретного методу розрахунку похибки вибірки.
3.1. Побудова змінної strt_ua
Змінна strt_ua - страти для України по регіонах та по типах місцевості, приймає значення, які наведено у додатку 2.
3.2. Побудова змінної strt_rg
У межах кожного регіону будується своя система страт з нумерацією від 1 до S. Для цього:
а) всі ВТОВ по міських поселеннях і ПТОВ по сільській місцевості в межах регіону розташовуються в порядку зростання номерів;
б) кожні дві ВТОВ по міських поселеннях або ПТОВ по сільській місцевості, починаючи з першої у ранжованому ряді, зараховуються до окремої страти. За необхідністю декілька територіальних одиниць можуть об'єднуватись в один кластер. Страти, побудовані для міських поселень, не можуть включати територіальних одиниць сільської місцевості, а страти сільської місцевості - територіальних одиниць міських поселень.
в) страти нумеруються у порядку зростання номерів - 1, 2, 3, ...,S.
Якщо кількість ПТОВ непарна, то окрему ПТОВ умовно можна розділити на дві. Значення змінної strt_rg для всіх регіонів України та номери ПТОВ, які входять до кожного шару, наведені у додатку 3.
3.3. Побудова змінної psu_ua
У межах кожної страти для України (strt_ua) ПТОВ розташовуються у порядку зростання номерів. Для першої по порядку ПТОВ змінна psu_ua приймає значення 1, для другої - 2.
3.4. Побудова змінної psu_rg
У межах кожної страти для регіонів (strt_rg) ПТОВ розташовуються у порядку зростання номерів. Для першої по порядку ПТОВ змінна psu_rg приймає значення 1, для другої - 2.
Інструктивні матеріали розрахунку характеристик надійності оцінювання показників за допомогою програми "WesVarPC" наведено у додатку 4.
4. Розрахунок граничної похибки вибірки
Гранична похибка вибірки для оцінок показників за результатами ОЕАН розраховується за 95% рівнем довірчої імовірності (p = 0,95, див. табл. 1) за формулою:
LSE = 1,96 x SE (12)
Довірчі межі інтервальної оцінки визначаються за формулою (6).
5. Розрахунок середньоквадратичної похибки
Поточні оцінки показників (місячні, квартальні, річні), розраховані за результатами ОЕАН для певних територій (національний рівень, регіональний рівень), є незміщеними. Таким чином, величина середньоквадратичної похибки дорівнює величині дисперсії вибіркових оцінок показників, величина загальної похибки - величині стандартній похибці, а величина відносної загальної похибки - величині коефіцієнта варіації.
За умови використання оцінок показників за результатами ОЕАН як зміщених оцінок (наприклад, для отримання поточних оцінок за певний період часу використовуються дані інших періодів, а оцінок по певних територіях - інформація по інших територіях) або складних зміщених оціночних функцій, величина середньоквадратичної похибки та всіх похідних від неї визначається за формулами (8) - (10). При цьому для кожної оцінки необхідно визначити величину зміщення B, що є у більшості випадків серйозною статистичною проблемою. Розгляд методів оцінки зміщень виходить за межі даної методики.
6. Приклад розрахунку
Розглянемо приклад розрахунку характеристик надійності
оцінювання загальної кількості зайнятих за результатами ОЕАН у
I кварталі 2006 року по Чернівецькій області. У цьому кварталі в
обстеженні взяли участь 2461 осіб віком 15-70 років, з яких 1707
осіб були визначені як зайняті. Пряма оцінка кількості зайнятих у
віці 15-70 років у генеральній сукупності (побудована з
урахуванням системи статистичних ваг осіб) дорівнює 348 886 осіб.
Для визначення характеристик надійності прямої оцінки на
основі реплікаційного методу BRR побудовано дев'ять страт, в
кожній з яких виділено по два кластери (див. додаток 3).
За принципами побудови збалансованих реплікацій сформовано
матрицю Адамара, яка має наступний вигляд (матриця побудована в
програмному пакеті "WesVarPC"):
Таблиця 3
Система
реплікацій для вибірки, яка складається з 9 страт
------------------------------------------------------------------
| Реплікація, | Страта, h |
| t | |
|-------------+--------------------------------------------------|
| | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
|-------------+-----+-----+-----+-----+-----+-----+----+----+----|
| 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
|-------------+-----+-----+-----+-----+-----+-----+----+----+----|
| 2 | -1 | 1 | -1 | 1 | 1 | 1 |-1 |-1 |-1 |
|-------------+-----+-----+-----+-----+-----+-----+----+----+----|
| 3 | -1 | -1 | 1 | -1 | 1 | 1 | 1 |-1 |-1 |
|-------------+-----+-----+-----+-----+-----+-----+----+----+----|
| 4 | 1 | -1 | -1 | 1 | -1 | 1 | 1 | 1 |-1 |
|-------------+-----+-----+-----+-----+-----+-----+----+----+----|
| 5 | -1 | 1 | -1 | -1 | 1 | -1 | 1 | 1 | 1 |
|-------------+-----+-----+-----+-----+-----+-----+----+----+----|
| 6 | -1 | -1 | 1 | -1 | -1 | 1 |-1 | 1 | 1 |
|-------------+-----+-----+-----+-----+-----+-----+----+----+----|
| 7 | -1 | -1 | -1 | 1 | -1 | -1 | 1 |-1 | 1 |
|-------------+-----+-----+-----+-----+-----+-----+----+----+----|
| 8 | 1 | -1 | -1 | -1 | 1 | -1 |-1 | 1 |-1 |
|-------------+-----+-----+-----+-----+-----+-----+----+----+----|
| 9 | 1 | 1 | -1 | -1 | -1 | 1 |-1 |-1 | 1 |
|-------------+-----+-----+-----+-----+-----+-----+----+----+----|
| 10 | 1 | 1 | 1 | -1 | -1 | -1 | 1 |-1 |-1 |
|-------------+-----+-----+-----+-----+-----+-----+----+----+----|
| 11 | -1 | 1 | 1 | 1 | -1 | -1 |-1 | 1 |-1 |
|-------------+-----+-----+-----+-----+-----+-----+----+----+----|
| 12 | 1 | -1 | 1 | 1 | 1 | -1 |-1 |-1 | 1 |
------------------------------------------------------------------
Системи статистичних ваг одиниць, що відповідають повній
вибірці та реплікаціям за стратами, представлено на рис. 2
Оцінки кількості зайнятих та квадрату різниці прямої та
реплікаційних оцінок для кожної реплікації наведені у табл. 4 (тут
і далі для спрощення сприйняття, результати наводяться після
округлення до двох знаків після коми).
Рис. 2. Розподіл статистичних ваг осіб за стратами,
побудованими для реалізації процедури BRR при розрахунку
характеристик надійності оцінювання кількості зайнятих у віці
15-70 років по Чернівецькій області за результатами ОЕАН у
I кварталі 2006 року: а - ваги дизайну; б - ї - реплікаційні ваги.
Таблиця 4
Оцінки кількості зайнятих у віці 15-70 років за реплікаціями,
побудованими для визначення характеристик надійності цього
показника по Чернівецькій області
------------------------------------------------------------------
| | ^ | ^ ^ 2 |
| Номер реплікації, t | ТЭТА , |(ТЭТА - ТЭТА) |
| | t | t |
| | тис. осіб | |
|----------------------------+------------------+----------------|
| 1 | 354,92 | 36,36 |
|----------------------------+------------------+----------------|
| 2 | 367,42 | 343,36 |
|----------------------------+------------------+----------------|
| 3 | 347,67 | 1,49 |
|----------------------------+------------------+----------------|
| 4 | 336,59 | 151,29 |
|----------------------------+------------------+----------------|
| 5 | 349,27 | 0,14 |
|----------------------------+------------------+----------------|
| 6 | 376,46 | 760,10 |
|----------------------------+------------------+----------------|
| 7 | 300,21 | 2369,74 |
|----------------------------+------------------+----------------|
| 8 | 383,83 | 1220,80 |
|----------------------------+------------------+----------------|
| 9 | 357,77 | 78,85 |
|----------------------------+------------------+----------------|
| 10 | 310,47 | 1476,10 |
|----------------------------+------------------+----------------|
| 11 | 348,91 | 0,00 |
|----------------------------+------------------+----------------|
| 12 | 353,11 | 17,81 |
|----------------------------------------------------------------|