construcţia Şi utilizarea coeficientului de greutate

14
ACADEMIA DE STUDII ECONOMICE,BUCUREŞTI MASTER STATISTICĂ ŞI PREVIZIUNE ECONOMICĂ Construcţia şi Utilizarea Coeficientului de Greutate Student:Clonda Alexandra Materie:Tehnici speciale în anchete şi sondaje Master Statistică şi Previziune Economică,An I

Upload: cllndalexandra

Post on 26-Sep-2015

269 views

Category:

Documents


0 download

DESCRIPTION

Sampling Weight

TRANSCRIPT

  • ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC

    Construcia i Utilizarea Coeficientului de Greutate

    Student:Clonda Alexandra

    Materie:Tehnici speciale n anchete i sondaje

    Master Statistic i Previziune Economic,An I

  • ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC

    2

    Cuprins

    I. Introducere ............................................................................................................................................ 3

    1. Nevoia greutilor n eantion ........................................................................................................... 3

    2. Greutatea ca fiind cea mai bun alternativ! ..................................................................................... 3

    II. Dezvoltarea greutilor ntr-un studiu ................................................................................................... 4

    1. Greutatea de baz .............................................................................................................................. 4

    2. Compensarea greutilor de selecie inegale ..................................................................................... 4

    3. Ajustarea greutilor eantionului pentru eligibilitate necunoscut .................................................. 5

    4. Ajustarea greutilor eantionului pentru non-rspunsuri ................................................................. 5

    4.1 Reducerea non-rspunsurilor care influeneaz cercetarea ....................................................... 5

    4.2 Compensarea deplasrii non-rspunsurilor ............................................................................... 5

    4.3 Ajustarea greutilor non-rspunsurilor n eantion .................................................................. 6

    5. Ajustarea greutilor eantionului pentru duplicri ........................................................................... 6

    6. Ajustarea greutilor eantionului pentru non-acoperite ................................................................... 7

    6.1 Compensarea pentru non-acoperirile sondajului ....................................................................... 7

    III. Utilizarea greutilor n anchete folosind metoda RDD(Random digit dialing) ............................... 7

    IV. Utilizarea greutilor n eantion ca nlocuitoare a variabilelor de proiectare .................................. 8

    V. Exemple/Studii privind construcia i utilizarea coeficientului de greutate .......................................... 8

    1. Dezvoltarea greutii de baz ............................................................................................................ 8

    2. Ponderea pentru probabilitati de selectie inegale .............................................................................. 8

    3. Ajustarea greutatilor esantionului pentru non-rspunsuri ............................................................... 10

    4. Ajustarea greutatilor esantionului pentru non-acoperite ................................................................. 11

    Concluzii ..................................................................................................................................................... 13

    BIBLIOGRAFIE ......................................................................................................................................... 14

  • ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC

    3

    I. Introducere

    n lucrare se vor prezenta diferite etape/stagii pentru construirea i utilizarea greutilor n

    analiza datelor de sondaj. Se va discuta n special de ajustarea greutilor pentru compensarea

    non-acoperitelor,non-rspunsurilor i duplicatelor dar i utilizarea greutilor vzut n viziunea

    lui Rubin, i totodat utilitatea acestora ntr-un studiu unde se folosete metoda RDD.

    1. Nevoia greutilor n eantion

    Greutile n eantion sunt folosite pentru a corecta imperfeciunile din eantion care ar putea

    duce la influene i alte tendine/abateri ntre eantion i populaia de referin. Astfel de

    imperfeciuni cuprinde selectarea unitilor cu probabiliti inegale, non-acoperirea populaiei i

    a non-rspunsurilor. Cu alte cuvinte, scopurile ponderrii sunt urmtoarele:

    Pentru compensarea greutilor inegale;

    Pentru compensarea (unitilor) non-raspunsurilor;

    Pentru ajustarea distribuiei ponderii eantionului pentru variabilele cheie de interes (spre

    exemplu: vrsta, sex, etc) pentru a putea fi conform unei distribuii normale a populaiei.

    Odat ce imperfeciunile din eantion sunt compensate prin anumite proceduri specifice

    (ajustri), greutile pot fi utilizate n estimarea caracteristicilor de interes ale populaiei i,

    deasemenea, estimarea erorilor de eantionare n estimrile sondajului generat.

    2. Greutatea ca fiind cea mai bun alternativ!

    Exist situaii n care utilizarea greutilor reprezint strategia optim n conformitate cu studiul

    ales. S-au selectat trei exemple unde greutatea a fost metoda cea mai bun:

    Exemplu 1: Predicia Bayensian a mediei populaiei finite dintr-un eantion stratificat

    disproporional- Binder ( 1982),Little (1989);

    Exemplu 2: Estimarea greutii maxime a probabilitilor Bernouilli dintr-un eantion

    postratificat-Alexander (1987);

    Exemplu 3: Estimarea greutii maxime din tranziia lanului Markov ntr-un eantion;

  • ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC

    4

    II. Dezvoltarea greutilor ntr-un studiu

    1. Greutatea de baz

    Dezvoltarea greutii eantionului ncepe odat cu construcia greutii de baz pentru fiecare

    unitate a eantionului, pentru corectarea probabilitilor inegale de selecie . n general, greutatea

    de baz a fiecrei uniti eantionate este inversul probabilitii sale de selecie din eantion. n

    notaia matematic, dac o unitate este cuprins n eantion cu o probabilitate Pi , atunci

    ponderea de baz , notate cu wi, este calculat dup urmtoarea formul:

    Pentru proiectarea multi-fazial (postratificare), greutile de baz trebuie s reflecte

    probabilitile de selecie a fieacarei faze (postratificare). n cazul a dou etape a proiectrii n

    care i uniti selectate au o probabilitate pi n prima etap, i j uniti sunt selectate cu o

    probabilitate pi(j) n a dou etap, atunci probabilitatea de selecie a fiecrei uniti n eantion

    este dat de:

    iar ponderea de baz total este obinut ca mai nainte, prin luarea reciprocei ponderii total de

    selecie .n cazul n care ponderea de baz pentru j este wij.b , ponderea atribuit pentru

    compensarea non-rspunsurilor este wij.nr i ponderea atribuit pentru compensarea non-

    acoperitelor este wij.nc, atunci ponderea total se calculeaz:

    2. Compensarea greutilor de selecie inegale

    n general, sondajul stratificat i sondajul multi-fazial sunt sondaje n cadrul crora subiecii din

    baza de sondaj nu au aceai probabilitate de a fi selecionai.

    n Exemple/Studii privind construcia i utilizarea coeficientului de greutate avem prezentat un

    caz (/exemplu) pentru ponderea probabilitilor inegale.

  • ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC

    5

    3. Ajustarea greutilor eantionului pentru eligibilitate necunoscut

    Pentru ajustarea greutii eantionului pentru eligibilitate necunoscut respondenii pot fi

    mprii:

    Respondeni eligibili : grup ce conine toate unitile eligibile ale eantionului care au

    participat la studiului, i anume cele care au oferit date utile studiului;

    Respondei neeligibili: grup ce conine uniti neeligibile studiului (de ex. Persoane

    mutate n strintate n cazul unui sondaj ce se insist pe studiul naional);

    Non-Respondeni eligibili : grup ce conine toate unitile eligibile ale eantionului care

    nu au oferit date utile studiului, ns informaiile furnizate au dovedit a fi eligibile.

    Respondeni cu eligibilitate necunoscut: grup ce conine uniti ale eantionului a cror

    eligibilitate nu a putut fi stabilit.

    Respondenii cu eligibilitate necunoscut este categoria/ grupul din studiu care se utilizeaz n

    toate modalitile de anchet.

    4. Ajustarea greutilor eantionului pentru non-rspunsuri

    4.1 Reducerea non-rspunsurilor care influeneaz cercetarea

    Dimensiunea non-rspunsurilor (vzut ca medie a eantionului) este activitatea a doi factori

    importani: proporia populaiei care nu rspunde i dimensiunea diferenei n media populaiei

    (ntre respondent i non respondent). Pentru influena datorat non-rspunsurilor este necesar o

    rat mic a non-rspunsurilor sau diferene mici ntre cei care rspund i cei cei care nu rspund.

    Pentru un studiu ( unde datele sunt colectate din acelai tablou de eantionare n mod repetat de-a

    lungul timpului), proiectantul studiului are acces la mai multe date pentru a studia i ajusta

    efectele potenialelor non-rspunsuri dect ntr-o anchet transversal.

    4.2 Compensarea deplasrii non-rspunsurilor

    ntr-un studiu sunt folosite un numr de metode/tehnici de reducere a potenialelor non-

    rspunsuri. Exist trei metode de baz pentru compensarea non-rspunsurilor: prima este

    reprezentat de ajustarea greutii non-rspunsurilor; a doua este reprezentat de crearea unui

  • ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC

    6

    eantion de dimensiuni mai mari dect este necesar , crend un eantion de rezerv pentru a

    nlocui n cazul prezenei mari a non-rspunsurilor; a treia metod este reprezentat de procesul

    de nlocuire a non-rspunsurilor studiului cu un alt studiu n care nu exist non-rspunsuri

    multiple n eantion.

    ntr-un studiu, o unitate de non-rspuns utilizeaz ajustarea greutii pentru a justifica non-

    rspunsurile.

    4.3 Ajustarea greutilor non-rspunsurilor n eantion

    Ajustarea greutilor transfer greutatea de baz a tuturor unitilor de non-rspunsuri eligibile n

    rspunsuri eligibile, i aceast metod este implementat parcurgnd urmtorii pai:

    Pas 1: Aplicarea greutilor iniiale (pentru probabilitile inegale i ajustate a unitilor selectate

    pentru eligibilitate necunoscut);

    Pas 2: Se parioneaz eantionul n sub-eantioane i se calculeaz greutatea de rspuns a

    fiecrui sub-eantion;

    Pas 3: Utilizarea inversului greutii de rspuns a sub-eantionului pentru non-rspunsuri

    ajustate;

    Pas 4: Calcularea greutii ajustate a non-rspunsurilor pentru i uniti:

    unde w1i este greutatea iniial i w2i este greutatea ajustat a non-rspunsurilor. Rata de non-

    rspunsuri poate fi definit ca raie a ponderii numrului de rspunsuri completate cu cazuri

    eligibile incluse n eantion la numrul ponderat de cazuri eligibile din eantion.

    5. Ajustarea greutilor eantionului pentru duplicri

    Dac se recunosc anumite uniti a fi duplicate, atunci se poate crete probabilitatea de selecie a

    acestor uniti care pot fi compensate prin factorii de greutate fiind reciproci cu numrul

    unitilor duplicate n cazul n care astfel de uniti ajung n eantion. De cele mai multe ori,

    duplicatele sunt descoperite dup selectarea eantionului, unde greutile de selecie a acestor

    uniti duplicate trebuie s fie ajustate pentru a fi luat n considerare duplicarea. Aceast

    ajustare este implementat n urmtorul mod: avem i uniti n eantion cu o probabilitate de

    selecie , notat cu pi1, i k-1 nregistrri suplimentare n eantion care sunt identificate ca fiind

    uniti duplicate ale eantionului, fiecare cu o probabilitate de selecie pi2,pik. Atunci ajustarea

    probabilitii de selecie a unitilor eantionului este dat de:

  • ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC

    7

    )

    unde unitatea eantionului este n concordan cu greutatea, fiind egal cu 1/pi.

    6. Ajustarea greutilor eantionului pentru non-acoperite

    Non-acoperitele sunt uniti ale eantionului care nu au probabilitate de selecie n eantionul

    selectat, reprezentnd eecul n atingerea scopurilor cercetrii. Non-acoperitele sunt vzute ca

    fiind deficiene de eantionare ntr-un studiu.

    6.1 Compensarea pentru non-acoperirile sondajului

    Exist mai multe proceduri de compensare a non-acoperitelor:

    Pas 1: mbuntirea procedurilor de culegere a datelor pentru studiu( cum ar fi utilizarea mai

    multor eantioane sau proceduri de listare mbuntite);

    Pas 2: Compensarea non-acoperitelor prin ajustarea greutilor.

    III. Utilizarea greutilor n anchete folosind metoda RDD(Random digit

    dialing)

    Calcularea greutilor eantionului obinut prin metoda RDD const n 5 pai de baz:

    Pas 1: Calcularea greutii de baz ca fiind inversul probabilitii de selecie a numrului de

    telefon folosit la ntmplare;

    Pas 2: Aplicarea ajustrii care ine cont de nivelul de non-rspunsuri n timpul convorbirilor;

    Pas 3: Aplicarea unei ajustri pentru linii telefonice multiple ca fiind reciproca numerelor

    obinuite rezideniale folosite n studiu;

    Pas 4: Aplicarea unei ajustri pentru corectarea non-rspunsurilor la nivel de studiu.

    n concluzie, greutile eantioului create prin metoda RDD sunt obinute ca fiind produsul ntre

    greutatea de baz i diverse ajustri aplicate la greutile de baz.

  • ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC

    8

    IV. Utilizarea greutilor n eantion ca nlocuitoare a variabilelor de

    proiectare

    n studiile de cercetare ,Rubin (1985) propune s utilizeze vectorul ca fiind nlocuitoare a unui

    set de variabile de proiectare n situaia n care informaiile disponibile din variabilele de

    proiectare nu sunt suficiente pentru a asigura condiiile de ignorabilitate sau cnd se modeleaz

    distribuia variabilelor de rspuns, date de variabilele de proiectare. Notm cu Z matricea

    valorilor variabilelor de proiectare. Rubin definete coloana vectorului a = (a1...aN) = a(Z) ca

    fiind rezumatul corespunztor al lui Z dac probabilitatea P(I|Z)=P(I|a) , unde I reprezint

    variabila indicator al eantionului care arat c probabilitatea de incluziune a vectorului

    (motiv predicionat n terminologia autorului) este rezumatul posibil adecvat iaspru a lui Z.

    n cazul n care este sumarul adecvat lui Z , P(Y|YS,) astfel nct dat al proiectrii

    eantionului este ignorabil specific distribuiei Y , reprezentnd tot ce este necesar pentru

    validarea inferenelor.

    Abordarea cercettorului Rubin ofer o metod de principiu pentru ncorporarea greutilor, ns

    necesit cunotine de incluziune a tuturor uniilor populaiei, ci nu doar simple uniti.Aa cum

    ilustreaz Rubin (1985) i Sugden&Smith (1984), vectorul poate fi prea aspru , i prin

    urmare s nu fie un rezumat adecvat.

    V. Exemple/Studii privind construcia i utilizarea coeficientului de

    greutate

    1. Dezvoltarea greutii de baz

    Se selecteaz o unitate din eantion cu o probabilitate 1/50 reprezentnd 50 uniti din populaie

    (din care a fost extras eantionul). Astfel, ponderea eantionului acioneaz ca factor de inflaie

    pentru a reprezenta numrul de uniti din populaia studiat ,luate n considerare de ctre

    unitatea din eantion la care este atribuit greutatea. Suma greutilor eantionului ofer o

    estimare a numrului total de indivizi n populaia int.

    2. Ponderea pentru probabilitati de selectie inegale

    Se selecteaz aleator 5 gospodarii din 250. Fiecare adult este selectat aleator ca unitate de a

    gospodrie.Venitul lunar (yij) i nivelul de educaie (zij=1, dac nivelul este superior sau

  • ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC

    9

    secundar; 0 dac sunt celelalte) a unitii de eantion j (adult) n i gospodrii nregistrate. Notm

    Mi numrul de aduli din gospodrii i. Atunci probabilitatea de selecie este urmatoarea:

    Astfel, greutatea unitii de eantionare este dat de:

    S presupunem c n prima etap, eantionul (cele 5 gospodrii) au urmtoarele date obinute:

    Gospodrie Mi wi yij zij wi*yij wi*zij wi*zij*yij

    1 3 150 70 1 10500 150 10500

    2 1 50 30 0 1500 0 0

    3 3 150 90 1 13500 150 13500

    4 5 250 50 1 12500 250 12500

    5 4 200 60 0 12000 0 0

    TOTAL 16 800 300 3 50000 550 36500

    Poti fi estimate caracteristici dup tabelul de mai sus:

    1. Estimarea venitului lunar:

    Dac ponderile nu sunt folosite , estimarea poate fi 60 (300/5).

    2. Estimarea proporiei persoanelor cu nivel de educaie secundar sau superior este:

    Daca ponderile nu sunt folosite, atunci estimarea poate fi 3/5 sau 0.60 (60%).

    3. Estimarea numarului total de populatie cu nivel de educaie superior sau secundar este:

    4. Estimarea venitului mediu lunar a unui adult cu nivel superior sau secundar este

  • ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC

    10

    Pentru estimarea total, unitile eantionrii trebuie ponderate cu inversul probabilitilor de

    selecie. Pentru estimarea mediilor i proporilor, ponderea trebuie s fie proporional cu

    inversul probabilitii de selecie. Astfel ponderea wis este proporia lui Mi (wi=50*Mi). Dac

    Mi este folosit ca pondere, atunci estimarea proporiilor pentru nivelul de educaie secundar i

    superior este:

    Estimarea total a numrului de aduli cu nivel de educaie superior sau secundar este:

    3. Ajustarea greutilor eantionului pentru non-rspunsuri

    Avem un eantion multi-fazic compus din 1000 de gospodrii selectate din 2 regiuni (Nordul i Sudul

    tarii).Gospodriile din Nord sunt eantionate cu o rat de 1/100 i cele din Sud cu o rat de 1/200.Rata de

    rspuns n zonele urbane sunt mai mici dect n zonele rurale. S notam nh numrul de gospodrii din

    stratul h, rh numrul gospodriilor eligibile care au rspuns la studiu(anchet), si th notm numrul

    respondeniilor din gospodrii care dispuns/ au acces de/la asisten medical. Atunci greutatea non-

    rspunsurilor pentru gospodria din stratul h este dat de urmatoarea expresie:

    unde .

    S presupunem c avem urmtoarele date despre straturi:

    Strat nh rh th w1h w2h wh wh*rh wh*th

    Nord-Urban 100 80 70 100 1.25 125 10000 8750

    Nord-Rural 300 120 100 100 2.5 250 30000 25000

    Sud-Urban 200 170 150 200 1.18 236 40120 35400

    Sud-Rural 400 360 180 200 1.11 222 79920 39960

    TOTAL 1000 730 500 160040 109110

  • ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC

    11

    Astfel estimarea proporiei gospodriilor care au acces la asisten medical este:

    Numrul estimat de gospodrii care au acces este:

    Estimarea proporiei neponderate a gospodriilor cu acces la asisten medical,folosind doar datele

    respondenilor este:

    i estimarea proporiei folosind greutile iniiale fra ajustarea non-rspunsurilor este:

    Scopul exemplului este de a ilustra cum greutle iniiale sunt ajustate pentru compensarea non-

    rspunsurilor. Rezultatele arat o diferen considerabil ntre proporia estimat folosind greutile

    iniiale comparativ cu greutile ajustate pentru non-rspunsuri, nsa diferena ntre procentul proporiei

    nepondenderate (fr greutate) i proporia ajustat a non-rspunsurilor pare a fi nesimnificativ.

    4. Ajustarea greutilor eantionului pentru non-acoperite

    S presupunem c avem un numr de gospodrii care se tiu: 45,025 n Nord i 115,800 n Sud.

    Presupunem c greutatea eantionului total este 40,000 i respectiv 120,040.

    Pas 1: Calcularea factorilor de postratificare:

    -Pentru regiunea de Nord:

    -Pentru regiunea de Sud:

    Pas 2: Calculm greutatea ajustat:

  • ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC

    12

    Rezultatele se gsesc n urmatorul tabel:

    Strat rh th wh wf wf*rh wf*th

    Nord-Urban 80 70 125 140.75 11260 9852.5

    Nord-Rural 120 100 250 281.4 33768 28140

    Sud-Urban 170 150 236 227.77 38720.9 34165.5

    Sud-Rural 360 180 222 214.2 77112 38556

    TOTAL 730 500 160860.9 110714

    Atunci proporia gospodriilor care au acces la asisten medical este:

    Cu greutile ajustate prin post-stratificare ,greutile eantionului numrate pentru regiunile Nord i Sud

    sunt 45,028(11,260+33,768) i respectiv 115,833 (38,721+77,112).

  • ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC

    13

    Concluzii

    Greutile de eantionare sunt considerate ca o parte integrant n analiza unui sondaj n rile n

    curs de dezvoltare. Multe programe susin faptul c utilizarea greutilor chiar i n situaii rare

    implic auto-ponderare (n cazul n care ponderile sunt 1).

    Utilizarea greutilor reduc deplasrile din cauza imperfeciunilor din eantion (non-rspunsuri i

    non-acoperite).Non-rspunsurile i non-acoperitele sunt tipuri diferite de erori care datoreaz

    eec unei anchete proiectat pentru a obine informaii de la o populaie int. Pentru studiile

    gospodriilor din rile n curs de dezvoltare, non-acoperitele sunt o problem serioas

    comparativ cu non-raspnsurile.

    n lucrare sunt prezentate modaliti de compensare a acestor probleme inevitabile ale unui

    sondaj/ studiu, precum i utilizarea greutilor de ajustare n estimarea parametrilor de interes.

  • ACADEMIA DE STUDII ECONOMICE,BUCURETI MASTER STATISTIC I PREVIZIUNE ECONOMIC

    14

    BIBLIOGRAFIE

    [1] Ibrahim S. Yansaneh, Construction and use of sample weights, UNITED NATIONS

    SECRETARIAT Statistics Division,2003

    [2] David Pfeffermann, The Role of Sampling Weights When Modeling Survey Data,

    International Statistical Review,Vol.61,pp-317-337,1993

    [3] Use of Sampling Weights with IHIS

    *** https://www.ihis.us/ihis/userNotes_weights.shtml

    [4] Appendix C, Sample Weighting

    ***www.va.gov/VETDATA/.../SurveysAndStudies/SAMPLE_WEIGHT.pdf

    [5] Boudreau C., Construction and Use of Sampling Weights for the International Tobacco

    Control (ITC) Netherlands Survey,University of Waterloo,2010

    [6] Aviv Nevo, Using Weights to Adjust for Sample Selection When Auxiliary Information Is

    Available, University of California, Berkeley and the National Bureau of Economic Research

    [7] United Nations. Statistical Division,Designing Household Survey Samples: Practical

    Guidelines,Chapter 6,2008