proaktiv datainsamling med mått som beskriver .../menu/standard... · proaktiv datainsamling med...
TRANSCRIPT
Proaktiv datainsamling
med mått som beskriver
svarsmängdens kvalitet
SUREC-kurs, Stockholms universitet, 20/4-2015
Peter Lundquist och Carl-Erik Särndal
SCB och Stockholms universitet
1
Version 2015-04-18 PL
Disposition: Kurs
1. Surveybakgrund
Allmänt om bortfall, hjälpvariabler och deras roll
2. Datainsamling och Estimation
Datainsamling som tidsberoende process, begreppet
obalans, estimationsfasen
3. Proaktiv (monitored) datainsamling
Kontroll och ingrepp i datainsamlingen, experiment,
empiriska och teoretiska resultat
4. Avslutande kommentarer
2
Surveybakgrund
1. Allmänt om bortfall i survey undersökningar
2. Hjälpvariablerna och deras roll
3. Exempel
3
Debatt nyligen om bortfall,
med början i DN 2015-01-18
Några inslag:
• ”SCB slår larm om bortfall” : Rubrik in DN 2015-01-18
• Privata surveyinstitut (Inizio, Novus) medverkar; DN
2015-01-28
• Projektledaren för SCB:s bortfallsprojekt intervjuad,
Sveriges Radio c:a 2015-02-15; målet: Komma
tillbaks till 70- o 80-talens bortfallsnivåer
• SCB:s metodexperter förklarar ”hur SCB gör” SvD
2015-03-03
4
Debatten nyligen om bortfall, med början i
DN 2015-01-18
5
Bakgrund till vår kurs
Höga krav på svarsandelen från kunder/användare
• Det är kostsamt för SCB att öka svarsandelen.
(Effektivisering och bättre kontroll av datainsamlingen
behövs; Responsive design.)
• Viktigt att öka kunskapen om och inse nyttan av
indikatorer som bättre beskriver resultatet av
datainsamlingen än bara (vägd eller ovägd) svarsandel.
(Risk för bias i skattningarna av målvariablerna.)
• Studier på AKU, HEK och ULF väcker frågor kring
dagens datainsamlingsstrategier.
(Indikatorer har signalerat att vi behöver förbättra
rutinerna för datainsamlingen)
6
Typ av undersökning
Individundersökningar
• Metodiken som vi ska beskriva är tillämpad främst
på individundersökningar, men går även att
använda på andra typer (företag, organisationer,
skolor osv.)
• Vi fokuserar på individundersökningar; det är för
sådana vi har gjort våra studier.
• Bortfallet är i regel betydligt högre – därmed ett
mer akut problem – i individundersökningar
7
8
Partiellt- eller objektsbortfall
X=observerade data, O=saknade data
Register variabler Målvariabler
Urvals-
enhet
1 2 1 2 3 4
1 X X X X X X
2 X X X X X O
3 X X X X O X
4 X X X O O X
5 X X X X X X
6 X X O O O O
partiellt
objekt
Med bortfall menar vi här objektsbortfall
Objektsbortfall
Urvalsenheten (individen) svarar inte på undersökningen.
Partiellt bortfall
Formuläret eller enkäten är ofullständigt besvarad, dvs.
svar saknas på en eller flera frågor.
I denna kurs: Bortfall = objektsbortfall.
Bortfall = data saknas eller kan inte hittas
9
Ett historiskt perspektiv
Klassiskt exempel på felprognos
• Landon mot Roosevelt
i USA:s presidentval 1936
• Literary Digest hade korrekt förutsett vinnaren i de fem
senaste valen, men här blev det fel
• 10M enkäter utskickade, 2.3M kom in
• Literary Digest läsare
• Register av bilägare och telefonabonnenter
10
Hansen-Hurwitz planen 1946
I första fasen används en billigare datainsamlings-
metod (t.ex. postenkät). Bland icke-svarande dras
sedan ett suburval, oftast med en dyrare
datainsamlingsmetod (intervjuarledd insamling).
Om det hela görs rätt och man lyckas få in svar av alla
i andra fasen kan en väntevärdesriktig estimator
konstrueras. (Svagheten givetvis: Att alla i andra
fasen svarar.)
Denna metod har inspirerat mycket av det som görs
idag. Den används i mixed-mode undersökningar och i
responsive design.
11
Bortfallets utveckling över tiden
12
19
70
19
77
19
84
19
88
20
05
0
5
10
15
20
25
30
1963 1970 1977 1984 1991 1998 2005 2012
%
År
Bortfallsandelar i AKU 1963-2013
Totalt Ej anträffad Avböjd medverkan Övrigt
13
Orsaker till bortfall
Några vanliga skäl:
• Man misslyckas med att hitta/identifiera urvalspersonen
• Man misslyckas med att få kontakt med urvalspersonen
• Urvalspersonen vägrar att svara
• Urvalspersonen är förhindrad att medverka (sjuk, bortrest etc.)
• Språkproblem
• Frågeformuläret går förlorat
Kan ni komma på något mer?
14
Beräkningar av svarsandelen
Svensk standard för bortfallsberäkningar *
Sedan 2005 finns en svensk standard för
bortfallsberäkningar.
Den har tagits fram av Svenska statistiker-
samfundets surveysektion i samarbete med
representanter från statistikansvariga myndigheter,
olika opinions- och marknadsundersökningsföretag
samt från universitetssektorn.
AAPOR: http://www.aapor.org/uploads/Standard_Definitions_07_08_Final.pdf
*Bortfallssnurran: http://www.statistikframjandet.se
15
n Urvalet
Datainsamling
nS
Svar
(S)
Komponenter i bortfallsberäkning
nB
Bortfall
(B)
nO
Okänd status
(O)
nØ
Övertäckning
(Ø)
nF
Fullständiga svar
(F)
nP
Partiella svar
(P)
Management/ planering
Metodik / design
IT / infrastruktur
Internt/ externt
varumärke
Samhälle
Denna grafik från ett projekt på SCB redovisar projektgruppens syn; ska betraktas som ett exempel på hur man kan systematisera synen på bortfall i den egna organisationen.
Bortfallsfaktorer enligt SCB
16
Vårt arbete en del i tårtan
• Vårt arbete är inriktat på metodik/design, främst för
att få en bra svarsmängd
• SCB har projekt (inom ramen för Bortfallsprojektet)
som riktar in sig på andra faktorer än de som vi tar
upp i den här kursen. (Andra tårtbitar)
17
18
Varför bortfall är skadligt
Varje objekt i urvalet har en känd urvalssannolikhet
Grunden för statistisk inferens är
uppfylld
Bortfall förstör detta!
Sannolikheten för ett objekt att ingå i den slutliga
svarsmängden är produkten av urvalssannolikheten och
sannolikheten att svara (som är okänd, om den existerar).
Stickprovet är troligen inte längre
representativt eller balanserat;
följden blir bias
Effekter av bortfall
Sämre precision
Skattningens precision blir sämre än planerat eftersom
färre observationer kommer in. Förebyggs genom att ta till
större urval från början.
Systematiskt fel (bortfallsbias)
Värre är att bortfallet kommer att ge en skev (biased)
skattning av undersökningsvariabeln om egenskapen att
svara är korrelerad med undersökningsvariabeln.
Vanligtvis många undersökningsvariabler, och bland dem
troligen både sådana som påverkas och sådana som inte
påverkas av bortfallet (se Groves 2006).
19
20
Meta-Analys av bortfallsstudier
• Ca 30 studier, några med flera olika skattningar
• Alla har y-data för hela stickprovet s
• Absolutvärdet av det skattade borfallsfelet (i procent) är
(r är svarsmängden från urvalet s )
Groves (2006) : Nonresponse Rates and Nonreponse Bias
s
sr
y
yy 100
21
0
10
20
30
40
50
60
70
0.0 20.0 40.0 60.0 80.0
Nonresponse Rate
Perc
en
tag
e A
bso
lute
Rela
tive B
ias o
f
Resp
on
den
t M
ean
Groves (2006) Nonresponse Rates and Nonreponse Bias
22
Groves’ slutsatser
• Bortfallsfel (bortfallsbias) förekommer!
• Svarsprocenten i sig är ingen bra indikator på
bortfallsfelet
• Utan studier av bortfallsfelet är det svårt att veta
om bortfallet är ett problem i en undersökning
Vi återkommer till dessa punkter under dagen.
Groves (2006) Nonresponse Rates and Nonreponse Bias
Bortfall – deterministisk syn
Bortfall
Svarande
Population
N objekt
NNR objekt
NR objekt
Populationen består av de som alltid svarar
och de som aldrig svarar.
En deterministisk syn som var vanlig när bortfallet
var ”litet”
23
Bortfallsfel - deterministisk
NRNR
RR
U yN
Ny
N
Ny
)()( NRRNR
R yyN
NyAvvikelse
Bortfallsfelet är alltså en funktion av bortfallsandelen och
skillnaden mellan de som alltid svarar och de som aldrig
svarar.
Notera: Populationsandelar
24
EXEMPEL
Antag att 72% alltid svarar:
Den genomsnittliga inkomsten för de som alltid svarar:
Den genomsnittliga inkomsten för de som aldrig svarar:
Bortfallsfel - deterministisk
202000Ry
8400)172000202000()72,01()( RyAvvikelse
72,0N
NR
172000NRy
Vi överskattar alltså inkomsten. Frågan är om 8400 SEK är mycket?
SEK
SEK
25
Bortfall som kvantifierad variabel
• För varje individ i stickprovet inträffar (och noteras)
antingen svar eller icke-svar (bortfall); för den förra
kategorin kan målvariabel-värdet 𝑦𝑘 också noteras.
• För varje individ är det vanligen i förväg okänt om svar
eller icke-svar ska bli fallet.
• Vi kvantifierar en svarsindikatorvariabel så här:
26
svarar inte individ om0
svarar individ om1
k
kIk
Informationen vi har att jobba med i bortfallssituationen
Svarsindikatorn 𝑰𝒌 : För varje individ i stickprovet
Målvariabeln 𝒚𝒌 : För varje svarande individ.
Hjälpinformationen 𝐱𝒌 : För varje individ i stickprovet
(ev. i hela populationen)
27
Bortfallsmekanism
En del bidrag till litteraturen baserar sig på en stokastisk
bortfallsmekanism, en som kan innehålla bl.a. en tänkt
bortfallssannolikhet för varje individ i populationen, eller
för varje individ i stickprovet (då kanske beroende på
stickprovet som hade råkat realiseras).
Vi använder inte bortfallsmekanismer eller bortfalls-
sannolikheter i denna kurs. De behövs inte för vår
framställning här.
28
29
Hantering av bortfall
(1) Minska risken: försöka designa undersökningen så att
bortfallet är lågt (kan vara dyrt och svårt), eller i varje
fall agera så att svarsmängden blir väl balanserad
(2) Använd modeller för att justera vikterna i
estimationen.
(3) Ignorera bortfallet (Låtsas som om det vore
slumpmässigt: Förkastligt beteende)
Vi fokuserar på (1) och är medvetna om att det finns massor av saker som kan behandlas i en kurs om bortfall, saker som görs inom bortfallsområdet men som vi inte tar upp. Som vi ska se finns en naturlig koppling i vårt arbete mellan (1) och (2).
Bortfallsreducerande åtgärder
• Belöningar
• Fler kontaktförsök
• Kortare intervju
• Byte av insamlingsmetod
• Byte av intervjuare
• Smartare utnyttjande av process- och registerdata
• Kontaktstrategier
• ...
OBS: Vi vet inte om en högre svarsandel är ”bättre”
ur synpunkten ”reducerat bortfallsfel”.
30
Återkontakter (intervjuarledda)
31
Alla “bra” undersökningar genomför mer än ett
kontaktförsök för att få svar från hittills ej anträffade
urvalspersoner. Analys av återkontakter kan ge
information om bortfallsfelet bland de kvarvarande
individerna I bortfallet.
En hel del arbete inom det här området har genomförts
på ESS (European Social Survey) *.
*Se t.ex. Stoop, Billiet, Koch, and Fitzgerald (2010)
Adaptiv/Responsive design
Två begrepp: responsive design är ett specialfall av adaptiv design (Schouten, Bethlehem & Cobben).
• Vilken av designerna man använder bestäms av valen i samband med planeringen av datainsamlingen.
• I båda fallen ges urvalsenheterna ”olika” behandling för att ”maximera svarskvaliteten” till en given kostnad.
• Metoderna är begränsade till behandlingar som är kontrollerbara och använder observerbara data.
32
Adaptiv/Responsive design
Synsättet bygger på att populationen (individerna, företagen
etc.) är heterogen i sitt svarsmönster och att kostnaderna att
få en intervju varierar mellan objekten i populationen.
Objekten föredrar också olika kommunikationssätt med
datainsamlingsavdelningen.
En adaptiv design tar hänsyn till detta genom att tillåta olika
kontaktstrategier för olika delgrupper i populationen. Genom
att använda hjälpinformation (register och processdata) under
datainsamlingen kan delgrupperna ges olika behandlingar.
33
Adaptiv/Responsive design
Detta betyder också att en adaptiv design använder
hjälpinformation för att justera dels svarsmängden under
insamlingsfasen, dels estimaten i den efterföljande
estimationsfasen. Notera att adaptiv design tar inte bort
behovet av omsorgsfull estimation efter avslutad
datainsamling; den är fortfarande nödvändig!
En viktig designfaktor är datainsamlingsmetoden. Idag, med
ökande bortfall och stigande kostnader, är en mixed-mode
design tänkbar för surveyorganisationen. Denna typ av
design är i regel att betrakta som adaptiv.
34
Adaptiv/Responsive design
Adaptiv design (medicin, Thompson & Seber)
• Behandlingarna är bestämda i förväg men kan också
uppdateras under datainsamlingen
• En statisk adaptiv design utnyttjar objektens egenskaper
(från RTB, IoF etc.) för att bestämma behandlingarna innan
datainsamlingen
• En dynamisk adaptiv design använder processdata (och ev.
register) för bestämma behandlingarna
• Har (i förväg) bestämda faser under datainsamlingen
• När en fas har uppnått det bestämda målet är fasen klar
och man byter till nästa fas eller avslutar insamlingen
35
Adaptiv/Responsive design
Responsive design (Groves & Heeringa 2006)
• Delar in datainsamlingen i minst två faser
• Identifierar lämpliga behandlingar under
datainsamlingens första fas (processdata utnyttjas)
• När en fas har uppnått ett bestämt mål är fasen klar,
och man byter till nästa fas eller avslutar insamlingen
Responsive design används då inte mycket är känt i förväg
om stickprovet eller behandlingarna. Efter första fasen liknar
detta upplägg en adaptiv design.
36
1.2 Bortfallssituationen,
de tillgängliga data,
speciellt hjälpvariablerna
37
Population (U)
Svarsmängd (r)
Urval (s)
Det här är vår situation : U s r
population urval svarsmängd
38
Viktiga termer och begrepp
i det som följer Målpopulationen 𝑈 = {1,… , 𝑘, … , 𝑁} består av N individer
(objekt) indexerade 𝑘 = 1, 2, … ,𝑁.
Ett sannolikhetsurval s dras från U så att individ k har den
kända inklusionssannolikheten 𝜋𝑘 = 𝑃 𝑘 ∈ 𝑠 > 0.
Om variabeln y är vår målvariabel så vill vi skatta
populationstotalen 𝑌 = 𝑦𝑘𝑈 .
Vi skriver Σ𝐴 för summan Σ𝑘∈𝐴 där A är en mängd
individer 𝐴 ⊆ 𝑈.
39
Sannolikhetsurval med lika urvalssannolikheter
(som t.ex. OSU = obundet slumpmässigt urval)
• N = storleken på populationen, U
• n = storleken på stickprovet s
• designvikt 𝑑𝑘 = 𝑁/𝑛 för alla objekt 𝑘 ϵ 𝑠
• m = storleken på svarsmängden r
Exempel
svarsandelen nmdIdPs ks kk //
40
Viktiga termer och begrepp
• Balanserad svarsmängd (definition)
• Svarsmängdens obalans (mätbar storhet)
• Representativitet hos svarsmängden (mätbar)
• Svarsintensitet (mätbart instrument för att
övervaka datainsamlingen)
Alla bygger på en hjälpvektor x kolumnvektorn: [Jx1]
känd för hela urvalet
41
Bortfall försvårar
teoretiska framsteg därför att
• Vi inte vet hur r genererades ifrån s
• Svarssannolikheter är okända
(om sådana överhuvudtaget anses existera)
• Väntevärdesriktig estimation omöjliggörs
• Vi inte kan anta att r är en slumpmässig delmängd
från s
• inte ens givet en x-vektor; det som kallas MAR
(Missing At Random)
• Situationen är alltid det som kallas NMAR
(Not Missing At Random)
För MAR och NMAR se t.ex. Little och Rubin (2002)
42
Variabler vi har till förfogande :
Målvariabel (en av flera): 𝑦𝑘 observerad för 𝑘 ∈ 𝑟
Hjälpvektor: 𝐱𝑘 känd alla 𝑘 ∈ 𝑠 (ev. alla 𝑘 ∈ 𝑈)
Svarsindikator: 𝐼𝑘 observerad för 𝑘 ∈ 𝑠
= sticksprovsmedeltalet för 𝑰𝒌
s kr ks ks kk dddIdP //Svarsandel:
43
Låt oss ta några exempel på hjälpvektorer.
Hjälpvariablerna är kontinuerliga eller kategoriska;
det senare är ofta fallet
Exempel 1:
x-vektor med fullständigt korsade grupper
Utbildning (hög/låg; 2 grupper) × äger fastighet (ja eller nej;
2 grupper) × födelseland (Sverige eller annat; 2 grupper)
Då blir x-vektorns dimension
J = 2 × 2 × 2 = 8
Och x-vektorn har precis 8 möjliga värden, för den enda
”ettan” i vektorn kan finnas på 8 möjliga ställen
𝐱𝑘 = (0, 0, … , 1, … , 0, 0)′
44
Exempel 2:
x-vektor med fullständigt korsade grupper
ålder (4 grupper) × kön (2 grupper) × region (5 grupper)
Då blir x-vektorns dimension
J = 4 × 2 × 5 = 40
Och x-vektorn har precis 40 möjliga värden, för den enda
”ettan” i vektorn kan finnas på 40 möjliga ställen
𝐱𝑘 = (0, 0, … , 1, … , 0, 0)′
45
Exempel 3: Lite krångligare med
icke-korsade egenskaper i x-vektorn
Educ (2) x Owner (2) x Origin (2) (dessa tre korsade)
Phone (2) ; Age (4) ; Civil (2) ; Gender (2)
𝐱 = ( 𝐸𝑑𝑢𝑐 × 𝑂𝑤𝑛𝑒𝑟 × 𝑂𝑟𝑖𝑔𝑖𝑛 + 𝑃ℎ𝑜𝑛𝑒 + 𝐴𝑔𝑒 + 𝐶𝑖𝑣𝑖𝑙 + 𝐺𝑒𝑛𝑑𝑒𝑟)
Age kodas med någon av (1,0,0) , (0,1,0), (0,0,1), (0,0,0)
Denna x-vektor har ”bara” dimension 14
J = (2 × 2 × 2) + 1 + 3 + 1 + 1 = 14
men den har 256 möjliga värden:
2 × 2 × 2 × 2 × 4 × 2 × 2 = 256
fast alla kanske inte finns representerade i ett datamaterial.
Det gör egentligen inget, bara matrisen (som vi kommer till)
kan inverteras. 46
Olika typer av hjälpvektorer
(vanligen kallade x-vektorer)
Monitoringvektorn ”övervakningsvektorn”
x-variablerna utvalda för balansering av datainsamlingen
Kalibreringsvektorn
x-variablerna utvalda för användande i estimationen
Hur vektorerna ser ut bestäms av valda strategier för
datainsamling och efterföljande estimation. Man kan
använda samma vektor i båda, men justeringar av
vektorn med hänsyn till datainsamlingen kan behövas.
47
48
Kalibrering
Kalibrerad viktning är numera att betrakta som
standard i viktiga SCB-undersökningar.
Tack vare att under de senaste två decennierna
vidareutvecklades ”den gamla metodkunskapen”,
med namn som ”poststratifiering” och ”raking ratio”,
enkla specialfall kända sedan 1940-talet.
Se vidare Lundström och Särndal (2005)
Hur väljer man en effektiv hjälpvektor?
Riktlinjer
främst för estimationen men även för datainsamlingen
(beroende på vilken datainsamlingsstrategi man väljer)
Hjälpvektorn ska :
1. Förklara ”benägenheten” att svara.
2. Förklara centrala målvariabler.
3. Identifiera de viktigaste redovisningsgrupperna.
Från Lundström och Särndal (2005)
49
Exempel: logit-modell för variabeln svar Parameter Parameterskattning Pr > ChiSq.
Intercept 0.22 0.0604
Ålder ≤ 24 0.86 <.0001
Ålder 35-64 -0.03 0.6812
Ålder 65-74 0.36 0.0025
Ålder ≥75 0.31 0.0172
Född i Sverige 0.25 0.0010
Kvinna 0.28 <.0001
Anställd 0.20 0.0113
Gift 0.34 <.0001
Storstad -0.31 <.0001
Ersättning (soc/stöd) -0.42 0.0060
Fastighet 0.22 0.0005
Hög utbildning 0.38 <.0001
50
ULF 2009
För estimationen : Stegvis selektion
med indikator
Ett verktyg för val av hjälpvariabler för
kalibreringsvektorn i estimationen :
där
Indikatorn 𝐻3 beror inte på 𝑦 (ofta en fördel)
Vi återkommer i nästa avsnitt till kalibreringsestimatorn.
Se t.ex. Särndal and Lundström (2010)
2/1
;
;
2/1
3 11
dr
ds
r k
r kk
s k
s kk
m
m
d
md
d
mdH
kr kkks kkk ddm xxxx1)()(
51
Steg Inkluderad variabel H310
3
0 (trivial) 0
1 TELEPHONE (2) 211
2 COUNTRY OF BIRTH (2) 227
3 SOCIAL ALLOWANCE (2) 240
4 EDUCATION LEVEL (2) 251
5 AGE CLASS (6) 260
6 INCOME CLASS (5) 266
7 CIVIL STATUS (2) 271
8 PROPERTY OWNERSHIP (2) 273
9 IMMIGRATION AFTER 2000 (2) 275
10 SEX (2) 278
11 GEOGRAPHICAL REGION (3) 279
Stegvis selektion, indikatorn 𝑯𝟑
52 ULF 2009
53
Vad uppnås med viktjusteringen ?
Vi vill ”justera skattningarna” genom kalibrerad viktning, för att
minska bortfallets snedvridande inverkan. Kan vi det?
Ja, det går och är effektivt, i de flesta fallen
Om hjälpvektorn har samband med målvariabeln (från tämligen
svagt till starkt), då minskas bortfallets snedvridande effekt. Det
kan vara med stora belopp, om sambandet starkt.
Men om hjälpinformationen har mycket svagt samband så kan
felet öka (fast inte mycket). Vi ska se empiriska exempel på
det.
I Skandinavien har vi ”massor” av hjälpvariabler att ta till, så
problemet med ökande fel uppstår knappast.
SLUT PÅ DEL 1
54