proaktiv datainsamling med mått som beskriver .../menu/standard... · proaktiv datainsamling med...

Proaktiv datainsamling

med mått som beskriver

svarsmängdens kvalitet

SUREC-kurs, Stockholms universitet, 20/4-2015

Peter Lundquist och Carl-Erik Särndal

SCB och Stockholms universitet

1

Version 2015-04-18 PL

Disposition: Kurs

1. Surveybakgrund

Allmänt om bortfall, hjälpvariabler och deras roll

2. Datainsamling och Estimation

Datainsamling som tidsberoende process, begreppet

obalans, estimationsfasen

3. Proaktiv (monitored) datainsamling

Kontroll och ingrepp i datainsamlingen, experiment,

empiriska och teoretiska resultat

4. Avslutande kommentarer

2

Surveybakgrund

1. Allmänt om bortfall i survey undersökningar

2. Hjälpvariablerna och deras roll

3. Exempel

3

Debatt nyligen om bortfall,

med början i DN 2015-01-18

Några inslag:

• ”SCB slår larm om bortfall” : Rubrik in DN 2015-01-18

• Privata surveyinstitut (Inizio, Novus) medverkar; DN

2015-01-28

• Projektledaren för SCB:s bortfallsprojekt intervjuad,

Sveriges Radio c:a 2015-02-15; målet: Komma

tillbaks till 70- o 80-talens bortfallsnivåer

• SCB:s metodexperter förklarar ”hur SCB gör” SvD

2015-03-03

4

Debatten nyligen om bortfall, med början i

DN 2015-01-18

5

Bakgrund till vår kurs

Höga krav på svarsandelen från kunder/användare

• Det är kostsamt för SCB att öka svarsandelen.

(Effektivisering och bättre kontroll av datainsamlingen

behövs; Responsive design.)

• Viktigt att öka kunskapen om och inse nyttan av

indikatorer som bättre beskriver resultatet av

datainsamlingen än bara (vägd eller ovägd) svarsandel.

(Risk för bias i skattningarna av målvariablerna.)

• Studier på AKU, HEK och ULF väcker frågor kring

dagens datainsamlingsstrategier.

(Indikatorer har signalerat att vi behöver förbättra

rutinerna för datainsamlingen)

6

Typ av undersökning

Individundersökningar

• Metodiken som vi ska beskriva är tillämpad främst

på individundersökningar, men går även att

använda på andra typer (företag, organisationer,

skolor osv.)

• Vi fokuserar på individundersökningar; det är för

sådana vi har gjort våra studier.

• Bortfallet är i regel betydligt högre – därmed ett

mer akut problem – i individundersökningar

7

8

Partiellt- eller objektsbortfall

X=observerade data, O=saknade data

Register variabler Målvariabler

Urvals-

enhet

1 2 1 2 3 4

1 X X X X X X

2 X X X X X O

3 X X X X O X

4 X X X O O X

5 X X X X X X

6 X X O O O O

partiellt

objekt

Med bortfall menar vi här objektsbortfall

Objektsbortfall

Urvalsenheten (individen) svarar inte på undersökningen.

Partiellt bortfall

Formuläret eller enkäten är ofullständigt besvarad, dvs.

svar saknas på en eller flera frågor.

I denna kurs: Bortfall = objektsbortfall.

Bortfall = data saknas eller kan inte hittas

9

Ett historiskt perspektiv

Klassiskt exempel på felprognos

• Landon mot Roosevelt

i USA:s presidentval 1936

• Literary Digest hade korrekt förutsett vinnaren i de fem

senaste valen, men här blev det fel

• 10M enkäter utskickade, 2.3M kom in

• Literary Digest läsare

• Register av bilägare och telefonabonnenter

10

http://en.wikipedia.org/wiki/File:FDR_in_1933.jpg

http://en.wikipedia.org/wiki/File:LandonPortr.jpg

Hansen-Hurwitz planen 1946

I första fasen används en billigare datainsamlings-

metod (t.ex. postenkät). Bland icke-svarande dras

sedan ett suburval, oftast med en dyrare

datainsamlingsmetod (intervjuarledd insamling).

Om det hela görs rätt och man lyckas få in svar av alla

i andra fasen kan en väntevärdesriktig estimator

konstrueras. (Svagheten givetvis: Att alla i andra

fasen svarar.)

Denna metod har inspirerat mycket av det som görs

idag. Den används i mixed-mode undersökningar och i

responsive design.

11

Bortfallets utveckling över tiden

12

19

70

19

77

19

84

19

88

20

05

0

5

10

15

20

25

30

1963 1970 1977 1984 1991 1998 2005 2012

%

År

Bortfallsandelar i AKU 1963-2013

Totalt Ej anträffad Avböjd medverkan Övrigt

13

Orsaker till bortfall

Några vanliga skäl:

• Man misslyckas med att hitta/identifiera urvalspersonen

• Man misslyckas med att få kontakt med urvalspersonen

• Urvalspersonen vägrar att svara

• Urvalspersonen är förhindrad att medverka (sjuk, bortrest etc.)

• Språkproblem

• Frågeformuläret går förlorat

Kan ni komma på något mer?

14

Beräkningar av svarsandelen

Svensk standard för bortfallsberäkningar *

Sedan 2005 finns en svensk standard för

bortfallsberäkningar.

Den har tagits fram av Svenska statistiker-

samfundets surveysektion i samarbete med

representanter från statistikansvariga myndigheter,

olika opinions- och marknadsundersökningsföretag

samt från universitetssektorn.

AAPOR: http://www.aapor.org/uploads/Standard_Definitions_07_08_Final.pdf

*Bortfallssnurran: http://www.statistikframjandet.se

http://www.aapor.org/uploads/Standard_Definitions_07_08_Final.pdf

15

n Urvalet

Datainsamling

nS

Svar

(S)

Komponenter i bortfallsberäkning

nB

Bortfall

(B)

nO

Okänd status

(O)

nØ

Övertäckning

(Ø)

nF

Fullständiga svar

(F)

nP

Partiella svar

(P)

Management/ planering

Metodik / design

IT / infrastruktur

Internt/ externt

varumärke

Samhälle

Denna grafik från ett projekt på SCB redovisar projektgruppens syn; ska betraktas som ett exempel på hur man kan systematisera synen på bortfall i den egna organisationen.

Bortfallsfaktorer enligt SCB

16

Vårt arbete en del i tårtan

• Vårt arbete är inriktat på metodik/design, främst för

att få en bra svarsmängd

• SCB har projekt (inom ramen för Bortfallsprojektet)

som riktar in sig på andra faktorer än de som vi tar

upp i den här kursen. (Andra tårtbitar)

17

18

Varför bortfall är skadligt

Varje objekt i urvalet har en känd urvalssannolikhet

Grunden för statistisk inferens är

uppfylld

Bortfall förstör detta!

Sannolikheten för ett objekt att ingå i den slutliga

svarsmängden är produkten av urvalssannolikheten och

sannolikheten att svara (som är okänd, om den existerar).

Stickprovet är troligen inte längre

representativt eller balanserat;

följden blir bias

Effekter av bortfall

Sämre precision

Skattningens precision blir sämre än planerat eftersom

färre observationer kommer in. Förebyggs genom att ta till

större urval från början.

Systematiskt fel (bortfallsbias)

Värre är att bortfallet kommer att ge en skev (biased)

skattning av undersökningsvariabeln om egenskapen att

svara är korrelerad med undersökningsvariabeln.

Vanligtvis många undersökningsvariabler, och bland dem

troligen både sådana som påverkas och sådana som inte

påverkas av bortfallet (se Groves 2006).

19

20

Meta-Analys av bortfallsstudier

• Ca 30 studier, några med flera olika skattningar

• Alla har y-data för hela stickprovet s

• Absolutvärdet av det skattade borfallsfelet (i procent) är

(r är svarsmängden från urvalet s )

Groves (2006) : Nonresponse Rates and Nonreponse Bias

s

sr

y

yy 100

21

0

10

20

30

40

50

60

70

0.0 20.0 40.0 60.0 80.0

Nonresponse Rate

Perc

en

tag

e A

bso

lute

Rela

tive B

ias o

f

Resp

on

den

t M

ean

Groves (2006) Nonresponse Rates and Nonreponse Bias

22

Groves’ slutsatser

• Bortfallsfel (bortfallsbias) förekommer!

• Svarsprocenten i sig är ingen bra indikator på

bortfallsfelet

• Utan studier av bortfallsfelet är det svårt att veta

om bortfallet är ett problem i en undersökning

Vi återkommer till dessa punkter under dagen.

Groves (2006) Nonresponse Rates and Nonreponse Bias

Bortfall – deterministisk syn

Bortfall

Svarande

Population

N objekt

NNR objekt

NR objekt

Populationen består av de som alltid svarar

och de som aldrig svarar.

En deterministisk syn som var vanlig när bortfallet

var ”litet”

23

Bortfallsfel - deterministisk

NRNR

RR

U yN

Ny

N

Ny

)()( NRRNR

R yyN

NyAvvikelse

Bortfallsfelet är alltså en funktion av bortfallsandelen och

skillnaden mellan de som alltid svarar och de som aldrig

svarar.

Notera: Populationsandelar

24

EXEMPEL

Antag att 72% alltid svarar:

Den genomsnittliga inkomsten för de som alltid svarar:

Den genomsnittliga inkomsten för de som aldrig svarar:

Bortfallsfel - deterministisk

202000Ry

8400)172000202000()72,01()( RyAvvikelse

72,0N

NR

172000NRy

Vi överskattar alltså inkomsten. Frågan är om 8400 SEK är mycket?

SEK

SEK

25

Bortfall som kvantifierad variabel

• För varje individ i stickprovet inträffar (och noteras)

antingen svar eller icke-svar (bortfall); för den förra

kategorin kan målvariabel-värdet 𝑦𝑘 också noteras.

• För varje individ är det vanligen i förväg okänt om svar

eller icke-svar ska bli fallet.

• Vi kvantifierar en svarsindikatorvariabel så här:

26

svarar inte individ om0

svarar individ om1

k

kIk

Informationen vi har att jobba med i bortfallssituationen

Svarsindikatorn 𝑰𝒌 : För varje individ i stickprovet

Målvariabeln 𝒚𝒌 : För varje svarande individ.

Hjälpinformationen 𝐱𝒌 : För varje individ i stickprovet

(ev. i hela populationen)

27

Bortfallsmekanism

En del bidrag till litteraturen baserar sig på en stokastisk

bortfallsmekanism, en som kan innehålla bl.a. en tänkt

bortfallssannolikhet för varje individ i populationen, eller

för varje individ i stickprovet (då kanske beroende på

stickprovet som hade råkat realiseras).

Vi använder inte bortfallsmekanismer eller bortfalls-

sannolikheter i denna kurs. De behövs inte för vår

framställning här.

28

29

Hantering av bortfall

(1) Minska risken: försöka designa undersökningen så att

bortfallet är lågt (kan vara dyrt och svårt), eller i varje

fall agera så att svarsmängden blir väl balanserad

(2) Använd modeller för att justera vikterna i

estimationen.

(3) Ignorera bortfallet (Låtsas som om det vore

slumpmässigt: Förkastligt beteende)

Vi fokuserar på (1) och är medvetna om att det finns massor av saker som kan behandlas i en kurs om bortfall, saker som görs inom bortfallsområdet men som vi inte tar upp. Som vi ska se finns en naturlig koppling i vårt arbete mellan (1) och (2).

Bortfallsreducerande åtgärder

• Belöningar

• Fler kontaktförsök

• Kortare intervju

• Byte av insamlingsmetod

• Byte av intervjuare

• Smartare utnyttjande av process- och registerdata

• Kontaktstrategier

• ...

OBS: Vi vet inte om en högre svarsandel är ”bättre”

ur synpunkten ”reducerat bortfallsfel”.

30

Återkontakter (intervjuarledda)

31

Alla “bra” undersökningar genomför mer än ett

kontaktförsök för att få svar från hittills ej anträffade

urvalspersoner. Analys av återkontakter kan ge

information om bortfallsfelet bland de kvarvarande

individerna I bortfallet.

En hel del arbete inom det här området har genomförts

på ESS (European Social Survey) *.

*Se t.ex. Stoop, Billiet, Koch, and Fitzgerald (2010)

Adaptiv/Responsive design

Två begrepp: responsive design är ett specialfall av adaptiv design (Schouten, Bethlehem & Cobben).

• Vilken av designerna man använder bestäms av valen i samband med planeringen av datainsamlingen.

• I båda fallen ges urvalsenheterna ”olika” behandling för att ”maximera svarskvaliteten” till en given kostnad.

• Metoderna är begränsade till behandlingar som är kontrollerbara och använder observerbara data.

32


Synsättet bygger på att populationen (individerna, företagen

etc.) är heterogen i sitt svarsmönster och att kostnaderna att

få en intervju varierar mellan objekten i populationen.

Objekten föredrar också olika kommunikationssätt med

datainsamlingsavdelningen.

En adaptiv design tar hänsyn till detta genom att tillåta olika

kontaktstrategier för olika delgrupper i populationen. Genom

att använda hjälpinformation (register och processdata) under

datainsamlingen kan delgrupperna ges olika behandlingar.

33


Detta betyder också att en adaptiv design använder

hjälpinformation för att justera dels svarsmängden under

insamlingsfasen, dels estimaten i den efterföljande

estimationsfasen. Notera att adaptiv design tar inte bort

behovet av omsorgsfull estimation efter avslutad

datainsamling; den är fortfarande nödvändig!

En viktig designfaktor är datainsamlingsmetoden. Idag, med

ökande bortfall och stigande kostnader, är en mixed-mode

design tänkbar för surveyorganisationen. Denna typ av

design är i regel att betrakta som adaptiv.

34


Adaptiv design (medicin, Thompson & Seber)

• Behandlingarna är bestämda i förväg men kan också

uppdateras under datainsamlingen

• En statisk adaptiv design utnyttjar objektens egenskaper

(från RTB, IoF etc.) för att bestämma behandlingarna innan

datainsamlingen

• En dynamisk adaptiv design använder processdata (och ev.

register) för bestämma behandlingarna

• Har (i förväg) bestämda faser under datainsamlingen

• När en fas har uppnått det bestämda målet är fasen klar

och man byter till nästa fas eller avslutar insamlingen

35


Responsive design (Groves & Heeringa 2006)

• Delar in datainsamlingen i minst två faser

• Identifierar lämpliga behandlingar under

datainsamlingens första fas (processdata utnyttjas)

• När en fas har uppnått ett bestämt mål är fasen klar,

och man byter till nästa fas eller avslutar insamlingen

Responsive design används då inte mycket är känt i förväg

om stickprovet eller behandlingarna. Efter första fasen liknar

detta upplägg en adaptiv design.

36

1.2 Bortfallssituationen,

de tillgängliga data,

speciellt hjälpvariablerna

37

Population (U)

Svarsmängd (r)

Urval (s)

Det här är vår situation : U s r

population urval svarsmängd

38

Viktiga termer och begrepp

i det som följer Målpopulationen 𝑈 = {1,… , 𝑘, … , 𝑁} består av N individer

(objekt) indexerade 𝑘 = 1, 2, … ,𝑁.

Ett sannolikhetsurval s dras från U så att individ k har den

kända inklusionssannolikheten 𝜋𝑘 = 𝑃 𝑘 ∈ 𝑠 > 0.

Om variabeln y är vår målvariabel så vill vi skatta

populationstotalen 𝑌 = 𝑦𝑘𝑈 .

Vi skriver Σ𝐴 för summan Σ𝑘∈𝐴 där A är en mängd

individer 𝐴 ⊆ 𝑈.

39

Sannolikhetsurval med lika urvalssannolikheter

(som t.ex. OSU = obundet slumpmässigt urval)

• N = storleken på populationen, U

• n = storleken på stickprovet s

• designvikt 𝑑𝑘 = 𝑁/𝑛 för alla objekt 𝑘 ϵ 𝑠

• m = storleken på svarsmängden r

Exempel

svarsandelen nmdIdPs ks kk //

40

Viktiga termer och begrepp

• Balanserad svarsmängd (definition)

• Svarsmängdens obalans (mätbar storhet)

• Representativitet hos svarsmängden (mätbar)

• Svarsintensitet (mätbart instrument för att

övervaka datainsamlingen)

Alla bygger på en hjälpvektor x kolumnvektorn: [Jx1]

känd för hela urvalet

41

Bortfall försvårar

teoretiska framsteg därför att

• Vi inte vet hur r genererades ifrån s

• Svarssannolikheter är okända

(om sådana överhuvudtaget anses existera)

• Väntevärdesriktig estimation omöjliggörs

• Vi inte kan anta att r är en slumpmässig delmängd

från s

• inte ens givet en x-vektor; det som kallas MAR

(Missing At Random)

• Situationen är alltid det som kallas NMAR

(Not Missing At Random)

För MAR och NMAR se t.ex. Little och Rubin (2002)

42

Variabler vi har till förfogande :

Målvariabel (en av flera): 𝑦𝑘 observerad för 𝑘 ∈ 𝑟

Hjälpvektor: 𝐱𝑘 känd alla 𝑘 ∈ 𝑠 (ev. alla 𝑘 ∈ 𝑈)

Svarsindikator: 𝐼𝑘 observerad för 𝑘 ∈ 𝑠

= sticksprovsmedeltalet för 𝑰𝒌

s kr ks ks kk dddIdP //Svarsandel:

43

Låt oss ta några exempel på hjälpvektorer.

Hjälpvariablerna är kontinuerliga eller kategoriska;

det senare är ofta fallet

Exempel 1:

x-vektor med fullständigt korsade grupper

Utbildning (hög/låg; 2 grupper) × äger fastighet (ja eller nej;

2 grupper) × födelseland (Sverige eller annat; 2 grupper)

Då blir x-vektorns dimension

J = 2 × 2 × 2 = 8

Och x-vektorn har precis 8 möjliga värden, för den enda

”ettan” i vektorn kan finnas på 8 möjliga ställen

𝐱𝑘 = (0, 0, … , 1, … , 0, 0)′

44

Exempel 2:

x-vektor med fullständigt korsade grupper

ålder (4 grupper) × kön (2 grupper) × region (5 grupper)

Då blir x-vektorns dimension

J = 4 × 2 × 5 = 40

Och x-vektorn har precis 40 möjliga värden, för den enda

”ettan” i vektorn kan finnas på 40 möjliga ställen

𝐱𝑘 = (0, 0, … , 1, … , 0, 0)′

45

Exempel 3: Lite krångligare med

icke-korsade egenskaper i x-vektorn

Educ (2) x Owner (2) x Origin (2) (dessa tre korsade)

Phone (2) ; Age (4) ; Civil (2) ; Gender (2)

𝐱 = ( 𝐸𝑑𝑢𝑐 × 𝑂𝑤𝑛𝑒𝑟 × 𝑂𝑟𝑖𝑔𝑖𝑛 + 𝑃ℎ𝑜𝑛𝑒 + 𝐴𝑔𝑒 + 𝐶𝑖𝑣𝑖𝑙 + 𝐺𝑒𝑛𝑑𝑒𝑟)

Age kodas med någon av (1,0,0) , (0,1,0), (0,0,1), (0,0,0)

Denna x-vektor har ”bara” dimension 14

J = (2 × 2 × 2) + 1 + 3 + 1 + 1 = 14

men den har 256 möjliga värden:

2 × 2 × 2 × 2 × 4 × 2 × 2 = 256

fast alla kanske inte finns representerade i ett datamaterial.

Det gör egentligen inget, bara matrisen (som vi kommer till)

kan inverteras. 46

Olika typer av hjälpvektorer

(vanligen kallade x-vektorer)

Monitoringvektorn ”övervakningsvektorn”

x-variablerna utvalda för balansering av datainsamlingen

Kalibreringsvektorn

x-variablerna utvalda för användande i estimationen

Hur vektorerna ser ut bestäms av valda strategier för

datainsamling och efterföljande estimation. Man kan

använda samma vektor i båda, men justeringar av

vektorn med hänsyn till datainsamlingen kan behövas.

47

48

Kalibrering

Kalibrerad viktning är numera att betrakta som

standard i viktiga SCB-undersökningar.

Tack vare att under de senaste två decennierna

vidareutvecklades ”den gamla metodkunskapen”,

med namn som ”poststratifiering” och ”raking ratio”,

enkla specialfall kända sedan 1940-talet.

Se vidare Lundström och Särndal (2005)

Hur väljer man en effektiv hjälpvektor?

Riktlinjer

främst för estimationen men även för datainsamlingen

(beroende på vilken datainsamlingsstrategi man väljer)

Hjälpvektorn ska :

1. Förklara ”benägenheten” att svara.

2. Förklara centrala målvariabler.

3. Identifiera de viktigaste redovisningsgrupperna.

Från Lundström och Särndal (2005)

49

Exempel: logit-modell för variabeln svar Parameter Parameterskattning Pr > ChiSq.

Intercept 0.22 0.0604

Ålder ≤ 24 0.86 <.0001

Ålder 35-64 -0.03 0.6812

Ålder 65-74 0.36 0.0025

Ålder ≥75 0.31 0.0172

Född i Sverige 0.25 0.0010

Kvinna 0.28 <.0001

Anställd 0.20 0.0113

Gift 0.34 <.0001

Storstad -0.31 <.0001

Ersättning (soc/stöd) -0.42 0.0060

Fastighet 0.22 0.0005

Hög utbildning 0.38 <.0001

50

ULF 2009

För estimationen : Stegvis selektion

med indikator

Ett verktyg för val av hjälpvariabler för

kalibreringsvektorn i estimationen :

där

Indikatorn 𝐻3 beror inte på 𝑦 (ofta en fördel)

Vi återkommer i nästa avsnitt till kalibreringsestimatorn.

Se t.ex. Särndal and Lundström (2010)

2/1

;

;

2/1

3 11

dr

ds

r k

r kk

s k

s kk

m

m

d

md

d

mdH

kr kkks kkk ddm xxxx1)()(

51

Steg Inkluderad variabel H310

3

0 (trivial) 0

1 TELEPHONE (2) 211

2 COUNTRY OF BIRTH (2) 227

3 SOCIAL ALLOWANCE (2) 240

4 EDUCATION LEVEL (2) 251

5 AGE CLASS (6) 260

6 INCOME CLASS (5) 266

7 CIVIL STATUS (2) 271

8 PROPERTY OWNERSHIP (2) 273

9 IMMIGRATION AFTER 2000 (2) 275

10 SEX (2) 278

11 GEOGRAPHICAL REGION (3) 279

Stegvis selektion, indikatorn 𝑯𝟑

52 ULF 2009

53

Vad uppnås med viktjusteringen ?

Vi vill ”justera skattningarna” genom kalibrerad viktning, för att

minska bortfallets snedvridande inverkan. Kan vi det?

Ja, det går och är effektivt, i de flesta fallen

Om hjälpvektorn har samband med målvariabeln (från tämligen

svagt till starkt), då minskas bortfallets snedvridande effekt. Det

kan vara med stora belopp, om sambandet starkt.

Men om hjälpinformationen har mycket svagt samband så kan

felet öka (fast inte mycket). Vi ska se empiriska exempel på

det.

I Skandinavien har vi ”massor” av hjälpvariabler att ta till, så

problemet med ökande fel uppstår knappast.

SLUT PÅ DEL 1

54

proaktiv datainsamling med mått som beskriver .../menu/standard... · proaktiv datainsamling med...

Documents