perusestimointi 5 - helsinki2009+_+d.pdf · saa yhden ratkaisun aikaan (kuten proc logistic sas:ssa...

25
8.10.2009 SurveyMetodiikka 2009 Seppo 127 Perusestimointi 5 Analyysiä survey-datalla Tee Suomen datalla jokin oma kokeilu käyttäen tätä mallia Esimerkki PISA 2006:sta SAS:lla proc surveymeans data=pisa.impuoecd; where cnt='FIN' or cnt='DEU' or cnt='USA' or cnt='CAN' or cnt='ITA'; var meanscie meanread SCIEFUT WEALTH; domain cnt ST04Q01; title 'Yso: Keskiarvot viidelle maalle sukupuolen mukaan'; run; proc surveymeans data=pisa.impuoecd; where cnt='FIN' or cnt='DEU' or cnt='USA' or cnt='CAN' or cnt='ITA'; var meanscie meanread SCIEFUT WEALTH; domain cnt ST04Q01; strata stratum; cluster schoolid; weight w_fstuwt; title 'Ositettu kaksiasteinen ryväsotanta: Keskiarvot viidelle maalle sukupuolen mukaan'; run; 8.10.2009 127 SurveyMetodiikka 2009 Seppo

Upload: others

Post on 29-Dec-2019

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

8.10.2009 SurveyMetodiikka 2009 Seppo 127

Perusestimointi 5Analyysiä survey-datallaTee Suomen datalla jokin oma kokeilu käyttäen tätä malliaEsimerkki PISA 2006:sta SAS:lla

proc surveymeans data=pisa.impuoecd;

where cnt='FIN' or cnt='DEU' or cnt='USA' or cnt='CAN' or

cnt='ITA';

var meanscie meanread SCIEFUT WEALTH;

domain cnt ST04Q01;

title 'Yso: Keskiarvot viidelle maalle sukupuolen mukaan';

run;

proc surveymeans data=pisa.impuoecd;

where cnt='FIN' or cnt='DEU' or cnt='USA' or cnt='CAN' or

cnt='ITA';

var meanscie meanread SCIEFUT WEALTH;

domain cnt ST04Q01; strata stratum;

cluster schoolid; weight w_fstuwt;

title 'Ositettu kaksiasteinen ryväsotanta: Keskiarvot

viidelle maalle sukupuolen mukaan'; run;

8.10.2009 127SurveyMetodiikka 2009 Seppo

Page 2: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

8.10.2009 SurveyMetodiikka 2009 Seppo 128

Tehtävänäsi on vertailla tuloksia (seuraavat sivut) ja jos haluat voit laskea myös DEFF-luvut.Muistat että DEFF vertaa varianssiestimaattia kullakin asetelmallayksinkertaisella satunnaisotannalla saatuun varianssiin, mikä nähdään ensimmäisestä tulosteesta. Toisesta tulosteesta taas saadaan PISA:n asetelman keskivirheet. Muistanet että DEFF on varianssien suhde. Tuloksissa on sen sijaan keskivirheet, joiden neliö on varianssi.

Muuttujat:SCIEFUT Future-oriented science motivation PISA 2006 (WLE)

WEALTH Family wealth PISA 2006 (WLE)meanscie Luonnontieteellisen osaamisen keskiarvo oppilastasollameanread luetun tekstin ymmärtämisen keskiarvo oppilastasolla

8.10.2009 128SurveyMetodiikka 2009 Seppo

Perusestimointi 6Analyysiä survey-datalla

Page 3: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

8.10.2009 SurveyMetodiikka 2009 Seppo 129

Yso: Keskiarvot viidelle maalle sukupuolen mukaan 6

Domain Analysis: Country code 3-character

Country code Std Error3-character Variable Mean of Mean 95% CL for MeanƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒCanada meanscie 522.523293 0.613824 521.320195 523.726390

meanread 512.318449 0.632880 511.077998 513.558899SCIEFUT 0.257585 0.007095 0.243678 0.271492WEALTH 0.085487 0.004586 0.076499 0.094475

Germany meanscie 516.206675 1.388157 513.485882 518.927469meanread 496.530138 1.543957 493.503970 499.556306SCIEFUT -0.153333 0.015136 -0.182998 -0.123667WEALTH 0.241345 0.011343 0.219114 0.263577

Finland meanscie 563.379017 1.196954 561.032982 565.725052meanread 547.080464 1.118021 544.889135 549.271793SCIEFUT -0.166362 0.012596 -0.191049 -0.141674WEALTH 0.400162 0.010679 0.379232 0.421092

Italy meanscie 487.153036 0.632060 485.914197 488.391876meanread 477.008107 0.695491 475.644939 478.371275SCIEFUT 0.112834 0.006259 0.100566 0.125103WEALTH -0.162371 0.004848 -0.171873 -0.152869

United States meanscie 488.290911 1.366549 485.612470 490.969353meanread 478.515607 1.257594 476.050717 480.980497 SCIEFUT 0.212386 0.012976 0.186952 0.237820WEALTH 0.150960 0.010691 0.130006 0.171914

ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

8.10.2009 129SurveyMetodiikka 2009 Seppo

Perusestimointi 7Analyysiä survey-datalla

Page 4: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

8.10.2009 SurveyMetodiikka 2009 Seppo 130

Ositettu kaksiasteinen ryväsotanta: Keskiarvot viidelle maalle sukupuolen mukaan 8

Data Summary

Number of Strata 135Number of Clusters 2242Number of Observations 59635Sum of Weights 5433873.59

Domain Analysis: Country code 3-character

Country code Std Error3-character Variable Mean of Mean 95% CL for MeanƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒCanada meanscie 534.469777 2.096610 530.358234 538.581321

meanread 527.011295 2.266225 522.567129 531.455462SCIEFUT 0.202674 0.014836 0.173579 0.231768WEALTH 0.155705 0.014736 0.126808 0.184603

Germany meanscie 515.649130 5.082070 505.683073 525.615186meanread 494.944418 5.800636 483.569236 506.319600SCIEFUT -0.150840 0.020130 -0.190315 -0.111364WEALTH 0.241042 0.020835 0.200185 0.281900

Finland meanscie 563.322834 2.012347 559.376564 567.269104meanread 546.868281 2.222051 542.510776 551.225787SCIEFUT -0.170775 0.015194 -0.200570 -0.140979WEALTH 0.396974 0.014315 0.368901 0.425046

Italy meanscie 475.397220 2.309913 470.867341 479.927100meanread 468.523109 2.629278 463.366935 473.679282SCIEFUT 0.196975 0.016020 0.165559 0.228392WEALTH -0.120927 0.012365 -0.145176 -0.096678

United States meanscie 488.906837 4.893079 479.311395 498.502279meanread 478.850105 4.409943 470.202105 487.498104SCIEFUT 0.201740 0.014077 0.174134 0.229347WEALTH 0.150898 0.031162 0.089788 0.212008

8.10.2009 130SurveyMetodiikka 2009 Seppo

Perusestimointi 8Analyysiä survey-datalla

Page 5: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

8.10.2009 SurveyMetodiikka 2009 Seppo 131

Ositettu kaksiasteinen ryväsotanta: Keskiarvot viidelle maalle sukupuolen mukaan 8

Domain Analysis: Gender Q4

Gender Std ErrorQ4 Variable Mean of Mean 95% CL for MeanƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒFemale meanscie 494.890425 3.203572 488.607931 501.172919

meanread 515.892143 2.903679 510.197768 521.586519SCIEFUT 0.069997 0.013949 0.042641 0.097352WEALTH 0.114305 0.022265 0.070641 0.157969

Male meanscie 497.131693 3.956830 489.371990 504.891396meanread 475.987262 3.359295 469.399379 482.575145SCIEFUT 0.211679 0.015411 0.181457 0.241901WEALTH 0.169271 0.023587 0.123015 0.215528

ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

Yso: Keskiarvot viidelle maalle sukupuolen mukaan Domain Analysis: Gender Q4

Gender Std ErrorQ4 Variable Mean of Mean 95% CL for MeanƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒFemale meanscie 508.021161 0.534470 506.973597 509.068724

meanread 520.685393 0.563625 519.580682 521.790103SCIEFUT 0.093977 0.005756 0.082695 0.105259WEALTH -0.008827 0.004236 -0.017129 -0.000525

Male meanscie 510.189483 0.577763 509.057065 511.321900meanread 478.456622 0.630157 477.221510 479.691733SCIEFUT 0.174581 0.005830 0.163153 0.186008WEALTH 0.085481 0.004362 0.076931 0.094030

ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

8.10.2009 131SurveyMetodiikka 2009 Seppo

Perusestimointi 9Analyysiä survey-datalla

Page 6: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

8.10.2009 SurveyMetodiikka 2009 Seppo 132

Kolmiulotteinen pylväs- ym. diagrammi

CAED

Page 7: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

8.10.2009 SurveyMetodiikka 2009 Seppo 133

Analyysiä surveydatalla - Mallittamisesta 1

Tällä kurssilla ei ole käydä mallittamista läpi laajasti, joten kiinnostuneen on tarpeen osallistua muillekin kursseille ja/tai opiskella asioita kirjallisuudesta. Oikean datan kanssa kokeilu auttaa erityisen paljon avartamaan mallittamista. Edellä on jo kuvattu mallityypit. Kun mallittamisen käyttö on selvitetty, on mietittävä, mikä malli sopii ao. tilanteeseen. Vaihtoehtojahan on. Tässä keskustelen lähinnä lineaarisista tai linearisoiduista malleista. Linearisointi viittaa siihen, että jos aineisto ei näytä sellaiselta että lineaarinen malli sopisi (eli selitettävän jakaumafunktio on normaalinen ja yhteydet siitä selittäjiin ovat lineaarisia), niin on tehtävä operaatioita joilla nämä saadaan aikaan. Puhutaan yleistetyistä lineaarisista malleista (Generalized Linear Models). * Ohjelmistoissa on tällaiseen hyviä vaihtoehtoja, osa siten että silläsaa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen. Tämä oli jo esillä vastaamisen mallittamisessa. * Toinen strategia on käyttää yleisempää ohjelmistoa, johon voi valita kuhunkin tilanteeseen sopivat linkit ja jakaumat (SAS:ssa Proc Genmod).

8.10.2009 133SurveyMetodiikka 2009 Seppo

Page 8: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

8.10.2009 SurveyMetodiikka 2009 Seppo 134

Analyysiä surveydatalla - Mallittamisesta 2

Kuten on jo todettu, uusissa ohjelmistoissa on mahdollista sisällyttää malliin myös ryväs jos sellainen on otanta-asetelmassa ja osite jos sellaista on käytetty. Kuten keskiarvoesimerkissä edellä on havaittu, ryväs-vaikutus on usein suurempi kuin osite-vaikutus. SAS:ssa voi nämä mallit tehdä SurveyLogistic:lla ja SPSS:ssä on logistic Complex Samples -ohjelmassa. Siten tämän tyypin malli on varsin helppo surveyaineistolla.

SAS:ssa on myös SurveyREG jolla saa tavallisen lineaarisen mallin estimaatit oikein keskivirheiden osalta. Se toimii ihan samoin kuin perusSAS:in GLM jossa on kuitenkin vain otospainon mahdollisuus. SPSS:ssä GLM:ää vastaa General Linear Model joka on samalla nimellä sekä perusSPSS:n että Complex Samples:n puolella. Kysehän on monimuuttujaisesta regressiomallista, jossa on yksi selitettävä ja voit asettaa selittäjiksi sekä jatkuvia että luokiteltuja (kategorisia) muuttujia. Muuttujan luonne on ilmaistava (SAS:ssa asettamalla luokitellut CLASS-ryhmään, SPSS:ssä asettamalla nämä Factors-laatikkoon).

8.10.2009 134SurveyMetodiikka 2009 Seppo

Page 9: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

8.10.2009 SurveyMetodiikka 2009 Seppo 135

Analyysiä survey-datalla - Mallittamisesta 3

Kuten edeltä ilmenee, ei kaikkiin ohjelmistoihin ole SAS:ssa eikä SPSS:ssä kaikkia monimutkaisen surveyn optioita, mutta painopuuttuja on eli minimi. Voi olla myös niin, ettei aineistossa ole niitä, vaikka otanta olisi perustunut ryppäisiin yms. Miten tällöin menetellä. Piste-estimointi siis tulee oikein. Mieti vielä, MITEN?Entäpä keskivirheet, luottamusvälit ja p-arvot?

En kykene antamaan tyhjentävää vastausta, mutta jotakin:- Ole konservatiivinen eli älä vedä suuria johtopäätöksiä vähäisestätilastollisesta merkitsevyydestä.- Arvioi vaikkapa SurveyMeans:n kautta kuinka suuri voisi DEFF olla. On onneksi usein niin että mallissa DEFF on pienempi (lähempänä ykköstä) kuin keskiarvolaskelmissa, ja erityisesti jos otanta-asetelmamuuttujia on mukana mallin selittäjissä tai muissa osioissa.

8.10.2009 135SurveyMetodiikka 2009 Seppo

Page 10: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

8.10.2009 SurveyMetodiikka 2009 Seppo 136

Analyysiä survey-datalla - Malliesimerkit 1

Kurssin lopun mallitusharjoitukset tehdään yleisellä lineaarisella (regressio)mallilla. Teknisesti muut ohjelmat (vaikkapa logit tai probit tai monitasovaihtoehdot) toimivat samaan tapaan. Yleinen lineaarinen tilanne on ehkä yleisin tilanne eikä välttämättä monimutkainen, joten valinta tehtiin tästä syystä. Muilla kursseilla voit laajentaa tietämystäsi, myös teoreettiselta kannalta.

Regressiotyyppisessä mallissa selitettävän tulee olla jatkuva muuttuja tai sellaisena käsitelty. ESS:ssä on esimerkiksi runsaasti järjestysasteikollisia muuttujia joita voi siten asettaa selitettäviksi malliin ja etsiä selittäjät teorian ja yleisen tietämyksen mukaan. PISA:n osaamismuuttujat näyttävät jatkuvilta vaikka ovat nekin järjestysasteikollisia. Ne ja monet muut sopivat siis selitettäviksi.

Seuraavaksi otan esimerkin kummastakin. Ensin PISA.

8.10.2009 136SurveyMetodiikka 2009 Seppo

Page 11: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

8.10.2009 SurveyMetodiikka 2009 Seppo 137

Analyysiä survey-datalla - Malliesimerkit 2 (PISA)

Otan esimerkkiin melkoisen yksinkertaisen selitettävän eli PISA2006:n päämuuttujan = luonnontieteellisen osaamisen. Koska se on laskettua 5 eri ’uskottavan eli osin imputoidun’ osaamisarvon keskiarvona, se on nimetty pvmeanscie

Aloitan mallittamisen melko nollasta asettamatta malliin selittäjiä ollenkaan. SAS-ohjelma on seuraava:

Näet että otanta-asetelmatekijät on sijoitettu malliin samoin kuin edellä SURVEYMEANS:ssa.

proc surveyreg data=pisa.fi;

model pvmeanscie =

/solution;

cluster schoolid; strata stratum; weight w_fstuwt;

title 'Luonnontieteellisen osaamisen malli 1: vakio';

run;

8.10.2009 137SurveyMetodiikka 2009 Seppo

Page 12: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

8.10.2009 SurveyMetodiikka 2009 Seppo 138

Analyysiä survey-datalla - Malliesimerkit 3 (PISA)

Luonnontieteellisen osaamisen malli 1: vakio

The SURVEYREG ProcedureRegression Analysis for Dependent Variable pvmeanscie

Data Summary

Number of Observations 4714Sum of Weights 61387.0Weighted Mean of pvmeanscie 563.32283Weighted Sum of pvmeanscie 34580690

Design SummaryNumber of Strata 12Number of Clusters 155

Fit StatisticsR-square 0.9791Root MSE 82.2705Denominator DF 143

Tests of Model Effects

Effect Num DF F Value Pr > FModel 0 . .Intercept 1 78362.6 <.0001

NOTE: The denominator degrees of freedom for the F tests is 143.

Estimated Regression CoefficientsStandard

Parameter Estimate Error t Value Pr > |t|

Intercept 563.322834 2.01234725 279.93 <.0001

Tällainen ’pohja-malli’ voi ollahassu mutta näet kuitenkinettä se tuottaaIntercept:n elivakion jokaon tasan samakuin keskiarvo.Lisäksi saatkeskivirheen (noin 2 pistettä)ja tavalliset tunnusluvutjotkaolivat täysinodotetut

8.10.2009 138SurveyMetodiikka 2009 Seppo

Page 13: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

8.10.2009 SurveyMetodiikka 2009 Seppo 139

Analyysiä survey-datalla - Malliesimerkit 4 (PISA)

Tässä on kaksiselittäjää,taustatekijöitä.Nyt selitysasteellaon mieltä, päinvastoinkuin edellisessä.Vanhempienkoulutusvuosienmäärä PAREDon merkittäväselittäjä. Onkosukupuoli?Huom.Tulosteon supistettu.

Fit Statistics

R-square 0.04300Root MSE 80.0972Denominator DF 143

Class Level InformationClassVariable Label Levels ValuesST04Q01 Gender Q4 2 Female Male

Tests of Model Effects

Effect Num DF F Value Pr > FModel 2 88.36 <.0001Intercept 1 3801.67 <.0001ST04Q01 1 1.06 0.3054PARED 1 176.63 <.0001

NOTE: The denominator degrees of freedom for the F tests is 143.

Estimated Regression CoefficientsStandard

Parameter Estimate Error t Value Pr > |t|

Intercept 462.848247 7.73360330 59.85 <.0001ST04Q01 Female 2.587664 2.51562093 1.03 0.3054ST04Q01 Male 0.000000 0.00000000 . .PARED 6.900300 0.51919624 13.29 <.0001

8.10.2009 139SurveyMetodiikka 2009 Seppo

Page 14: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

8.10.2009 SurveyMetodiikka 2009 Seppo 140

Analyysiä survey-datalla - Malliesimerkit 5 (PISA)

Tässä on estimaatteja kun malliin on lisätty joukko koulutason muuttujia eli koulun opetuksen toimintatapoja mutta oppilaiden näkemyksen mukaan. Et ehkä ymmärrä täysin muuttujan merkitystä mutta nimi on annettu kuvaamaan itse asiaa ja selittävän muuttujan skaala on [0, 100].

Luonnontieteellisen osaamisen malli 1: koulumuuttujia myös

R-square 0.1302The SURVEYREG Procedure

Regression Analysis for Dependent Variable pvmeanscieEstimated Regression Coefficients

StandardParameter Estimate Error t Value Pr > |t|

Intercept 457.127120 8.12594084 56.26 <.0001ST04Q01 Female 0.766337 2.35962872 0.32 0.7458ST04Q01 Male 0.000000 0.00000000 . .PARED 6.312026 0.48769981 12.94 <.0001student_discussion -0.093062 0.04806734 -1.94 0.0548student_debate -0.899094 0.05486628 -16.39 <.0001student_ideas 0.045172 0.05902113 0.77 0.4453teacher_explain 0.569431 0.09131187 6.24 <.0001practical_work 0.379530 0.07060081 5.38 <.0001

8.10.2009 140SurveyMetodiikka 2009 Seppo

Page 15: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

8.10.2009 SurveyMetodiikka 2009 Seppo 141

Analyysiä survey-datalla - Malliesimerkit 1 (ESS)Tässä osastossa kokeilen mallittaa ESS-datalla 15+ -ikäisten onnellisuutta, mikä on viime vuosina noussut kiintoisaksi aiheeksi taloustieteilijöiden, psykologien ja sosiaalitieteilijöiden tutkimuksissa. En ratkaise tässä tätä vaan esitän muutamia hahmotuksia mallin rakentamiseksi. Lue lisää vaikkapa Blanchflowerin, Oswaldin, Easterlinin ja Narsin julkaisuista. ESS-datasta tuotin painottamattoman frekvenssijakauman pohjakatselua ja mallin hahmottelua varten. Tein alkuperäiseen skaalaan[0,10] lineaarisenmuunnoksen siten että tässä skaala on [0,100].

Painotettukeskiarvo =71,7ja cv=28,2

8.10.2009 141SurveyMetodiikka 2009 Seppo

Page 16: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

8.10.2009 SurveyMetodiikka 2009 Seppo 142

Analyysiä survey-datalla - Malliesimerkit 2 (ESS)

Onnellisuusjakauma ei ole erityisen normaalinen mutta tässä en kanna siitä huolta, koska tutkimusten valtavirtakaan ei ole niin tehnyt. Mieti kuitenkin voisitko kokeilla jotain muuta mallia?

Jo edellisestä esimerkistä olet oppinut että jos selität onnellisuutta maalla, saat maakohtaiset onnellisuuden keskiarvot (vakioon kun lisäät maan estimaatin). Vastaavasti jos selität onnellisuutta muuttujien maa = CNTRY ja ESS-kierroksen = ESSROUND vuorovaikutusmuuttujalla, saat kunkin maan ESS-kierroksittaiset keskiarvot. Tässä en näin tehnyt vaan käytin ESS-kierrosta 4 jossaon siis mukana 18 maata tässä vaiheessa.

Otin kurssilaisten esille tuomista muuttujista muutaman sekä lisäksi perinteisiä. Näiden tarkempi kuvaus esitetään SAS:n avulla.

8.10.2009 142SurveyMetodiikka 2009 Seppo

Page 17: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

8.10.2009 SurveyMetodiikka 2009 Seppo 143

Analyysiä survey-datalla - Malliesimerkit 3 (ESS)

Tässä on kaikkien selittäjienmerkitsevyyttä ym kuvaava SPSS-tuloste.PoikkeaaSAS:n vastaavasta mutta samat asiat ovat mukana.

Tulkitse

tuloksia

tällä

yleisellä

tasolla

sekä jatka

seuraavan

sivun

tarkemman

kuvauksen

kanssa.

8.10.2009 143SurveyMetodiikka 2009 Seppo

Tests of Between-Subjects Effectsb

Dependent Variable:onnellisuus

Source

Type III Sum of

Squares df Mean Square F Sig.

Partial Eta

Squared

Corrected Model 1,087E6 43 25279,066 81,106 ,000 ,150

Intercept 789928,749 1 789928,749 2534,438 ,000 ,114

siviilisaaty 159396,485 9 17710,721 56,824 ,000 ,025

INWTM 25,112 1 25,112 ,081 ,777 ,000

vas_oik 20542,628 1 20542,628 65,910 ,000 ,003

ika2 59878,955 1 59878,955 192,118 ,000 ,010

ika 78899,475 1 78899,475 253,144 ,000 ,013

rukoilu 12,264 1 12,264 ,039 ,843 ,000

personal20 19611,701 1 19611,701 62,923 ,000 ,003

liika_etu 552,149 1 552,149 1,772 ,183 ,000

CNTRY 482619,826 16 30163,739 96,779 ,000 ,073

GNDR 5837,948 1 5837,948 18,731 ,000 ,001

INWMME 5629,140 10 562,914 1,806 ,054 ,001

Error 6163433,718 19775 311,678

Total 1,321E8 19819

Corrected Total 7250433,539 19818

a. R Squared = ,150 (Adjusted R Squared = ,148)

b. Weighted Least Squares Regression - Weighted by Design weight

Page 18: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

Dependent Variable:onnellisuus

Parameter B Std. Error t Sig.

95% Confidence Interval

Partial Eta SquaredLower Bound Upper Bound

Intercept 72,451 1,166 62,154 ,000 70,167 74,736 ,158

INWTM ,001 ,005 ,186 ,853 -,008 ,010 ,000

vas_oik ,055 ,006 9,563 ,000 ,044 ,066 ,004

ika2 ,003 ,000 7,353 ,000 ,002 ,004 ,003

ika -,326 ,035 -9,264 ,000 -,394 -,257 ,004

rukoilu ,004 ,003 1,037 ,300 -,003 ,010 ,000

personal20 ,031 ,004 7,165 ,000 ,022 ,039 ,002

liika_etu ,004 ,005 ,773 ,439 -,006 ,014 ,000

[CNTRY=BE] 7,712 ,795 9,702 ,000 6,154 9,270 ,005

[CNTRY=BG] -10,510 ,783 -13,419 ,000 -12,046 -8,975 ,009

[CNTRY=CH] 10,709 ,724 14,785 ,000 9,289 12,128 ,011

[CNTRY=CY] 9,880 ,841 11,750 ,000 8,232 11,528 ,007

[CNTRY=DE] 5,357 ,721 7,426 ,000 3,943 6,771 ,003

[CNTRY=DK] 14,106 ,853 16,541 ,000 12,434 15,777 ,013

[CNTRY=EE] ,599 ,887 ,675 ,500 -1,141 2,338 ,000

[CNTRY=ES] 9,722 ,748 13,004 ,000 8,257 11,188 ,008

[CNTRY=FI] 11,532 ,740 15,591 ,000 10,082 12,982 ,012

[CNTRY=FR] 4,844 ,739 6,554 ,000 3,395 6,292 ,002

[CNTRY=GB] 6,660 ,705 9,443 ,000 5,277 8,042 ,004

[CNTRY=NO] 11,279 ,813 13,869 ,000 9,685 12,873 ,009

[CNTRY=PL] 4,516 ,828 5,451 ,000 2,892 6,139 ,001

[CNTRY=PT] ,913 ,774 1,180 ,238 -,604 2,431 ,000

[CNTRY=RU] -5,272 ,809 -6,520 ,000 -6,857 -3,687 ,002

[CNTRY=SE] 10,008 ,782 12,791 ,000 8,474 11,541 ,008

[CNTRY=SI] 6,125 ,903 6,782 ,000 4,355 7,895 ,002

[CNTRY=SK] 0a . . . . . .

[GNDR=1] -1,004 ,243 -4,137 ,000 -1,480 -,528 ,001

[GNDR=2] 0a . . . . . .

Tästä estimaattitason

tulosteesta on jätetty kaksi

muuttujaa pois koska oli

vaikeuksia saada tuloste

jonnekin mahtumaan.

Nytkin sulla lienee

vaikeuksia hahmottaa

kaikkea hyvin. Yritä

kuitenkin. Muuttujan nimi

paria poikkeusta

lukuunottamatta asetettu

mahdollisimman hyvin

kuvaamaan sen luonnetta.

Skaalat ovat usein [0,100]

kuten rukoilu jossa iso arvo

merkitsee tiheämpää

rukoilemista ja arvo = 0

ettei koskaan rukoile.

Page 19: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

8.10.2009 SurveyMetodiikka 2009 Seppo 145

Harjoitusosio

Edellä on jo tuotu esille harjoitusmahdollisuuksia. Omakohtaiset mutta mikroluokassa ohjatut harjoitukset sisältävät seuraavaa:-Näytän Nielsenin tiedonkeruussa käytettävän skannerin toimintatavan.-Itsekukin tekee estimointeja Irak-datalla koskien kuolleiden lukumääriä yms. estimaatteja koko maan tasolla; mukana voi olla taustamuuttujia. Nyt panostetaan keskivirheisiin ja luottamusväleihin edellisessä vaiheessa tehdyn pohjalta. -Itsekukin tekee minimissään kolmenlaisten estimointien kokeilun PISAn Suomi-datalla itse valitsemilleen muuttujille ja mahdollisille taustamuuttujille: (i) keskiarvoja, (ii) frekvenssejä, (iii) monimuuttujainen regressiomalli. Keskivirheet eri tavoilla laskettuna (huonommilla ja paremmilla) ovat tärkeitä myös.

SAS-ajojen ohjeet on edellä näytetty. Seuraavilla sivuilla on lähtökohdat SPSS:lle.

Page 20: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

8.10.2009 SurveyMetodiikka 2009 Seppo 146

SPSS-ajon lähtökohdat 1

Page 21: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

8.10.2009 SurveyMetodiikka 2009 Seppo 147

SPSS-ajon lähtökohdat 2

Page 22: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

8.10.2009 SurveyMetodiikka 2009 Seppo 148

SPSS-ajon lähtökohdat 3

Page 23: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

8.10.2009 SurveyMetodiikka 2009 Seppo 149

SPSS-ajon lähtökohdat 4

Page 24: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

8.10.2009 SurveyMetodiikka 2009 Seppo 150

SPSS-ajon lähtökohdat 5

Page 25: Perusestimointi 5 - Helsinki2009+_+D.pdf · saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen

8.10.2009 SurveyMetodiikka 2009 Seppo 151

SPSS-ajon lähtökohdat 6Hieman tuloksiakin tässä, tulkitse