korelacijske metode psihologija (1.st.) – 2. letnik 2011/12 6. predavanje:
Post on 07-Apr-2016
137 Views
Preview:
DESCRIPTION
TRANSCRIPT
Korelacijske metode
psihologija (1.st.) – 2. letnik
2011/12
6. predavanje:Uvod v večnivojsko modeliranje (multilevel
modeling) /hierarhično linearno modeliranje (hierarchical
linear modeling, HLM)(tudi: mixed models, random coefficient models)
HLM ni nič novega …
Je nadgradnja GLM
Enostavne linearne regresijeMultiple linearne regresije
ANOVEANCOVE
ANOVE za ponovljena merjenja
Modeliranje: napovedovanje, opis odnosov med spremenljivkami
Linearno: linearni odnosi
Hierarhično: urejenost podatkov v več ravni
IZHODIŠČE – MODEL MULTIPLE REGRESIJE
PREDPOSTAVKE LINEARNE REGRESIJE:
1. linearnostPovezanost lahko najbolje opišemo s premico.Kršitev vpliva na interpretacijo korelacijskih in regresijskih koeficientov.
2. homoscedastičnostStandardna napaka napovedi je enaka na celotnem razponu X.Kršitev vpliva tudi na interpretacijo korelacijskih in regresijskih koeficientov.
3. normalnost porazdelitve rezidualovKršitev vpliva na inferenčne teste in na pravilnost intervalov zaupanja za Y’.
4. naključno vzorčenje (neodvisnost opazovanj):Vsaka oseba ima enako verjetnost, da bo izbrana v vzorec.Najpogosteje kršena pri večstopenjskem vzorčenju.Kršitev resno vpliva na inferenčne teste. Za modeliranje GNEZDENIH PODATKOV tradicionalne statistične tehnike niso ustrezne!
HLM
Y a b X ei jj
P
ij i
1
Kaj je večnivojsko ali hierarhično linearno modeliranje?
Gnezdeni podatki1. Posamezniki gnezdeni znotraj skupin
– posamezniki – države– otroci – družine – okoliši– delavci – oddelki – podjetja– učenci (raven 1, i) – razredi (raven 2, j) – šole (raven
3, k) – države (raven 4, l)
Posamezniki
Enota analize = posamezniki
Posamezniki gnezdeni znotraj skupin
Enota analize = posamezniki + razredi
raven 1raven 2
… in te gnezdene v še večje skupine
Enota analize = posamezniki + razredi + šole
Raziskovalno vprašanje Kakšne učinke imajo naslednje
spremenljivke na bralno razumevanje učencev 4. razreda?
velikost šoleklima v razredu
spol učenca
Kaj je večnivojsko ali hierarhično linearno modeliranje?
Gnezdeni podatki1. Posamezniki gnezdeni znotraj skupin
– posamezniki – države– otroci – družine – okoliši– delavci – oddelki – podjetja– učenci (raven 1, i) – razredi (raven 2, j) – šole (raven
3, k) – države (raven 4, l)2. Večkratna merjenja gnezdena znotraj istih oseb
– merjenje (ponovljene meritve) – otroci (neponovljene meritve) – vrtci (neponovljene meritve)
Časovne točke (ponovljena merjenja) gnezdene znotraj posameznikov
Primer 1: Fokus = sprememba ali rast
JanezDan Raven
energijePonedeljek = 0 98Torek = 1 90Sreda = 2 85Četrtek = 3 72Petek = 4 70
DAY
543210
EN
ER
GY
100
90
80
70
60
Časovne točke (ponovljena merjenja) gnezdene znotraj posameznikov
DAY
543210
EN
ER
GY
100
90
80
70
60 Rsq = 0.9641
Časovne točke (ponovljena merjenja) gnezdene znotraj posameznikov
Spremembe pri petih posameznikih
0 1.00 2.00 3.00 4.000
25.00
50.00
75.00
100.00
Time
Ener
gy L
evel
Changes in Energy Level Over the Week
Časovne točke (ponovljena merjenja) gnezdene znotraj posameznikov
Primer 2: Fokus = odnosi med spremenljivkami znotraj posameznika
JanezDan Ure spanja Raven energijePonedeljek 9 98Torek 8 90Sreda 8 85Četrtek 6 72Petek 7 70
Časovne točke (ponovljena merjenja) gnezdene znotraj posameznikov
HOURS
9.59.08.58.07.57.06.56.05.5
EN
ER
GY
100
90
80
70
602.00 4.50 7.00 9.50 12.000
25.00
50.00
75.00
100.00
Hours of SleepEn
ergy
Lev
el
Repeated Measures Nested Within Individuals (3 Individuals)
Časovne točke (ponovljena merjenja) gnezdene znotraj posameznikov
Težave pri večstopenjskem vzorčenju:• odvisnost opazovanj
• Podatki gnezdeni znotraj skupine bodo nagnjeni k večji podobnosti kot podatki posameznikov, vzorčenih naključno. (Skupinska dinamika navadno vpliva na posameznike.)• “efektivni N” < N
• različni odnosi na različnih ravneh - na kateri ravni velja naša interpretacija?HLM omogoča analizo na več ravneh hkrati in upošteva odvisnost opazovanj.Hierarhično linearno modeliranje - HLM(večnivojsko modeliranje, multilevel linear modeling, linearni mešani modeli, modeli naključnih učinkov, modeli naključnih regresijskih koeficientov, modeli kovariančnih komponent)
Gnezdeni podatki
Koeficient intraklasne korelacije (angl. intraclass correlation - ICC) je mera odvisnosti podatkov.
0,00 (povsem neodvisni) do 1,00 (povsem odvisni)
ICC nam pove, ali je HLM potreben ali ne.
Zakaj večnivojsko modeliranje in ne tradicionalni statistični pristopi?
Tradicionalni pristopi – 1 raven1. Analiza na ravni posameznikov Ignoriramo skupine.
S tem kršimo predpostavko neodvisnosti podatkov. To lahko vodi v napačno oceno standardnih napak (v resnici so večje) in napačne zaključke!
2. Analiza na ravni skupin Združimo podatke posameznikov iz iste skupine in torej ignoriramo posameznike.Pristranskost zaradi agregiranja = pomen spremenljivk na ravni 1 (npr. individualni SES) je lahko drugačen kot je na ravni 2 (SES šole). Z agregiranjem izgubimo informacijo o variabilnosti znotraj skupin.Numerus se močno zmanjša.
HLM• hkrati lahko preučujemo več ravni• preučujemo lahko variabilnost znotraj skupin in med skupinami
Intraklasni korelacijski koeficient(ICC)
• Je delež variance Y, ki pripada razlikam med skupinami (med enotami na ravni 2).
• npr. = 0,35 pomeni, da 35 % variance pojasnijo razlike med skupinami skupine so različne, posamezniki znotraj skupin so odvisni/povezani
00 med2
00 med zn
τ varρ =τ +σ var var
Aplikacije HLM
Klasični hierarhično strukturirani podatki analize velikih baz podatkov; mednarodne
študije PISA, TIMMS…)– v raziskavah organizacij• Analiza krivulj rasti (Growth Curve Analysis)– V razvojnopsiholoških študijah (študije sprememb
v času)• Metaanalize
Koliko in kakšne podatke potrebujemo?
• Koliko?– Ponavadi preučujemo dve ali tri ravni. Npr. 15 učencev × 10 razredov ×
10 šol = 1500 !!!– Minimalne zahteve:
• Na ravni 2 potrebujemo vsaj 20, raje 50, še raje 100 enot. Več kot je enot, boljša je ocena varianc na ravni 2.
• Kreft (1996): moč testov je ustrezna, če je 30 skupin po 30 podatkov; 60 skupin po 25 podatkov; 150 skupin po 5 podatkov; Če skupine niso enako velike, je treba vključiti več skupin.
• Kakšne?– vse merske ravni: intervalne, binarne, kategorialne (dummy variable);
PASW/SPSS samo intervalne, ki morajo biti linearno povezane z naključnimi faktorji in kovariati
– ne sme biti manjkajočih vrednosti
Rezultati HLM
• regresijski parametri (skupni / po skupinah; nestandardizirani / standardizirani)
• komponente variance
Potek HLM1. Za orientacijo poženemo enostavno OLS na skupinah in na celotnem
vzorcu.2. Razmislimo, kako bomo vstavljali spremenljivke v model: (i)
necentrirane, (ii) centrirane glede na skupino, (iii) centrirane glede na populacijo implikacije za presečišča in zaključke.
3. Naredimo ničelni model (model z naključnimi presečišči). Izračunamo ICC.
4. Gradimo modele na ravni 1 in ravni 2:– na osnovi teorije– gradimo jih postopno
• vsak model primerjamo z ničelnim / predhodnim• če se sestavljeni modeli bolje prilegajo podatkom, jih sprejmemo• v modelu ohranimo prediktorje, ki so pomembni
– pazimo, kaj v modelu lahko naključno variira
Predpostavke HLM
• naključen vzorec enot na ravni 2• neodvisnost enot na ravni 2 (in enakost
njihovih kovariančnih struktur)• podobno velike skupine, sicer se raven
alfa napake pri ocenjevanju parametrov in prileganja modela zviša
• N. D. (pogojno)
Software za izvajanje HLM
• SPSS – Linear mixed models• HLM 6 (Raudenbush, Bryk, Cheong, & Congdon,
2004)– vhodni podatki so lahko .sav datoteke
• ena za raven 1• ena za raven 2
– http://www.ssicentral.com/hlm/downloads.html• PROC MIXED (za uporabnike SAS)
MLwiN
Težave pri večstopenjskem vzorčenju:• odvisnost opazovanj (“efektivni N” < N);• spremenljivke na različnih ravneh;• različni odnosi na različnih ravneh (na kateri ravni
velja naša interpretacija?).
HLM omogoča analizo na več ravneh hkrati in upošteva odvisnost opazovanj.
Večstopenjsko vzorčenje: vzorčimo v 2/več korakih, npr.•1. skupine, 2. osebe (npr. učni uspeh in razredna klima)•1. osebe, 2. časovne točke (npr. razpoloženje in zračni pritisk)
Odvisnost vzorčenja je lahko…
…nujno zlo (prihranek časa/denarja)npr.: proučujemo odnos IQ-šolski uspeh; vzorčimo šole, v njih učence.
ali … zanimiv pojav, npr.:osebnost trenerja motivacija športnikovosebnost trenerja kohezivnost šp. klubauspešnost športnika trenerjevo občutenje stresa
Neustrezne bližnjice pri analizi večnivojskih podatkov
Agregacija: delamo s povprečji.: izguba info, pomen spremenljivk lahko različen na različnih ravneh (npr. volitve).
Disagregacija: delamo le na spodnji ravni.: “čudežna pomnožitev št. enot” oz.: efektivni N < dejanskega
Ali je večnivojska analiza sploh potrebna?
Koeficient intraklasne korelacije
(relativna podobnost enot znotraj skupine, % variance na skupinski ravni)
znotrajmed
med
VarVarVarICC
nj = št. oseb v skupini, N = št. skupin
ICCnNnNefekt
)1(1.
ICC vpliva na “efektivni numerus”:
0,000
0,100
0,200
0,300
0,400
0,500
0,600
0,700
0,800
0,900
1,000
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
ICC
efek
tivni
N /
N
n=10n=30n=50
Model z naključnim presečiščem (random intercept model ) za en napovednik:
Raven 1: Yij = b0j +b1Xij + eij
Yij = vrednost OS za osebo i v skupini j Xij = vrednost NS za osebo i v skupini j b0j = regr. konstanta v skupini j b1 = regr. nagib eij = rezidual (napaka napovedi)
Pozor: nekonsistentna notacija v literaturi!
Izhodišče HLM: regresijski parametri po skupinah so (lahko) naključne spremenljivke.
Model z naključnim presečiščem (nadaljevanje)
Raven 2 (prazni model): b0j = 00 + u0j
00 = povprečno presečišče za vse skupineu0j = odklon v skupini j (latentna spremenljivka)
Model postane: Yij = 00 +b1Xij + u0j + eij
fiksni del naključni del
Napake napovedi na več ravneh!
05
101520253035404550
0 5 10 15
Regresijske premice po skupinah:
00
b01
u01 = b01-00
V osnovnem (praznem) modelu so u naključne spremenljivke (razlike med skupinami samo ocenimo, ne pa tudi pojasnimo)…
Vključimo lahko prediktorje na višjih ravneh:
b0j = 00 + b01Zj + u0j
Zj = spremenljivka na drugi ravni (skupinska sprem.)b01= regresijski nagib skupinske spremenljivke
Spremenljivke na višji(h) ravni(-eh) pojasnjujejo varianco u – “intercepts as outcomes”.Vsak nivo implicira svojo populacijo.
Model z naključnimi nagibi (random slope model)preko skupin se lahko spreminjajo tudi regresijski nagibi (ki jih lahko pojasnjujemo)
0
2
4
6
8
10
12
14
16
0 2 4 6 8 10
S1
S2
S3
Rezultati HLM:• regresijski parametri za fiksni del,• komponente variance (za naključni del),• odstotki (pojasnjene) variance,• mere prileganja modela (deviance).
Predpostavke: (neodvisnost vzorčenja); linearnost odnosov neodvisnost rezidualov na
različnih ravneh; normalnost porazdelitve rezidualov; (homoscedastičnost).
Primer HLM (Raudenbush & Bryk, 2002):
Odvisna spremenljivka:dosežek na testu znanja matematike.
Neodvisni spremenljivki:raven 1: SES (kompozitna spremenljivka),raven 2: vrsta šole (javna/katoliška).
Model 0 (“prazni model”):(skupno presečišče + skupinski rezidual + individualni rezidual) MAT = 00 + u0j + eij
raven 1: MAT = b0j + eij
raven 2: b0j =00 + u0j
Komponente var.: Var(u) = 8,61, Var(e) = 39,15
ICC = 0,18 >> 0
Večnivojska analiza je utemeljena!
Model 1: uvedemo SES na ravni 1(naključna presečišča, enak nagib v vseh skupinah)
raven 1: MAT = b0j + b1*SES + eij
raven 2: b0j =00 + u0j (enako kot v modelu 0)
R2 na ravni 1 = 0,05R2 na ravni 2 = 0,45
3.20
7.90
12.60
17.30
22.00
MAT
HA
CH
-2.84 -1.75 -0.66 0.42 1.51
SES
Model 2: uvedemo vrsto šole na ravni 2
raven 1: MAT = b0j + b1*SES + eij (enako kot prej)raven 2: b0j =00 + 01*VRSTA + u0j
R2 na ravni 1 = 0,05R2 na ravni 2 = 0,57
vrsta šole vpliva na povprečni dosežek šole.
-2.51 -1.50 -0.50 0.51 1.513.44
7.92
12.39
16.87
21.34
SES
MAT
HA
CH
Model 3: uvedemo naključne nagibe za SES
raven 1: MAT = b0j + b1j*SES + eij
raven 2: b0j =00 + 01*VRSTA + u0j (enako)b1j =10 + u1j
R2 ostane enak, vendar boljše prileganje modela:2 = 9,29, df = 2, p = 1%
Model 4: ali lahko nagibe za SES pojasnimo z vrsto šole?
raven 1: MAT = b0j + b1j*SES + eij (enako)raven 2: b0j =00 + 01*VRSTA + u0j (enako)
b1j =10 + 10*VRSTA + u1j
R2 za nagib = 0,71
v katoliških in javnih šolah ima SES različno velik vpliv na dosežke)
ITD…
top related