5. változók kapcsolatának vizsgálata
DESCRIPTION
5. Változók kapcsolatának vizsgálata. Kétdimenziós minta (pontdiagram) Trendvizsgálat, lineáris regresszió Determinációs együttható A korrelációs együttható jelentései A Fisher-féle Z-transzformáció A parciális korreláció modellje A sztochasztikus monotonitás. Tartalom. Kétdimenziós minta. - PowerPoint PPT PresentationTRANSCRIPT
1
5. Változók kapcsolatánakvizsgálata
2
Tartalom Kétdimenziós minta (pontdiagram) Trendvizsgálat, lineáris regresszió Determinációs együttható A korrelációs együttható jelentései A Fisher-féle Z-transzformáció A parciális korreláció modellje A sztochasztikus monotonitás
3
Kétdimenziós mintaTanuló Tanulással töltött
idő (óra/nap)Tanulmányi átlag
1. 2 3,0
2. 4 4,0
3. 2 4,0
4. 4 3,0
5. 1 3,5
6. 3 2,5
7. 5 3,0
8. 3 5,0
4
Pontdiagram (kétváltozós)
2
3
4
5
0 1 2 3 4 5
Hány órát tanul naponta?
Tan
ulm
ányi
átla
g
5
Pozitív lineáris kapcsolat (I)
35
40
45
50
55
1 2 3 4 5
Születési súly (kg)
Szü
leté
si h
ossz
(cm
)
6
Pozitív lineáris kapcsolat (II)
115
120
125
130
135
140
145
20 25 30 35 40 45
Testsúly 10 éves korban (kg)
Tes
tmag
. 10
éve
sen
7
Nem lineáris (U-alakú) kapcsolat
-3 0 3
X
Y
8
Függetlenség
20
50
80
20 50 80
0
0,5
1
0 0,5 1
Y Y
X X
9
Összefüggés, kapcsolat két változó (X és Y) között
Az X-értékek és az Y-értékek együttjárása, együttmozgása, együtt-változása valamilyen szabály szerint
10
Mi a szabály az alábbi két változó kapcsolatában?
35
40
45
50
55
1 2 3 4 5
Születési súly (kg)
Szü
leté
si h
ossz
(cm
)
11
Mire jó, ha egy ilyen szabályt feltárunk?
Megértünk valamit (elméleti szempont)
Segítségével következtetéseket vonhatunk le (gyakorlati szempont).
Pl.: ha X értéke ennyi, Y értéke mennyi?
12
Előrejelzés egyenes segítségével: ha X = 2, Y = ?
35
40
45
50
55
1 2 3 4 5
Születési súly (kg)
Szü
leté
si h
ossz
(cm
)
X
Y
13
Regressziós feladat Az X és az Y változó között az
összefüggés szabályának kitalálása: hogyan „függ” X-től Y?
A függés nem feltétlenül ok-okozati (pl. a gyerekről is lehet a szülőre következtetni)
A függés típusa többféle lehet: pl. lineáris vagy sokféle nemlineáris (U-alakú, exponenciális stb.)
14
Az előrejelzés alapfogalmaiJósolt (függő) változó: YJósló (előrejelző, független) változó: XLineáris előrejelzés (jóslás): Ŷ = a + bXAz x értékhez tartozó igazi Y-érték: yAz x értékhez tartozó előrejelzés:
ŷ = a + bx
15
0
80
160
240
320
0 1 2 3 4 5 X
a
‘a’: Y-tengelymetszet
‘b’: meredekségi együttható: b = tg(
Egy y = a + bx egyenes paramétereiY
16
A lineáris kapcsolat jellemzője
Nem mindig egyenes arányosságAzonos mértékű X-változást
mindig azonos mértékű Y-változás kísér1 egységnyi X-változás esetén Y várható
változása b egységnyi
17
Példa lineáris regresszióra
Változók: X: ThosszSzül, Y: Thossz10évesRegressziós egyenlet:
Ŷ = 96,88 + 0,83XKövetkeztetés (regressziós előrejelzés):
Pl. X = 45cm esetén:Ŷ = 96,88 + 0,83·45 = 134,23 (cm)
GYAK
18
A regressziós becslés hibája egy személynél
Ha egy személynél a becsült (előrejelzett) 10 éves kori testmagasság 151 cm (Ŷ) és a valódi érték 146 cm (Y), akkor a hiba: Abszolút eltérés: |151-146| = 5 cm
Négyzetes eltérés: (151-146)2 = 52 = 25 cm2
19
A regressziós becslés átlagos hibája: a standard hiba
Átlagos négyzetes eltérés = Hibavariancia = Res
Hibaszórás = Gyök(hibavariancia) = Standard hiba (SH)
20
Var(Y) és Res jelentése Var(Y): átlagtól való átlagos négyzetes eltérés
= átlaggal való becslés hibavarianciája. (!!!)
SH2 = Res: regressziós becslés hibavarianciája.
Minél kisebb Var(Y)-nál Res, annál jobb a regressziós becslés
Hibacsökkenés: Var(Y) – Res
Relatív hibacsökkenés: (Var(Y) – Res)/Var(Y)
21
PéldákVáltozó Átlag Variancia Res SH RHCS
X: ThosszSzül 50,2 6,4Y: Thossz10 138,7 41,5 37,09 6,1 0,107
X: Anyatesth 161,1 38,3Y: Thossz10 138,7 41,5 36,02 6,0 0,132
X: Apatesth 173,4 46,0Y: Thossz10 138,7 41,5 35,96 6,0 0,134X: Tsúly10 33,2 46,4Y: Thossz10 138,7 41,5 23,33 4,8 0,438
GYAK
22
A determinációs együttható
Relatív hibacsökkenés = determinációs együttható
Megmagyarázott variancia-arány
Jelölés: Det(X, Y)
23
A korrelációs együttható A korrelációs együttható abszolút értéke a
determinációs együttható négyzetgyöke:
)Y,X(Detr A korrelációs együttható előjele megegyezik
a regresszió meredekségi együtthatójának (b) előjelével:
Pozitív trend: +, negatív trend:
24
A korrelációs együttható jelölései
Populációbeli (elméleti) korrelációs együttható jelölése:
ρ (ejtsd: ró), ρxy, ρ(x,y)
Mintabeli (Pearson-féle) korrelációs együttható jelölése:
r, rxy, r(x,y)
25
Egy korrelációs mátrix (n = 500)
Változó Súly0 Súly10 Tmag0 Tmag10
Súly0 1 0,16 0,79 0,24
Súly10 0,16 1 0,23 0,66
Tmag0 0,79 0,23 1 0,33
Tmag10 0,24 0,66 0,33 1
26
Néhány tipikus korreláció
Változók (X és Y) Korreláció
IQ és egyetemi előmenetel 0,3–0,5
Egypetéjű, együtt nevelt ikrek IQ-ja 0,86
Együtt nevelt testvérek IQ-ja 0,47
Külön nevelt testvérek IQ-ja 0,24
CPI Jó közérzet skálája és a házassággal való elégedettség
0,25–0,35
Vallásgyakorlat és istenhit 0,68
Vallásgyakorlat és vallási kultúra ismerete 0,03
Férj és feleség testsúlya 0,22
27
050
28
050
29
090
30
083
31
0
32
A korrelációs együttható jellemzői -1 r 1, -1 1 Ha X és Y független, akkor (X,Y) = 0. Ha (X,Y) = 0, vagyis ha X és Y korrelálatlan, akkor
nem feltétlenül függetlenek, de biztos, hogy nincs köztük lineáris típusú összefüggés (U vagy fordított U alakú kapcsolatban persze lehetnek).
Ha X és Y együttes eloszlása normális, azaz bármely rögzített X = x mellett Y normális, akkor a függetlenség és a korrelálatlanság ekvivalens.
33
A lineáris transzformáció hatása a korrelációs együtthatóra
Lineáris transzformációk:– Szám hozzáadása a változóhoz: Y = X +
100– Változó számmal szorzása: Y = 10X– Ezek kombinációja: Y = 50 + 3X
ρ és r abszolút értéke nem változik, legfeljebb az előjele
34
A korrelációs együttható szignifikanciájának vizsgálata
Nullhipotézis: H0: ρ = 0
Döntés alapja: egy n-elemű mintában kiszámított korrelációs együttható (r)
Mitől függ H0 elutasíthatósága?
– Az r együttható nagysága– Az f szabadságfok nagysága (f = n - 2)
Korrelációk férj és feleség Korrelációk férj és feleség ugyanazon jellemzői közöttugyanazon jellemzői között
CPI-skálák Rossz h. (n = 10)
Közepes (n = 14)
Jó ház. (n = 13)
Dominancia -0,362 0,273 0,406
Szociális jelenlét -0,145 0,398 0,627*
Önelfogadás -0,719* -0,061 0,278
Szorongás -0,588 -0,534* 0,259
Felelősségtudat 0,637* 0,541* -0,102
Tolerancia -0,308 0,364 0,431
36
Korrelációs mátrix szignifikanciákkal
Lányok (n = 256) SúlySzül Súly10
MamaSúly 0,289*** 0,201**
PapaSúly 0,097 0,282***
MamaTmag 0,213*** 0,121+
PapaTmag 0,126* 0,140*
(f = 254; +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001)
GYAK
37
Korrelációs mátrix p-értékekkel
Lányok (n = 256) SúlySzül Súly10
MamaTmag 0,213*** p=0,0006
0,121+ p=0,0532
PapaTmag 0,126* p=0,0443
0,140* p=0,0251
(f = 254; +: p < 0,10 *: p < 0,05 **: p < 0,01 ***: p < 0,001)
GYAK
A A 00: : = = 00 hipotézis hipotézis
vizsgálatavizsgálata
Szakmai kérdés: két változó (X és Y) korrelációja () egy populációban megegyezik-e egy feltételezett értékkel (0)?
Az r együtthatón végrehajtott Fisher-féle Z-transzformáció
segítségével lehetségesZ(r) normális eloszlású lesz
0: = 0
Intervallumbecslés Intervallumbecslés -ra-ra
Szintén a Z-transzformáció segítségével:
C0,95 = (r1; r2)
41
Intervallumbecslés -ra A nullhipotézis elutasítása csak annyit jelent,
hogy valószínűleg ρ ≠ 0. Ez nem sokat mond nekünk. 95%-os konfidencia-intervallum (hol kell
keresnünk nagy (95%-os) megbízhatósággal ρ-t?
C0,95 = (ra; rf)
Pl. n = 500, r = 0,79 esetén: C0,95 = (0,75; 0,82)
Pl. n = 16, r = -0,87 esetén: C0,95 = (-0,96; -0,65)GYAK
Korrelációs együtthatók Korrelációs együtthatók összehasonlítása összehasonlítása független minták független minták
segítségévelsegítségével 00: : 11 = = 22
0: 1 = 2
Ha H0 igaz, Z* st. norm. eloszlású
ZZ r Z r
n n
* ( ) ( )
1 2
1 2
13
13
hibaStZdifZ ./*
Személyiség és házasság: Személyiség és házasság: korrelációk férj és feleség közöttkorrelációk férj és feleség között
CPI-skálák Rossz h. (n = 10)
Közepes (n = 14)
Jó ház. (n = 13)
Önelfogadás -0,719* -0,061 0,278
Szorongás -0,588 -0,534* 0,259
45
A korreláció nem feltétlenül oki kapcsolat, csak egy együttjárás
Ha > 0, akkor három eset lehetséges:
a) X pozitív hatással van Y-ra
b) Y pozitív hatással van X-re
c) Valamilyen Z háttérváltozó hat egyidejűleg X-re és Y-ra
Z
A parciális korrelációs A parciális korrelációs együttható együttható
Meglepő korrelációk
Milyen korreláció van egy általános iskola összes tanulójának a mintájában a szókészlet és a lábméret között?
X ~~~~ Y
Z
A parciális korrelációs A parciális korrelációs együttható együttható logikájalogikája
A parciális korrelációs együttható jelentése
Milyen lenne X és Y között a korreláció, ha a Z változó hatását kiküszöbölnénk, állandó szinten tartva az értékét (feltételes korreláció)?Alkalmazási feltétel: X, Y és Z legyen külön-külön és együtt is normális eloszlású.
X és Y felbontásaX és Y felbontása
X változó
Z-től függőrész
Z-tőlnem függő
rész
Y változó
Z-től függőrész
Z-tőlnem függő
rész
Xmar Ymar
X = Xz + Xmar
Lineáris regresszióval
Y = Yz + Ymar
XY.Z = (Xmar,Ymar)
A XY.Z parciális korreláció a Z
lineáris hatásától „megtisztított”
X és Y közti sima korreláció
X ~~~~ Y
Z
Érdekes példa
0,64
0,80 0,80
rxy.z = 0
Másik érdekes példa
X ~~~~ Y
Z
0,10
-0,60 0,60
rxy.z = 0,72
Egy Rorschach-példa (n = 359 normál személy)
r(Isk, Ruha) = 0,32**
r(Isk, Táj) = 0,26**
r(Isk, Szem) = 0,18**
Korrelációk Korrelációk a Rorschach-Feleletszámmala Rorschach-Feleletszámmal
Iskol. Ruha Táj Szem
FSZ 0,38** 0,57** 0,29** 0,41**
Korrelációk és parciális Korrelációk és parciális korrelációk az iskolázottsággalkorrelációk az iskolázottsággal
X = Isk Y=Ruha Y=Táj Y=Szem
Korr (rIsk,Y) 0,32** 0,26** 0,18**
Parc. korr. (rIsk,Y.FSZ ) 0,13* 0,17**
0,03
GYAK
58
Mi történik, ha a parciális korreláció normalitási feltétele sérül?
Ilyenkor a változók között nem csak lineáris kapcsolatok léphetnek fel
A lineáris kapcsolat kiszűrésével nem szűrjük ki a háttérváltozó teljes hatását
A parciális korreláció nem feltétlenül egyezik meg a feltételes korrelációval
Téves értelmezés lehetősége!!!
59
Mit csináljunk, ha a változóink nem normális eloszlásúak?
Wilcox-féle robusztus korreláció (rpb)
Rangkorrelációk minimum ordinális változók között (monotonitási mérőszámok)
– Spearman-féle rangkorreláció: Pearson-korreláció a rangszámok között
– Kendall-féle rangkorreláció: pozitív és negatív kapcsolat arányának a különbsége
Két változó,X és Y
sztochasztikus monoton kapcsolata
0
4
8
12
16
0 1 2 3 4
Y
X
Determinisztikus monoton növekedés
Ha X nő,akkor
Y is nő.
0
4
8
12
16
0 1 2 3 4
Y
X
Sztochasztikus monoton növekedés
***
*
*
*
*
*
**
*
* *
*
*
*
*
Ha X nő,akkorvaló-színű,hogy
Y is nő.
Ksz. X Y 1. 1 35 2. 1,5 34 3. 2 36 4. 3 37 5. 7 38 6. 10 39
Egy példa
Ksz. X rang Y rang 1. 1 1 35 2 2. 1,5 2 34 1 3. 2 3 36 3 4. 3 4 37 4 5. 7 5 38 5 6. 10 6 39 6
Változónként rangsorolunk
Spearman-féle rangkorreláció (rS):korreláció a rangszámok
között
+
A
B
C
D X
Y
Konkordancia és diszkordancia
Konkordáns pár: kis X kis Y-nal, nagy X nagy Y-nal jár együtt (pozitív együttjárás)Diszkordáns pár: kis X nagy Y-nal, nagy X kis Y-nal jár együtt (negatív együttjárás)
pp
pKonkordáns párokaránya a populációban
pDiszkordáns párokaránya a populációban
Kendall-féle monotonitási e.h.
1 +1 Ha X és Y független: 0 = 0: nincs sztoch. monotonitás 1tiszta monoton fogyó
kapcsolat1tiszta monoton növő
kapcsolat
A Kendall-féle jellemzői
70
Mit csináljunk, ha X és/vagy Y nem folytonos?
Egyirányú monotonitási mérőszámok (Somers-féle DYX és DXY)
Egyirányú mérőszámok geometriai átlaga: Kendall-féle tau-b
Erős diszkrétség esetén: Kendall-féle gamma
p p
p p
A Kendall-féle gammamonotonitási együttható
A pozitív kapcsolat relatív fölénye. Diszkrét X és Y esetén javasolt.
1 +1 Ha X és Y független: = 0 Ha = 0: nincs sztoch. monot. Ha = 1: p+ = 0
Ha = +1: p = 0
A Kendall-féle jellemzői
A H0: = 0 hipotézis vizsgálata
Mintabeli tau: Kendall-féle rangkorrelációs együttható (r)
Sztochasztikus monotonitás tesztelése: r szignifikanciájának vizsgálata
H0: Nincs monoton kapcsolat
+
A
B
C
D X
Y
r kiszámítása a mintában
++
C+
E = n = 4F = n= 2
r = (4-2)/6
= 2/6 = 0,33
E = konkordanciák számaF = diszkordanciák számaT = összes párok száma
= n(n-1)/2
r = (E - F)/T, = (E - F)/(E+F)
Mikor teljesül az, hogy r = ?
r és képlete