distribuţia multinomială testul chi-pătrat · pdf filetestul chi-pătrat al asocierii...

27
Distribuţia multinomială Testul chi-pătrat M. Popa

Upload: phungduong

Post on 06-Feb-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale

Distribuţia multinomialăTestul chi-pătrat

M. Popa

Page 2: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale

Evenimente probabilistice

• binomiale– valori dihotomice (P, Q):

• (masculin/feminin, absent/prezent, adevărat/fals, etc.)

• multinomiale– mai mult de două valori (P, Q, R...):

• tip de liceu absolvit (“real”, “umanist”, “artistic”, “industrial”)

• religia (“islamic”, “ortodox”, “catolic”...)• efectul terapiei (“ameliorat”, “înrăutăţit”, “fără

efect”)

Page 3: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale

un exemplu:

• tipul de liceu absolvit de

studenţii la psihologie (N=100)– umanist (P)=60

– artistic (Q)=30

– real (R)=10

• P+Q+R=1

• P=1-Q-P

• dacă liceele ar avea acelaşi

număr de absolvenţi:P=Q=R=1/3=0.33 (100/3=33.3)

frecvenţe

observate (fO)

Page 4: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale

Tabelul de corespondenţă (contingenţă)

pentru date categoriale

Liceuumanist

Liceureal

Liceuartistic

Total

pe linii

Fac. Umaniste 45 20 30 95

Fac. Tehnice 14 60 12 86

Fac. Artistice 20 13 50 83

Total

pe coloane79 93 92 264

frecvenţe

marginale

frecvenţe marginale

fO

N

Page 5: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale

Fundamentarea testului statistic

Page 6: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale

Liceu

umanist

Liceu

real

Liceu

artistic

Total

pe

linie

Frecvenţe

marginale

Fac.

Umaniste

45 20 30 95 (95/264)*100=36%

(79*36)/100

28.4

(93*36)/100

33.4

(92*36)/100

33.1

Fac.

Tehnice

14 60 12 86 (86/264)*100=32,5%

(79*32.5)/100

25.6(93*32.5)/100

30.2(92*32.5)/100

29.9

Fac.

Artistice

20 13 50 83 (83/264)*100=31.5%

(79*31.5)/100

24.8

(93*31.5)/100

29.2

(92*31.5)/100

28.9

Total pe

coloană79 93 92 264

fE ?

Page 7: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale

• se bazează pe evaluarea distanţei dintre fO şi fE

• formula este derivată din z:

• valorile urmează o distribuţie specială: chi-pătrat (χ2)

– o familie de distribuţii;

– asimetrică;

– originea în zero;

– formă dependentă de numărul de

grade de libertate.

• df=(nr. coloane-1)*(nr. linii-1)

( )QPN

PNXz

**

* 22 −=

Testul chi-pătrat (χ2) - Karl Pearson

∑−

=E

EO

f

ff 22 )(

χformula de calcul

Page 8: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale

Decizia statisticăSe identifică χχχχ2

critic pentru alfa ales şi df corespunzătoare

αααα = 0.05

ΤΤΤΤabela χχχχ2

(parţial)

χχχχ2critic0

Respingere

df\aria .100 .050 .025 .010 .005

1 2.70554 3.84146 5.02389 6.63490 7.87944

2 4.60517 5.99146 7.37776 9.21034 10.59663

3 6.25139 7.81473 9.34840 11.34487 12.83816

... ... ... ... ... ...

Page 9: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale
Page 10: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale

Tipuri de teste χ2

• testul corespondenţei (goodness of fit)– compară fO cu fE ale aceleiaşi variabile

– obiectiv: testarea diferenţei faţă de un model de distribuţie aşteptat

• testul asocierii (independenţei)– compară fO cu fE ale două variabile

– obiectiv: testarea asocierii valorilor celor două variabile

Page 11: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale

Exemplu: 100 studenți la psihologie

Frecvența observată

• Liceu umanist=60 (0.6)• Liceu artistic=30 (0.3)• Liceu real=10 (0.1)

Proporții teoretice (de nul

• Liceu umanist=33.33 (0.33)• Liceu artistic=33.33 (0.33)• Liceu real=33.33 (0.33

Problema cercetării: există o preferință pentru psihologie în funcție de liceul absolvit?

Criterii de decizie: alfa=0.05df(2-1)*(3-2)=1χ2

critic=?

Chi-pătrat pentru gradul de

corespondenţă (Goodness of Fit)

Page 12: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale

df\aria .100 .050 .025 .010 .005

1 2.70554 3.84146 5.02389 6.63490 7.87944

2 4.60517 5.99146 7.37776 9.21034 10.59663

3 6.25139 7.81473 9.34840 11.34487 12.83816

4 7.77944 9.48773 11.14329 13.27670 14.86026

5 9.23636 11.07050 12.83250 15.08627 16.74960

6 10.64464 12.59159 14.44938 16.81189 18.54758

7 12.01704 14.06714 16.01276 18.47531 20.27774

8 13.36157 15.50731 17.53455 20.09024 21.95495

9 14.68366 16.91898 19.02277 21.66599 23.58935

10 15.98718 18.30704 20.48318 23.20925 25.18818

11 17.27501 19.67514 21.92005 24.72497 26.75685

... ... ... ... ... ...

Tabela χ2 (fragment)

χ2critic=3.84

Page 13: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale

E

EO

f

ff 2)( −

Calificativ

Frecvenţa

observată

(fO)

Frecvenţa aşteptată

(fE)

Umanist 60 33.3% din 100 =33.3

Artistic 30 33.3% din 100 =33.3

Real 10 33.3% din 100 =33.3

Σ 100 χ2calculat=38

• χ2calculat (38) > χ2

critic (3.84)• H0?• H1?• Concluzia cercetării? • Acest test nu are un coeficient al mărimii efectului

38.213.33

)3.3360( 2

=−

32.03.33

)3.3330( 2

=−

30.163.33

)3.3310( 2

=−

Page 14: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale
Page 15: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale

Testul chi-pătrat al asocierii

(independence chi-square)

• mai frecvent utilizat• compară fO ale unei variabile cu fE ale altei variabile

(ambele categoriale)• Măsoară asocierea a două variabile nominale (similar

unui test de corelaţie pentru date nominale)

• obiectiv: există o relaţie între cele două variabile?• exemplu:

– 264 studenți la trei tipuri de facultăți (umaniste, artistice, tehnice), care provin de la trei tipuri de licee (umanist, artistic, real)

– obiectiv: este o legătură între tipul de liceu absolvit și facultatea aleasă?

– criterii de decizie: alfa=0.05; df=(3-1)*(3-1)=4; χ2critic=

9.48

Page 16: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale

FU/LU 45 28,4

FU/LA 30 33,1

FU/LR 20 33,4

FT/LU 14 25,6

FT/LA 12 29,9

FT/LR 60 30,2

FA/LU 20 24,8

FA/LA 50 28,9

FA/LR 13 29,2

Σ N=264 χ2calculat =86.06

70.94.28

)4.2845( 2

=−

29.01.33

)1.3330( 2

=−

37.54.33

)4.3320( 2

=−

25.56.25

)6.2514( 2

=−

71.109.29

)9.2912( 2

=−

4.292.30

)2.3060( 2

=−

92.08.24

)8.2420( 2

=−

4.159.28

)9.2850( 2

=−

98.82.29

)2.2913( 2

=−

Page 17: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale

Interpretarea testului χ2

• în primul rând se decide asupra semnificaţiei testului– χ2 calculat (86.06) < χ2 critic (9.48)– H0?– H1?– Concluzia cercetării?

• Apoi:– se analizează procentele celulelor tab. de corespondenţă– se scot în evidenţă procentele relevante pentru ipoteza

cercetării (se constată procente mai mari în cazul concordanței dintre tipul de liceu și tipul de facultate)

Page 18: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale
Page 19: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale

Mărimea efectului pentru χ2

• Indicele φ (fi)N

2χϕ =

• Indicele φc (fi) Cramer)1(

2

−∗=

LNc

χϕ

• N este volumul eşantionului• L este valoarea cea mai mică dintre numărul liniilor sau alcoloanelor tabelului de corespondenţă (de exemplu, pentru untabel de corespondenţă 4x3 - patru linii şi patru coloane - L arevaloarea 3-1=2).

Page 20: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale

Interpretarea lui φ

40.0)12(*264

06.86

)12(

2

=−

=−∗

=N

c

χϕ

Pentru exemplul nostru...

φ (Cohen)

0.10 efect mic

0.25 efect mediu

0.40 efect mare

Indice al asocierii. Se interpretează similar cu coeficientul de corelaţie

Prin ridicarea la pătrat poate fi interpretat procentual

Page 21: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale

Raportarea rezultatelor

• „Pentru un eșantion de 264 de studenți de la trei

tipuri de facultăți (umaniste, artistice, tehnice) a

fost testată relația cu liceul de proveniență

(umanist, artistic, real). Testul χ2 pentru

asocierea variabilelor indică faptul că rezultatele

diferă semnificativ în funcţie de gen, χ2(4) =86.06,

p >0 .05 (φc=0.57), ceea ce arată o asociere între

tipul de liceu și facultatea aleasă”

Page 22: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale

Condiţii pentru testul χ2

• Cele două variabile nu trebuie să se „intersecteze” (să nu existe subiecţi care să fie incluşi în mai mult de o celulă de tabel)

• Selecţie aleatoare a eşantioanelor• Frecvenţa aşteptată să nu ia valori mai mici de 5

(sau, cel puţin, în nu mai mult de 20% din celule).• Nici o celulă nu trebuie să aibă frecvenţa aşteptată

mai mică de 1.– corecţia Yeates ( )

∑−−

=ΧE

EO

f

ff2

2 5.0

Page 23: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale

Utilizarea testului chi-pătrat al

asocierii

• testarea asocierii a două variabile categoriale (nominale, ordinale sau... I-R!)

• înlocuitor pentru testul t sau ANOVA, dacă nu sunt întrunite condiţiile– după transformarea var. dep. în var. categorială

Page 24: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale

Testul exact Fisher

• testul chi-pătrat nu urmează cu maximă precizie distribuţia χ2• cazuri în care rezultatele pot fi alterate suficient de mult pentru

a putea fi luate în considerare:– volumul eşantionului este redus (N<20);– valorile fe pentru una sau mai multe dintre celulele tabelei de

corespondenţă sunt foarte mici.

• În aceste situaţii, precum şi atunci când tabelul de corespondenţă este compus din două linii şi două coloane– este recomandabilă utilizarea testului exact Fisher– se bazează pe calcularea tuturor tabelelor posibile ce pot fi construite

pentru frecvenţele marginale– testul exact Fisher se efectuează numai cu ajutorul programelor

computerizate.

Page 25: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale
Page 26: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale

Sinteza testelor statistice neparametrice nominale

distribuţie

binomială

distribuţie

multinomială

1 eşantion

2 eşantioaneindependente

2 eşantioanedependente

chi-pătrat al asocierii

(independenţei)

chi-pătrat al corespondenţei(goodness of fit)

z - prop.unui eşantion

z - prop.a două eşant.

testulsemnului

Variabila

dependentă

categorială

(nominală)

Page 27: Distribuţia multinomială Testul chi-pătrat · PDF fileTestul chi-pătrat al asocierii (independence chi-square) • mai frecvent utilizat • compară fOale unei variabile cu fEale

Săptămâna viitoare... ultima evaluare parţială!Data examenului: ??