st2 10 anova fact
DESCRIPTION
description of ANOVA factorialTRANSCRIPT
-
Analiza de varian factorial
Marian Popa
Introducere nainte de a introduce subiectul propriu-zis al acestei teme, s facem o scurt trecere n revist a conceptului de analiz de varian. n esen, analiza de varian i propune s pun n eviden semnificaia diferenelor dintre mediile unor eantioane, nu pe baza diferenei directe dintre ele, ci pornind de la mprtierea (variana) lor. Cu alte cuvinte, cu ct mediile supuse comparaiei sunt mai diferite (au o mprtiere mai mare), cu att este mai posibil ca aceast mprtiere s fie datorat unei diferene semnificative dintre ele.
Pentru exemplificare, s ne imaginm urmtorul exemplu: Un cercettor dorete s evidenieze relaia dintre conformism i categoriile vrst (21-30 ani, 31-40 ani i 41-50 ani). n acest caz, avem o variabil independent (vrsta) msurat pe o scal nominal (categorial) cu mai mult de dou valori, i o variabil dependent (conformismul), msurat pe o scal de interval/raport, cu ajutorul unui instrument specializat. Dac variabila independent ar fi avut doar dou valori, soluia problemei ar fi fost aceea a testului t pentru diferena dintre medii. n cazul nostru ns, avem trei medii pentru variabila conformism, cte una pentru fiecare categorie de vrst. Facem precizarea c ne referim la o variabil independent cu doar trei valori pentru simplificarea demonstraiei, raionamentul fiind identic pentru orice variabil independent cu mai mult de dou valori. Revenind la cazul pe care l analizm, ne aflm n imposibilitatea de a stabili relaia dintre cele dou variabile pe baza efecturii repetate a testului t pentru un motiv foarte simplu: cu fiecare test ne asumm o anumit eroare de tip I (0.05). nsumat pentru toate perechile de medii aceasta ar duce, pentru o variabil independent cu trei valori, la o eroare de tip I de 0.15, ceea ce este inacceptabil pentru a trage o concluzie statistic corect. Soluia acestei probleme a fost cutat n evaluarea diferenei dintre medii prin analiza mprtierii lor. Raionamentul este simplu i ingenios: Dac mediile respective (n exemplul nostru, 3) provin din populaii diferite, adic au diferene semnificative ntre ele (ipoteza cercetrii), atunci mprtierea lor va fi mai mare dect dac ar proveni din aceeai populaie, adic nu au diferene semnificative ntre ele (ipoteza de nul). Mai departe problema se rezolv relativ simplu:
- Se calculeaz mprtierea mediilor grupurilor, ca valori distincte, numit din acest motiv varian intergrup, care estimeaz amploarea efectului1 variabilei independente.
- Se estimeaz mprtierea variabilei conformism la nivelul populaiei de nul, ca i cum cele trei medii nu ar fi diferite. Valoarea obinut se numete variaie intragrup deoarece se calculeaz ca medie a celor 3 mprtieri (variane) din interiorul fiecrui grup.
- Se calculeaz raportul Fisher: F=variana intergrup/variana intragrup. Valoarea obinut se raporteaz la o valoare critic a lui F, pe o distribuie teoretic specific (distribuia F), pentru un nivel alfa minim de 0.05. Decizia statistic se ia n mod similar cu orice alt test statistic. Orice valoare calculat a lui F mai mare sau egal cu F critic permite respingerea ipotezei de nul i acceptarea ipotezei cercetrii.
1 Termenul de efect este ntrebuinat doar simbolic, deoarece o relaie de tip cauz/efect nu poate decurge dect dac datele cercetrii au fost recoltate n condiiile unui experiment.
-
ANOVA factorial
- 2 Actualizare: 13.01.2006, 13:24:45
Dac rezultatul testului F este semnificativ, analiza poate fi continuat cu aa numitele teste post hoc al cror obiectiv este acela de a pune n eviden diferenele ntre perechile de eantioane, cu minimizarea pe ct posibil a cumulului de eroare de tip I. Acest tip de analiz contribuie la rafinarea concluziilor care decurg din analiza de baz.
n situaia analizat, conformismul a fost studiat prin efectul unei singure variabile (vrsta), numit i factor. Din acest motiv, acest tip de situaie este definit prin expresia analiz de varian univariat, unifactorial sau pe o singur cale (one-way ANOVA). Fundamentarea conceptual a analizei de varian factoriale n exemplul de mai sus conformismul era pus n relaie cu vrsta, ca singur variabil independent. Este tiut ns, c variabilele din sfera uman suport numeroase influene simultane. Este legitim s ne ntrebm dac relaia dintre conformism i vrst nu este cumva i sub efectul altei variabile, de exemplu sexul. ntr-un astfel de caz, problema iniial se mbogete cu o nou variabil, a crei influen poate s se manifeste concomitent cu vrsta. De exemplu, putem avansa ipoteza c, dac atitudinea conformist crete odat cu vrsta, este posibil ca aceast cretere s fie mai accentuat n cazul femeilor dect n cazul brbailor. Acest model de analiz, cu dou variabile independente de tip nominal (categorial) i cu o singur variabil dependent, msurat pe o scala de interval/raport, se numete analiz de varian factorial sau pe dou cai (two-way ANOVA) Spre deosebire de ANOVA unifactorial, n noua situaie avem de investigat nu doar relaia dintre o variabil independent i variabila dependent (conformism-vrst) ci i un eventual efect asupra acestei relaii determinat de interaciunea dintre cele dou variabile independente (vrst-sex). Tabelul 1. Structura unui model ANOVA factorial de tip 2x3 Factor B (sex) (B1) masculin (B2) feminin
(A1) 21-30 ani mA1B1 mA1B2 (A2) 31-40 ani mA2B1 mA2B2 Factor A (vrsta) (A3) 41-50 ani mA3B1 mA3B2
Unde mA1B1 este media scorurilor la o scal de conformism pentru subiecii din grupa
de vrst 20-30 ani de sex masculin, iar celelalte valori descriu toate combinaiile posibile dintre variabilele independente. Efectele produse de oricare dintre factorii A sau B, independent unul de cellalt, asupra variabilei dependente sunt numite efecte principale.
Analiza de varian factorial va trebui s determine dac aceste efecte sunt semnificative sau, dimpotriv, dac ele nu depesc nivelul unei variaii naturale care ar rezulta, oricum, ca urmare a hazardului de eantionare.
Ipoteza cercetrii n acest caz, afirm c exist diferene ntre mediile din celulele tabelului care nu pot fi explicate prin efectul principal, distinct, al celor doi factori. Cu alte cuvinte, interaciunea dintre factori apare atunci cnd valoarea variabilei dependente (conformismul) determinat de un factor, depinde i de valorile celuilalt factor. Principial, formula pentru F factorial este similar, dar uor modificat fa de formula de definiie pentru ANOVA unifactorial:
hazarduluialefectcaestimatiana
principalefectuluiafaranianaF factorial _____var
____var=
-
ANOVA factorial
- 3 Actualizare: 13.01.2006, 13:24:45
Complementar, ipoteza de nul afirm c nu exist nici o diferen ntre mediile din celulele din tabel care s nu fie explicat prin simpla nsumare a efectelor individuale ale celor doi factori. Cu alte cuvinte, c nu exist diferene datorate altor efecte dect cele ale fiecrui factor acionnd de unul singur. ANOVA factorial se bazeaz pe un raionament similar analizei uni-factoriale. Deosebirea const doar n aceea c, dup ce se ia n considerare raportul dintre variana intergrup i variana intragrup (raportul F univariat), variana intergrup este, la rndul ei, mprit n trei componente, n funcie de sursa de provenien: factorul A, factorul B i ambii factori concomitent. (vezi figura de mai jos) Figura 1. Partiionarea variabilitii n ANOVA factorial
Toate tipurile de varian intergrup se compar, una cte una, cu variana intragrup.
Dac variana la nivelul populaiei este diferit de variana mediilor grupurilor definite de factorul A (dup eliminarea factorului B), atunci FA va avea o valoare semnificativ. Dac variana la nivelul populaiei difer semnificativ de variana mediilor grupurilor definite de factorul B (n afara efectului factorului A), atunci FB este semnificativ. FA i FB descriu ceea ce am denumit mai sus efectul principal al celor doi factori. n fine, dac variana la nivelul populaiei este diferit de combinaia factorilor A i B (dup ce efectul individual al acestora a fost izolat), atunci FAxB va fi semnificativ (FAxB fiind raportul Fisher pentru efectul combinat al celor doi factori).
Raportul F ne d o informaie sigur asupra semnificaiei diferenelor dintre mediile grupurilor n funcie de combinaiile dintre diferitele niveluri ale variabilelor independente. Pe lng raportul F, care indic semnificaia relaiei, exist i un indicator al intensitii relaiei, sau mrimii efectului, numit coeficientul eta ptrat (2). Mrimea efectului se calculeaz pentru fiecare factor i pentru interaciunea factorilor. El indic nivelul total al varianei explicat de variabilele independente. O mrime a efectului de 0.50 sau mai mare indic o interaciune important.
nainte de a trece la evaluarea numeric a raportului enunat n formula generic de mai sus, s privim relaia dintre variabilele din acest model de analiz, din punct de vedere grafic. Mediile scorurilor la scala de conformism pentru nivelele factorului A (vrst) i B (sex) pot fi puse simultan pe acelai grafic. Atunci cnd exist un efect concomitent al factorilor A i B asupra variabilei dependente, liniile celor dou grafice se vor intersecta, altfel, vor fi paralele, adic independente una de alta. Imaginile de mai jos descriu cteva situaii posibile i semnificaia lor:
Variabilitatea total
Variabilitatea intragrup
Variabilitatea intergrup
Datorat factorului A
Datorat factorului B
Datorat factorilor A i B
-
ANOVA factorial
- 4 Actualizare: 13.01.2006, 13:24:45
Distana dintre B1 i B2 este aceeai pentru fiecare valoare a lui A, cele dou linii sunt perfect paralele. Acest lucru demonstreaz c nu exist nici o interaciune ntre factorul A i B.
Distana dintre B1 i B2 este variabil n funcie de valorile lui A. Ca urmare, se poate
aprecia c exist un efect cumulat al celor dou variabile independente asupra variabilei dependente. Faptul c liniile nu se intersecteaz n suprafaa graficului definete o interaciune numit ordonat.
Spre deosebire de graficul 2, n situaia figurat prin graficul 3 avem o interaciune
numit neordonat, datorit faptului c cele dou linii se intersecteaz n suprafaa graficului.
Graficul 1
0
10
20
30
40
A1 A2 A3
B1
B2
Graficul 3
0
10
20
30
40
A1 A2 A3
B1
B2
Graficul 2
0
10
20
30
40
50
A1 A2 A3
B1
B2
-
ANOVA factorial
- 5 Actualizare: 13.01.2006, 13:24:45
Interpretarea rezultatelor ANOVA factorial Atunci cnd interpretm rezultatele procedurii ANOVA factorial vom examina n
primul rnd semnificaia interaciunii globale. Dar o interaciune global semnificativ nu ne ajut prea mult la interpretarea efectelor principale. Aceasta ne spune c variabilele independente au un efect asupra variabilei dependente, fr a putea ti dac una, alta sau ambele luate mpreun, determin acest efect. Dac ambii factori, concomitent, au un efect asupra variabilei dependente, acest lucru ne aduce mai mult informaie dect dac aflm c una sau alta dintre acestea au un efect individual asupra variabilei dependente. Dar i atunci cnd descoperim o interaciune comun semnificativ pot exista situaii n care este necesar s evalum efectele principale, adic relaia distinct dintre fiecare variabil independent i variabila dependent. Este cazul interaciunilor de tip ordonat, n care interaciunea nu are un caracter la fel de pronunat ca n cazul celor neordonate. Dac interaciunea nu este semnificativ, cercettorul trebuie s procedeze la analiza efectelor principale, separat pentru fiecare factor. Atunci cnd se descoper diferene semnificative ntre grupuri, se vor efectua teste post-hoc pentru determinarea exact a surselor acestor diferene.
Un model de cercetare ANOVA factorial S presupunem c dorim s studiem conformismul n funcie de vrst i sex. ntrebrile la care trebuie s rspundem sunt urmtoarele:
- Variaz conformismul n funcie de categoriile de vrst? - Variaz conformismul n funcie de sex? - Exist o variaie a conformismului n funcie de un efect combinat al vrstei i
sexului? Structura de ansamblu a datelor se prezint ca n tabelul 1. Vom face ns diferena
dintre aceast structur, construit pentru a nelege mai uor logica modelului, i matricea de date, a crei form complet este prezentat n anexa 1.
Condiiile pentru ANOVA factorial
- Eantioane aleatoare i independente - Distribuie normal la nivelul populaiei a scorurilor variabilei dependente. Condiie a
crei violare este cu att mai uor suportat cu ct eantionul este mai mare. - Omogenitatea varianei la nivelul subgrupurilor determinate de variabilele
independente pentru variabila dependent. Dac aceast condiie nu este ntrunit, exist consecine importante asupra analizei. Facem precizarea c modul de calcul este diferit pentru situaia n care numrul
cazurilor din fiecare celul a tabelului este identic, fa de situaia cu numr diferit de subieci. Acest fapt este, ns, puin important atunci cnd prelucrrile sunt efectuate de un program specializat.
-
ANOVA factorial
- 6 Actualizare: 13.01.2006, 13:24:45
Efectuarea ANOVA factorial cu SPSS Ne propunem s studiem modul n care vrsta i sexul sunt implicate n variaia
atitudinii de conformism. Matricea de date2 este cea din anexa 1. Se activeaz procedura Statistics-General Linear Model-Univariate, care deschide
urmtoarea caset de dialog:
Am trecut variabila conform n zona Dependent Variable i variabilele virsta i
genul n lista Fixed Factors. Mai departe, vom parcurge principalele opiuni de setare a prelucrrii, prin acionarea
butoanelor corespunztoare: Prin acionarea butonului Model se poate alege modelul de analiz. Modelul Full
factorial este cel implicit, i este i cel mai potrivit pentru majoritatea situaiilor, alturi de Type III (care indic modul de calcul al sumei ptratelor diferenelor). Acesta va fi utilizat i n analiza de mai jos.
2 Exemplul se bazeaz pe date fictive. Nici una dintre concluziile acestor prelucrri nu se refer la situaii reale de cercetare.
-
ANOVA factorial
- 7 Actualizare: 13.01.2006, 13:24:45
Caseta Options:
Display Means for- produce mediile pentru cei doi factori Descriptives statistics- produce mediile, abaterile standard i numrul subiecilor din fiecare sub grup.
Estimate of Effect Size, calculeaz coeficientul eta, care reprezint cantitatea varianei totale explicate de variabilele independente.
Homogeneity tests, calculeaz statistica Levene pentru testarea egalitii varianei pentru toate subgrupurile.
Caseta Post Hoc ne permite alegerea
variabilelor independente pentru care dorim analiza post-hoc. n acest caz, doar variabila virsta este eligibil, deoarece variabila gen ia doar dou valori. Am ales testul Bonferoni .
n caseta Profile Plots alegem tipul de grafic pe care dorim s l utilizm pentru analiza variabilelor. Dup ce variabilele sunt plasate, fiecare, pe axa orizontala, respectiv vertical, se acioneaz butonul Add. Se poate cere un singur grafic sau mai multe, inclusiv prin inversarea factorilor pe axe.
-
ANOVA factorial
- 8 Actualizare: 13.01.2006, 13:24:45
Analiza rezultatelor Tabelul Between-Subjects Factors ofer imaginea numrului de subieci pentru fiecare
dintre valorile factorilor. Este important s existe un numr suficient de subieci pentru fiecare valoare i, n general, fr diferene excesive ntre grupuri.
Tabelul centralizator al statisticii descriptive ne afieaz mediile i abaterile standard
pentru fiecare subgrup rezultat din combinaia valorilor celor doi factori, precum i numrul de subieci din fiecare subgrup. Poate constitui o surs de informaii utile.
Testul Levene al egalitii varianelor. O valoare a lui Sig. mai mic de 0.05 indic o
varian inegal ntre subgrupuri. n cazul nostru, Sig.=0.948 indic respingerea ipotezei de neomogenitate.
-
ANOVA factorial
- 9 Actualizare: 13.01.2006, 13:24:45
Graficele de mai jos indic variaia mediilor la conformism pentru cei doi factori, unul n raport cu celalalt3.
Graficul din stnga arat intersecia valorilor conformismului subiecilor n funcie de
sex doar pentru categoriile de vrst de peste 31 de ani, n timp ce prima categorie de vrst nu este implicat n variaia conformismului.
A doua reprezentare grafic indic, n alt form, acelai lucru ca i cea din stnga. i anume, faptul c, pe ansamblu, femeile sunt mai conformiste dect brbaii, iar tendina de intersecie (deci de relaie concomitent) este mai pronunat pentru categoriile de vrst de peste 31 de ani.
Tabelul centralizator al statisticii ANOVA factoriale de mai sus urmtor sintetizeaz principalii indicatori ai analizei: Pe ansamblu, valoarea lui F (6.989, Sig. 0.01) sugereaz o relaie semnificativ, ale crei surse, ns, trebuie analizat n detaliu, pentru a vedea de unde provine.
Cu alte cuvinte, dei testul F global are o valoare semnificativ, analiza de detaliu nu relev dect influene separate ale factorilor vrst i gen asupra atitudinii de conformism. Valoarea indicatorului eta sugereaz efectul vrstei asupra conformismului este mai important dect cel al genului. Combinaia vrst-sex nu prezint nici un efect asupra variabilei dependente, pe datele din studiul nostru.
3 Pentru analiza iniial putem utiliza ambele reprezentri grafice dar n raportul de cercetare l vom prefera pe cel care servete mai bine concluziile.
-
ANOVA factorial
- 10 Actualizare: 13.01.2006, 13:24:45
Dac analizm tabelul comparaiilor multiple post-hoc, observm grupele de vrst pentru care scorurile la scala de conformism difer semnificativ, prin comparaia dou cte dou. Ele sunt marcate cu asterisc iar pe coloana Sig., n dreptul lor, este o valoare mai mic de 0.05.
Raportarea rezultatelor Atunci cnd se raporteaz rezultatele unui studiu statistic bazat pe procedura ANOVA
factorial se vor include: - informaii cu privire al analiza preliminar a datelor, cu specificarea ndeplinirii
condiiilor cerute de ANOVA factorial; - tabel cu mediile grupurilor i abaterile standard ale grupurilor analizate; - un grafic al mediilor pe grupurile definite de cei doi factori; - rezultatele numerice ale procedurii ANOVA (F, gradele de libertate, nivelul de
semnificaie i coeficientul eta); - o prezentare narativ a concluziilor care sa se refere la efectul principal al fiecrui
factor, al interaciunii dintre ei, analiza post-hoc. Pentru studiul demonstrativ efectuat mai sus, aceste concluzii ar suna astfel: Relaia dintre vrst i sex, pe de o parte i conformism pe de alt parte, a fost supus analizei de varian factorial. Rezultatele,
prezentate n tabelul..., arat un efect global semnificativ (F(5)=6.667, Sig.=0.001,
eta=0.581), care provine n totalitate de la efectul principal al factorului vrst
(F(2)=10.833, Sig.=0.000, eta=0.37) i factorul gen (F(1)=10.0, Sig.=0.001,
eta=0.29) . Combinaia virsta/sex nu au nici un efect asupra atitudinii de conformism.
Analiza post-hoc, efectuat cu testul Bonferoni, arat c atitudinea deconformism
difer semnificativ ntre grupa de vrst 21-30 de ani i toate celelalte categorii de
vrst.
-
ANOVA factorial
- 11 Actualizare: 13.01.2006, 13:24:45
Anexa 1. Matricea de date pentru ANOVA factorial (datele sunt fictive, concluziile nu au relevan tiinific, fiind expresia unui exerciiu pur didactic) Unde: virsta 1=21-30 ani 2=31-40 ani 3=41-50 ani genul 1=masculin 2=feminin Scorurile la conformism sunt exprimate pe o scal de interval/raport