st2 10 anova fact

11
Analiza de varianţă factorială Marian Popa Introducere Înainte de a introduce subiectul propriu-zis al acestei teme, să facem o scurtă trecere în revistă a conceptului de „analiză de varianţă”. În esenţă, analiza de varianţă îşi propune să pună în evidenţă semnificaţia diferenţelor dintre mediile unor eşantioane, nu pe baza diferenţei directe dintre ele, ci pornind de la împrăştierea (varianţa) lor. Cu alte cuvinte, cu cât mediile supuse comparaţiei sunt mai diferite (au o împrăştiere mai mare), cu atât este mai posibil ca această împrăştiere să fie datorată unei diferenţe semnificative dintre ele. Pentru exemplificare, să ne imaginăm următorul exemplu: Un cercetător doreşte să evidenţieze relaţia dintre conformism şi categoriile vârstă (21-30 ani, 31-40 ani şi 41-50 ani). În acest caz, avem o variabilă independentă (vârsta) măsurată pe o scală nominală (categorială) cu mai mult de două valori, şi o variabilă dependentă (conformismul), măsurat pe o scală de interval/raport, cu ajutorul unui instrument specializat. Dacă variabila independentă ar fi avut doar două valori, soluţia problemei ar fi fost aceea a testului t pentru diferenţa dintre medii. În cazul nostru însă, avem trei medii pentru variabila „conformism”, câte una pentru fiecare categorie de vârstă. Facem precizarea că ne referim la o variabilă independentă cu doar trei valori pentru simplificarea demonstraţiei, raţionamentul fiind identic pentru orice variabilă independentă cu mai mult de două valori. Revenind la cazul pe care îl analizăm, ne aflăm în imposibilitatea de a stabili relaţia dintre cele două variabile pe baza efectuării repetate a testului t pentru un motiv foarte simplu: cu fiecare test ne asumăm o anumită eroare de tip I (0.05). Însumată pentru toate perechile de medii aceasta ar duce, pentru o variabilă independentă cu trei valori, la o eroare de tip I de 0.15, ceea ce este inacceptabil pentru a trage o concluzie statistică corectă. Soluţia acestei probleme a fost căutată în evaluarea diferenţei dintre medii prin analiza împrăştierii lor. Raţionamentul este simplu şi ingenios: Dacă mediile respective (în exemplul nostru, 3) provin din populaţii diferite, adică au diferenţe semnificative între ele (ipoteza cercetării), atunci împrăştierea lor va fi mai mare decât dacă ar proveni din aceeaşi populaţie, adică nu au diferenţe semnificative între ele (ipoteza de nul). Mai departe problema se rezolvă relativ simplu: - Se calculează împrăştierea mediilor grupurilor, ca valori distincte, numită din acest motiv „varianţă intergrup”, care estimează amploarea „efectului” 1 variabilei independente. - Se estimează împrăştierea variabilei „conformism” la nivelul „populaţiei de nul”, ca şi cum cele trei medii nu ar fi diferite. Valoarea obţinută se numeşte „variaţie intragrup” deoarece se calculează ca medie a celor 3 împrăştieri (varianţe) din interiorul fiecărui grup. - Se calculează raportul Fisher: F=varianţa intergrup/varianţa intragrup. Valoarea obţinută se raportează la o valoare critică a lui F, pe o distribuţie teoretică specifică (distribuţia F), pentru un nivel alfa minim de 0.05. Decizia statistică se ia în mod similar cu orice alt test statistic. Orice valoare calculată a lui F mai mare sau egală cu F critic permite respingerea ipotezei de nul şi acceptarea ipotezei cercetării. 1 Termenul de efect este întrebuinţat doar simbolic, deoarece o relaţie de tip cauză/efect nu poate decurge decât dacă datele cercetării au fost recoltate în condiţiile unui experiment.

Upload: laura-david

Post on 25-Sep-2015

9 views

Category:

Documents


0 download

DESCRIPTION

description of ANOVA factorial

TRANSCRIPT

  • Analiza de varian factorial

    Marian Popa

    Introducere nainte de a introduce subiectul propriu-zis al acestei teme, s facem o scurt trecere n revist a conceptului de analiz de varian. n esen, analiza de varian i propune s pun n eviden semnificaia diferenelor dintre mediile unor eantioane, nu pe baza diferenei directe dintre ele, ci pornind de la mprtierea (variana) lor. Cu alte cuvinte, cu ct mediile supuse comparaiei sunt mai diferite (au o mprtiere mai mare), cu att este mai posibil ca aceast mprtiere s fie datorat unei diferene semnificative dintre ele.

    Pentru exemplificare, s ne imaginm urmtorul exemplu: Un cercettor dorete s evidenieze relaia dintre conformism i categoriile vrst (21-30 ani, 31-40 ani i 41-50 ani). n acest caz, avem o variabil independent (vrsta) msurat pe o scal nominal (categorial) cu mai mult de dou valori, i o variabil dependent (conformismul), msurat pe o scal de interval/raport, cu ajutorul unui instrument specializat. Dac variabila independent ar fi avut doar dou valori, soluia problemei ar fi fost aceea a testului t pentru diferena dintre medii. n cazul nostru ns, avem trei medii pentru variabila conformism, cte una pentru fiecare categorie de vrst. Facem precizarea c ne referim la o variabil independent cu doar trei valori pentru simplificarea demonstraiei, raionamentul fiind identic pentru orice variabil independent cu mai mult de dou valori. Revenind la cazul pe care l analizm, ne aflm n imposibilitatea de a stabili relaia dintre cele dou variabile pe baza efecturii repetate a testului t pentru un motiv foarte simplu: cu fiecare test ne asumm o anumit eroare de tip I (0.05). nsumat pentru toate perechile de medii aceasta ar duce, pentru o variabil independent cu trei valori, la o eroare de tip I de 0.15, ceea ce este inacceptabil pentru a trage o concluzie statistic corect. Soluia acestei probleme a fost cutat n evaluarea diferenei dintre medii prin analiza mprtierii lor. Raionamentul este simplu i ingenios: Dac mediile respective (n exemplul nostru, 3) provin din populaii diferite, adic au diferene semnificative ntre ele (ipoteza cercetrii), atunci mprtierea lor va fi mai mare dect dac ar proveni din aceeai populaie, adic nu au diferene semnificative ntre ele (ipoteza de nul). Mai departe problema se rezolv relativ simplu:

    - Se calculeaz mprtierea mediilor grupurilor, ca valori distincte, numit din acest motiv varian intergrup, care estimeaz amploarea efectului1 variabilei independente.

    - Se estimeaz mprtierea variabilei conformism la nivelul populaiei de nul, ca i cum cele trei medii nu ar fi diferite. Valoarea obinut se numete variaie intragrup deoarece se calculeaz ca medie a celor 3 mprtieri (variane) din interiorul fiecrui grup.

    - Se calculeaz raportul Fisher: F=variana intergrup/variana intragrup. Valoarea obinut se raporteaz la o valoare critic a lui F, pe o distribuie teoretic specific (distribuia F), pentru un nivel alfa minim de 0.05. Decizia statistic se ia n mod similar cu orice alt test statistic. Orice valoare calculat a lui F mai mare sau egal cu F critic permite respingerea ipotezei de nul i acceptarea ipotezei cercetrii.

    1 Termenul de efect este ntrebuinat doar simbolic, deoarece o relaie de tip cauz/efect nu poate decurge dect dac datele cercetrii au fost recoltate n condiiile unui experiment.

  • ANOVA factorial

    - 2 Actualizare: 13.01.2006, 13:24:45

    Dac rezultatul testului F este semnificativ, analiza poate fi continuat cu aa numitele teste post hoc al cror obiectiv este acela de a pune n eviden diferenele ntre perechile de eantioane, cu minimizarea pe ct posibil a cumulului de eroare de tip I. Acest tip de analiz contribuie la rafinarea concluziilor care decurg din analiza de baz.

    n situaia analizat, conformismul a fost studiat prin efectul unei singure variabile (vrsta), numit i factor. Din acest motiv, acest tip de situaie este definit prin expresia analiz de varian univariat, unifactorial sau pe o singur cale (one-way ANOVA). Fundamentarea conceptual a analizei de varian factoriale n exemplul de mai sus conformismul era pus n relaie cu vrsta, ca singur variabil independent. Este tiut ns, c variabilele din sfera uman suport numeroase influene simultane. Este legitim s ne ntrebm dac relaia dintre conformism i vrst nu este cumva i sub efectul altei variabile, de exemplu sexul. ntr-un astfel de caz, problema iniial se mbogete cu o nou variabil, a crei influen poate s se manifeste concomitent cu vrsta. De exemplu, putem avansa ipoteza c, dac atitudinea conformist crete odat cu vrsta, este posibil ca aceast cretere s fie mai accentuat n cazul femeilor dect n cazul brbailor. Acest model de analiz, cu dou variabile independente de tip nominal (categorial) i cu o singur variabil dependent, msurat pe o scala de interval/raport, se numete analiz de varian factorial sau pe dou cai (two-way ANOVA) Spre deosebire de ANOVA unifactorial, n noua situaie avem de investigat nu doar relaia dintre o variabil independent i variabila dependent (conformism-vrst) ci i un eventual efect asupra acestei relaii determinat de interaciunea dintre cele dou variabile independente (vrst-sex). Tabelul 1. Structura unui model ANOVA factorial de tip 2x3 Factor B (sex) (B1) masculin (B2) feminin

    (A1) 21-30 ani mA1B1 mA1B2 (A2) 31-40 ani mA2B1 mA2B2 Factor A (vrsta) (A3) 41-50 ani mA3B1 mA3B2

    Unde mA1B1 este media scorurilor la o scal de conformism pentru subiecii din grupa

    de vrst 20-30 ani de sex masculin, iar celelalte valori descriu toate combinaiile posibile dintre variabilele independente. Efectele produse de oricare dintre factorii A sau B, independent unul de cellalt, asupra variabilei dependente sunt numite efecte principale.

    Analiza de varian factorial va trebui s determine dac aceste efecte sunt semnificative sau, dimpotriv, dac ele nu depesc nivelul unei variaii naturale care ar rezulta, oricum, ca urmare a hazardului de eantionare.

    Ipoteza cercetrii n acest caz, afirm c exist diferene ntre mediile din celulele tabelului care nu pot fi explicate prin efectul principal, distinct, al celor doi factori. Cu alte cuvinte, interaciunea dintre factori apare atunci cnd valoarea variabilei dependente (conformismul) determinat de un factor, depinde i de valorile celuilalt factor. Principial, formula pentru F factorial este similar, dar uor modificat fa de formula de definiie pentru ANOVA unifactorial:

    hazarduluialefectcaestimatiana

    principalefectuluiafaranianaF factorial _____var

    ____var=

  • ANOVA factorial

    - 3 Actualizare: 13.01.2006, 13:24:45

    Complementar, ipoteza de nul afirm c nu exist nici o diferen ntre mediile din celulele din tabel care s nu fie explicat prin simpla nsumare a efectelor individuale ale celor doi factori. Cu alte cuvinte, c nu exist diferene datorate altor efecte dect cele ale fiecrui factor acionnd de unul singur. ANOVA factorial se bazeaz pe un raionament similar analizei uni-factoriale. Deosebirea const doar n aceea c, dup ce se ia n considerare raportul dintre variana intergrup i variana intragrup (raportul F univariat), variana intergrup este, la rndul ei, mprit n trei componente, n funcie de sursa de provenien: factorul A, factorul B i ambii factori concomitent. (vezi figura de mai jos) Figura 1. Partiionarea variabilitii n ANOVA factorial

    Toate tipurile de varian intergrup se compar, una cte una, cu variana intragrup.

    Dac variana la nivelul populaiei este diferit de variana mediilor grupurilor definite de factorul A (dup eliminarea factorului B), atunci FA va avea o valoare semnificativ. Dac variana la nivelul populaiei difer semnificativ de variana mediilor grupurilor definite de factorul B (n afara efectului factorului A), atunci FB este semnificativ. FA i FB descriu ceea ce am denumit mai sus efectul principal al celor doi factori. n fine, dac variana la nivelul populaiei este diferit de combinaia factorilor A i B (dup ce efectul individual al acestora a fost izolat), atunci FAxB va fi semnificativ (FAxB fiind raportul Fisher pentru efectul combinat al celor doi factori).

    Raportul F ne d o informaie sigur asupra semnificaiei diferenelor dintre mediile grupurilor n funcie de combinaiile dintre diferitele niveluri ale variabilelor independente. Pe lng raportul F, care indic semnificaia relaiei, exist i un indicator al intensitii relaiei, sau mrimii efectului, numit coeficientul eta ptrat (2). Mrimea efectului se calculeaz pentru fiecare factor i pentru interaciunea factorilor. El indic nivelul total al varianei explicat de variabilele independente. O mrime a efectului de 0.50 sau mai mare indic o interaciune important.

    nainte de a trece la evaluarea numeric a raportului enunat n formula generic de mai sus, s privim relaia dintre variabilele din acest model de analiz, din punct de vedere grafic. Mediile scorurilor la scala de conformism pentru nivelele factorului A (vrst) i B (sex) pot fi puse simultan pe acelai grafic. Atunci cnd exist un efect concomitent al factorilor A i B asupra variabilei dependente, liniile celor dou grafice se vor intersecta, altfel, vor fi paralele, adic independente una de alta. Imaginile de mai jos descriu cteva situaii posibile i semnificaia lor:

    Variabilitatea total

    Variabilitatea intragrup

    Variabilitatea intergrup

    Datorat factorului A

    Datorat factorului B

    Datorat factorilor A i B

  • ANOVA factorial

    - 4 Actualizare: 13.01.2006, 13:24:45

    Distana dintre B1 i B2 este aceeai pentru fiecare valoare a lui A, cele dou linii sunt perfect paralele. Acest lucru demonstreaz c nu exist nici o interaciune ntre factorul A i B.

    Distana dintre B1 i B2 este variabil n funcie de valorile lui A. Ca urmare, se poate

    aprecia c exist un efect cumulat al celor dou variabile independente asupra variabilei dependente. Faptul c liniile nu se intersecteaz n suprafaa graficului definete o interaciune numit ordonat.

    Spre deosebire de graficul 2, n situaia figurat prin graficul 3 avem o interaciune

    numit neordonat, datorit faptului c cele dou linii se intersecteaz n suprafaa graficului.

    Graficul 1

    0

    10

    20

    30

    40

    A1 A2 A3

    B1

    B2

    Graficul 3

    0

    10

    20

    30

    40

    A1 A2 A3

    B1

    B2

    Graficul 2

    0

    10

    20

    30

    40

    50

    A1 A2 A3

    B1

    B2

  • ANOVA factorial

    - 5 Actualizare: 13.01.2006, 13:24:45

    Interpretarea rezultatelor ANOVA factorial Atunci cnd interpretm rezultatele procedurii ANOVA factorial vom examina n

    primul rnd semnificaia interaciunii globale. Dar o interaciune global semnificativ nu ne ajut prea mult la interpretarea efectelor principale. Aceasta ne spune c variabilele independente au un efect asupra variabilei dependente, fr a putea ti dac una, alta sau ambele luate mpreun, determin acest efect. Dac ambii factori, concomitent, au un efect asupra variabilei dependente, acest lucru ne aduce mai mult informaie dect dac aflm c una sau alta dintre acestea au un efect individual asupra variabilei dependente. Dar i atunci cnd descoperim o interaciune comun semnificativ pot exista situaii n care este necesar s evalum efectele principale, adic relaia distinct dintre fiecare variabil independent i variabila dependent. Este cazul interaciunilor de tip ordonat, n care interaciunea nu are un caracter la fel de pronunat ca n cazul celor neordonate. Dac interaciunea nu este semnificativ, cercettorul trebuie s procedeze la analiza efectelor principale, separat pentru fiecare factor. Atunci cnd se descoper diferene semnificative ntre grupuri, se vor efectua teste post-hoc pentru determinarea exact a surselor acestor diferene.

    Un model de cercetare ANOVA factorial S presupunem c dorim s studiem conformismul n funcie de vrst i sex. ntrebrile la care trebuie s rspundem sunt urmtoarele:

    - Variaz conformismul n funcie de categoriile de vrst? - Variaz conformismul n funcie de sex? - Exist o variaie a conformismului n funcie de un efect combinat al vrstei i

    sexului? Structura de ansamblu a datelor se prezint ca n tabelul 1. Vom face ns diferena

    dintre aceast structur, construit pentru a nelege mai uor logica modelului, i matricea de date, a crei form complet este prezentat n anexa 1.

    Condiiile pentru ANOVA factorial

    - Eantioane aleatoare i independente - Distribuie normal la nivelul populaiei a scorurilor variabilei dependente. Condiie a

    crei violare este cu att mai uor suportat cu ct eantionul este mai mare. - Omogenitatea varianei la nivelul subgrupurilor determinate de variabilele

    independente pentru variabila dependent. Dac aceast condiie nu este ntrunit, exist consecine importante asupra analizei. Facem precizarea c modul de calcul este diferit pentru situaia n care numrul

    cazurilor din fiecare celul a tabelului este identic, fa de situaia cu numr diferit de subieci. Acest fapt este, ns, puin important atunci cnd prelucrrile sunt efectuate de un program specializat.

  • ANOVA factorial

    - 6 Actualizare: 13.01.2006, 13:24:45

    Efectuarea ANOVA factorial cu SPSS Ne propunem s studiem modul n care vrsta i sexul sunt implicate n variaia

    atitudinii de conformism. Matricea de date2 este cea din anexa 1. Se activeaz procedura Statistics-General Linear Model-Univariate, care deschide

    urmtoarea caset de dialog:

    Am trecut variabila conform n zona Dependent Variable i variabilele virsta i

    genul n lista Fixed Factors. Mai departe, vom parcurge principalele opiuni de setare a prelucrrii, prin acionarea

    butoanelor corespunztoare: Prin acionarea butonului Model se poate alege modelul de analiz. Modelul Full

    factorial este cel implicit, i este i cel mai potrivit pentru majoritatea situaiilor, alturi de Type III (care indic modul de calcul al sumei ptratelor diferenelor). Acesta va fi utilizat i n analiza de mai jos.

    2 Exemplul se bazeaz pe date fictive. Nici una dintre concluziile acestor prelucrri nu se refer la situaii reale de cercetare.

  • ANOVA factorial

    - 7 Actualizare: 13.01.2006, 13:24:45

    Caseta Options:

    Display Means for- produce mediile pentru cei doi factori Descriptives statistics- produce mediile, abaterile standard i numrul subiecilor din fiecare sub grup.

    Estimate of Effect Size, calculeaz coeficientul eta, care reprezint cantitatea varianei totale explicate de variabilele independente.

    Homogeneity tests, calculeaz statistica Levene pentru testarea egalitii varianei pentru toate subgrupurile.

    Caseta Post Hoc ne permite alegerea

    variabilelor independente pentru care dorim analiza post-hoc. n acest caz, doar variabila virsta este eligibil, deoarece variabila gen ia doar dou valori. Am ales testul Bonferoni .

    n caseta Profile Plots alegem tipul de grafic pe care dorim s l utilizm pentru analiza variabilelor. Dup ce variabilele sunt plasate, fiecare, pe axa orizontala, respectiv vertical, se acioneaz butonul Add. Se poate cere un singur grafic sau mai multe, inclusiv prin inversarea factorilor pe axe.

  • ANOVA factorial

    - 8 Actualizare: 13.01.2006, 13:24:45

    Analiza rezultatelor Tabelul Between-Subjects Factors ofer imaginea numrului de subieci pentru fiecare

    dintre valorile factorilor. Este important s existe un numr suficient de subieci pentru fiecare valoare i, n general, fr diferene excesive ntre grupuri.

    Tabelul centralizator al statisticii descriptive ne afieaz mediile i abaterile standard

    pentru fiecare subgrup rezultat din combinaia valorilor celor doi factori, precum i numrul de subieci din fiecare subgrup. Poate constitui o surs de informaii utile.

    Testul Levene al egalitii varianelor. O valoare a lui Sig. mai mic de 0.05 indic o

    varian inegal ntre subgrupuri. n cazul nostru, Sig.=0.948 indic respingerea ipotezei de neomogenitate.

  • ANOVA factorial

    - 9 Actualizare: 13.01.2006, 13:24:45

    Graficele de mai jos indic variaia mediilor la conformism pentru cei doi factori, unul n raport cu celalalt3.

    Graficul din stnga arat intersecia valorilor conformismului subiecilor n funcie de

    sex doar pentru categoriile de vrst de peste 31 de ani, n timp ce prima categorie de vrst nu este implicat n variaia conformismului.

    A doua reprezentare grafic indic, n alt form, acelai lucru ca i cea din stnga. i anume, faptul c, pe ansamblu, femeile sunt mai conformiste dect brbaii, iar tendina de intersecie (deci de relaie concomitent) este mai pronunat pentru categoriile de vrst de peste 31 de ani.

    Tabelul centralizator al statisticii ANOVA factoriale de mai sus urmtor sintetizeaz principalii indicatori ai analizei: Pe ansamblu, valoarea lui F (6.989, Sig. 0.01) sugereaz o relaie semnificativ, ale crei surse, ns, trebuie analizat n detaliu, pentru a vedea de unde provine.

    Cu alte cuvinte, dei testul F global are o valoare semnificativ, analiza de detaliu nu relev dect influene separate ale factorilor vrst i gen asupra atitudinii de conformism. Valoarea indicatorului eta sugereaz efectul vrstei asupra conformismului este mai important dect cel al genului. Combinaia vrst-sex nu prezint nici un efect asupra variabilei dependente, pe datele din studiul nostru.

    3 Pentru analiza iniial putem utiliza ambele reprezentri grafice dar n raportul de cercetare l vom prefera pe cel care servete mai bine concluziile.

  • ANOVA factorial

    - 10 Actualizare: 13.01.2006, 13:24:45

    Dac analizm tabelul comparaiilor multiple post-hoc, observm grupele de vrst pentru care scorurile la scala de conformism difer semnificativ, prin comparaia dou cte dou. Ele sunt marcate cu asterisc iar pe coloana Sig., n dreptul lor, este o valoare mai mic de 0.05.

    Raportarea rezultatelor Atunci cnd se raporteaz rezultatele unui studiu statistic bazat pe procedura ANOVA

    factorial se vor include: - informaii cu privire al analiza preliminar a datelor, cu specificarea ndeplinirii

    condiiilor cerute de ANOVA factorial; - tabel cu mediile grupurilor i abaterile standard ale grupurilor analizate; - un grafic al mediilor pe grupurile definite de cei doi factori; - rezultatele numerice ale procedurii ANOVA (F, gradele de libertate, nivelul de

    semnificaie i coeficientul eta); - o prezentare narativ a concluziilor care sa se refere la efectul principal al fiecrui

    factor, al interaciunii dintre ei, analiza post-hoc. Pentru studiul demonstrativ efectuat mai sus, aceste concluzii ar suna astfel: Relaia dintre vrst i sex, pe de o parte i conformism pe de alt parte, a fost supus analizei de varian factorial. Rezultatele,

    prezentate n tabelul..., arat un efect global semnificativ (F(5)=6.667, Sig.=0.001,

    eta=0.581), care provine n totalitate de la efectul principal al factorului vrst

    (F(2)=10.833, Sig.=0.000, eta=0.37) i factorul gen (F(1)=10.0, Sig.=0.001,

    eta=0.29) . Combinaia virsta/sex nu au nici un efect asupra atitudinii de conformism.

    Analiza post-hoc, efectuat cu testul Bonferoni, arat c atitudinea deconformism

    difer semnificativ ntre grupa de vrst 21-30 de ani i toate celelalte categorii de

    vrst.

  • ANOVA factorial

    - 11 Actualizare: 13.01.2006, 13:24:45

    Anexa 1. Matricea de date pentru ANOVA factorial (datele sunt fictive, concluziile nu au relevan tiinific, fiind expresia unui exerciiu pur didactic) Unde: virsta 1=21-30 ani 2=31-40 ani 3=41-50 ani genul 1=masculin 2=feminin Scorurile la conformism sunt exprimate pe o scal de interval/raport