1 corso di laurea magistrale in psicologia clinica, dello sviluppo e neuropsicologia esame di...

18
1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati L’anova fattoriale between Mercoledì 23 ottobre 2013 A cura di Matteo Forgiarini

Upload: rocco-piccolo

Post on 02-May-2015

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati L’anova fattoriale between

1

Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia

Esame di Analisi Multivariata dei Dati

L’anova fattoriale betweenMercoledì 23 ottobre 2013

A cura di Matteo Forgiarini

Page 2: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati L’anova fattoriale between

2

L’anova betweenIl test anova

Spesso per scopi di ricerca siamo interessati a stabilire se due popolazioni indipendenti in media mostrano valori statisticamente diversi per la stessa variabile osservata – misurata su scala ordinale.

Nelle precedenti analisi abbiamo affrontato e risolto questo problema mediante il t-test: abbiamo confrontato le due medie osservate sui due differenti campioni e analizzando la significatività del valore t sperimentale, abbiamo potuto decidere se accettare o rifiutare l’ipotesi nulla di uguaglianza delle due medie.

Ma...

Se si volessero confrontare contemporaneamente i valori medi di più di due campioni?

Ad esempio, in riferimento al file “competenze.sav”, è possibile domandarsi se i soggetti nati prima del 1948, tra il 1948 e il 1954 e i dopo il 1954, abbiano in media la stessa pressione massima.

È un tipo di domanda frequente in molte ricerche: di fatto stiamo cercando di capire se il fattore “età” influisce sulla variabile “pressione massima”; ovvero se nelle 3 differenti fasce di età i soggetti hanno in media la stessa pressione o se le medie differiscono significativamente.

In questo caso non è possibile utilizzare i modelli di regressione perché la V.I. non è quantitativa.

Per rispondere a questo tipo di domande occorre utilizzare il test anova.

Page 3: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati L’anova fattoriale between

3

L’anova between

Occorre utilizzare l’anova ogni volta che:

•Si vuole sapere se una V.D. (misurata su scala a rapporto o a intervallo) presenta valori medi uguali nei diversi livelli di un a V.I. (misurata su scala qualsiasi).

Cioè:

•Si vuole sapere se una variabile categoriale influisce su una variabile quantitativa.

•Ogni livello della V.I. forma un gruppo di soggetti: dunque ogni livello della V.I. ha un proprio valore medio della V.D.

•La V.I. ha più di due livelli: dunque occorre confrontare contemporaneamente più di due medie.

•Se la V.I. ha 2 livelli, è indifferente utilizzare l’anova o il t-test (cfr. diapositive successive).

Indicando con µ1, µ2, … µk le medie della V.D. nei k livelli della V.I., l’ipotesi nulla del test anova risulta:

H0: µ1= µ2=…= µk

H1: µ i≠ µj per almeno una coppia di livelli della V.I. (i e j indicano 2 generici livelli della V.I.)

Il test anova

Page 4: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati L’anova fattoriale between

4

L’anova betweenIl t-test e l’anova

Se la V.I. presenta due livelli, il t-test e l’anova permettono di rispondere allo stesso tipo di domanda, infatti:

In riferimento al file “competenze.sav” ipotizziamo di dividere in due grandi classi di età (di uguale numerosità) i soggetti e di chiederci se i soggetti giovani in media hanno la stessa pressione massima dei soggetti più anziani.

Statistics

anno di nascita100

0

1951,00

Valid

Missing

N

50Percentiles

Abbiamo selezionato l’opzione per ottenere il valore – ovvero la mediana - della variabile “anno di nascita” che divide il campione totale in due sotto-campioni di uguale numerosità. Possiamo quindi costruire una nuova variabile per eseguire il t-test e l’anova.

Page 5: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati L’anova fattoriale between

5

L’anova between

Con “ricodifica in una nuova variabile” a partire dalla variabile “nascita” creiamo la variabile “nasc_2f”, creiamo cioè una variabile che indica le due fasce di età dei soggetti: la nuova variabile assume valore 1 per soggetti nati prima del 1951 e assume valore 2 per tutti gli altri soggetti più giovani.

Ipotizziamo di volere sapere se la variabile pressione sanguigna assume in media lo stesso valore nei due livelli della variabile nasc_2f. Ovvero ci stiamo chiedendo se la variabile età influisce sulla variabile pressione sanguigna. Per rispondere a questa domanda possiamo usare sia il t-test sia l’anova, perché?

Perché stiamo confrontando contemporaneamente i valori medi di 2 livelli della V.I.

H0: µ1= µ2 H1: µ1≠ µ2

Il t-test e l’anova

Page 6: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati L’anova fattoriale between

6

L’anova between

Independent Samples Test

,926 ,338 -2,160 98 ,033 -6,163 2,853 -11,825 -,501

-2,155 96,161 ,034 -6,163 2,860 -11,840 -,487

Equal variancesassumed

Equal variancesnot assumed

pressione massimaF Sig.

Levene's Test forEquality of Variances

t df Sig. (2-tailed)Mean

DifferenceStd. ErrorDifference Lower Upper

95% ConfidenceInterval of the

Difference

t-test for Equality of Means

Eseguiamo il t-test per campioni indipendenti utilizzando come variabile di gruppo “nasc_2f” e come variabile dipendente “pressione massima”.

Il t-test risulta significativo, è possibile rifiutare l’ipotesi nulla e concludere che la pressione sanguigna nelle persone “più giovani” è significativamente maggiore che negli “anziani”.

Group Statistics

52 133,46 13,854 1,921

48 139,63 14,676 2,118

nasc_2f1,00

2,00

pressione massimaN Mean Std. Deviation

Std. ErrorMean

Il t-test e l’anova

Page 7: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati L’anova fattoriale between

7

L’anova between

ANOVA

pressione massima

948,187 1 948,187 4,667 ,033

19912,173 98 203,185

20860,360 99

Between Groups

Within Groups

Total

Sum ofSquares df Mean Square F Sig.

Il test dell’anova risulta significativo (p-value<0,05): come per il t-test, possiamo concludere che in media la pressione sanguigna nei soggetti “più giovani” è statisticamente maggiore rispetto ai soggetti “più anziani”. È interessante notare che il livello di significatività ottenuto è il medesimo che abbiamo ottenuto con il t-test.

È importante notare però che l’anova si basa sul test F: infatti vengono confrontate le varianze tra i gruppi (between) ed entro i gruppi (within).

Il t-test e l’anova

Page 8: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati L’anova fattoriale between

8

L’anova betweenL’anova between

Come ipotizzato all’inizio, dividiamo ora i soggetti in tre grandi fasce di età di numerosità omogenea.

Statistics

anno di nascita100

0

1948,00

1954,00

Valid

Missing

N

33,33333333

66,66666667

Percentiles

Dagli output notiamo che un terzo dei soggetti è nato prima del 1948, un terzo tra il ’48 e il ’54 e il restante 33% è nato dopo il 1954.

Page 9: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati L’anova fattoriale between

9

L’anova between

Possiamo quindi costruire una nuova variabile “nasc_3f” che divide i soggetti in tre grandi fasce di età e che assume:

Valore 1 se i soggetti sono nati prima del 1948,

Valore 2 se i soggetti sono nati dal 1948 al 1954

Valore 3 se i soggetti sono nati dopo il 1954.

Possiamo quindi eseguire il test dell’anova e confrontare le medie della variabile “pressione massima” all’interno dei tre livelli di età che abbiamo creato.

L’anova between

Page 10: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati L’anova fattoriale between

10

L’anova between

H0: µ1= µ2= µ3

H1: esiste almeno una coppia di livelli in cui le medie della “pressione sanguigna” hanno una differenza statisticamente significativa.

ANOVA

pressione massima

1703,670 2 851,835 4,313 ,016

19156,690 97 197,492

20860,360 99

Between Groups

Within Groups

Total

Sum ofSquares df Mean Square F Sig.

Il test risulta significativo (p-value<0,05). Possiamo rifiutare l’ipotesi nulla e concludere che la variabile età ha influenza sulla variablile pressione sanguigna: in altri termini esiste una coppia di livelli della V.I. per i quali le due medie di gruppo hanno una differenza significativa. Ma...

Con 3 livelli della V.I. esistono 3 coppie di medie, qual è la coppia che rende significativo l’anova? Ne esiste più di una? Andiamo a scoprirlo...

Varianza within

Varianza between

Gradi di libertà

L’anova between

Page 11: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati L’anova fattoriale between

11

L’anova between

Per capire quale coppia di fasce di età ha reso significativo l’anova, occorre eseguire i test post hoc.

I test post hoc confrontano contemporaneamente le n*(n-1)/2 coppie di medie della V.D. (con n pari al numero di livelli della V.I.). Ma...

Il confronto contemporaneo altera il livello di significatività dei test: il livello alfa (generalmente pari a 0,05) viene “gonfiato” rendendo quindi più elevato il rischio di commettere l’errore di I tipo. Occorre quindi mettere in atto strategie che permettano di controllare il valore di alfa: negli esempi proposti verrà usata la correzione di Tukey.

I problemi che si incontrano confrontando contemporaneamente più di 2 medie, sono gli stessi problemi che impediscono di usare il t-test quando la V.I. ha più di 2 livelli: anche in questo caso il livello alfa si gonfierebbe e aumenterebbe dunque il rischio di commettere l’errore di I tipo.

L’anova between

Page 12: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati L’anova fattoriale between

12

L’anova between

Multiple Comparisons

Dependent Variable: pressione massima

Tukey HSD

2,669 3,317 ,701 -5,23 10,57

-7,433 3,586 ,101 -15,97 1,10

-2,669 3,317 ,701 -10,57 5,23

-10,102* 3,500 ,013 -18,43 -1,77

7,433 3,586 ,101 -1,10 15,97

10,102* 3,500 ,013 1,77 18,43

(J) nasc_3f2,00

3,00

1,00

3,00

1,00

2,00

(I) nasc_3f1,00

2,00

3,00

MeanDifference

(I-J) Std. Error Sig. Lower Bound Upper Bound

95% Confidence Interval

The mean difference is significant at the .05 level.*.

Notiamo che la media 2 risulta significativamente diversa dalla media 3. Gli scarti tra media 1 e media 2 e tra media 1 e 3 non risultano invece significativi.

Dagli output possiamo notare che il test anova è risultato significativo poiché una coppia di medie presenta uno scarto statisticamente significativo e rende quindi falsa l’ipotesi nulla di uguaglianza delle 3 medie.

L’anova between

Page 13: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati L’anova fattoriale between

13

L’anova between

Oltre alle applicazioni fino ad ora affrontate, l’anova permette di rispondere a domande più complesse: infatti è possibile inserire contemporaneamente più di un avariabile indipendente.

Ovvero...

È possibile eseguire l’anova su disegni fattoriali tramite i quali viene testata, oltre agli effetti principali dei singoli fattori sulla variabile dipendente, anche l’interazione tra i fattori stessi.

Infatti se sulla variabile dipendente agiscono 2 fattori contemporaneamente è possibile che essi interagiscano tra loro e che l’effetto di un fattore sulla variabile dipendente sia “modulato” dall’altro fattore, ovvero è possibile che l’effetto del fattore 1 assuma valori differenti nei diversi livelli del fattore 2.

Ipotizziamo di testare l’ipotesi che la pressione sanguigna sia influenzata contemporaneamente dal sesso dei soggetti (livello1=femmina;livello2=maschio) e dall’essere fumatori o no dei soggetti stessi.

Stiamo testando un anova between fattoriale 2X2.

L’anova between fattoriale

Page 14: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati L’anova fattoriale between

14

L’anova between

Per testare i modelli anova fattoriali, occorre scegliere il modello lineare generalizzato univariato; nei fattori fissi, inseriamo il “genere” e la variabile “fuma”; inoltre l’analisi dei grafici risulta interessante e utile alla comprensione: selezioniamo “plots” e inseriamo i due fattori per ottenere due diverse linee; infine “aggiungiamo” il grafico desiderato.

L’anova between fattoriale

Page 15: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati L’anova fattoriale between

15

L’anova between

Tests of Between-Subjects Effects

Dependent Variable: pressione massima

10596,207a 3 3532,069 33,717 ,000

1729967,459 1 1729967,459 16514,249 ,000

616,785 1 616,785 5,888 ,017

8907,754 1 8907,754 85,033 ,000

59,637 1 59,637 ,569 ,452

9847,069 94 104,756

1836589,000 98

20443,276 97

SourceCorrected Model

Intercept

genere

fuma

genere * fuma

Error

Total

Corrected Total

Type III Sumof Squares df Mean Square F Sig.

R Squared = ,518 (Adjusted R Squared = ,503)a.

Testando un modello fattoriale con due variabili indipendenti verranno eseguiti 3 test f: un test per l’effetto principale del fattore 1, un test per l’effetto principale del fattore 2 e un test sull’interazione tra i due fattori.

Dall’analisi degli output, possiamo notare che gli effetti principali dei due fattori risultano significativi (p-value<0,05): la media della pressione sanguigna dei maschi risulta statisticamente diversa da quella delle femmine; similmente i non fumatori hanno una pressione media differente dai fumatori.

Risulta interessante notare che l’interazione tra i fattori risulta non significativa: i due fattori in modo indipendente hanno influenza sulla V.D., ma l’effetto di ogni fattore non varia nei diversi livelli dell’altro fattore: il fattore “genere” influisce in ugual misura per i fumatori e per i non fumatori; similmente è possibile concludere che il fattore “fuma” influisce sulla V.D. con la stessa forza in modo indipendente dal genere dei soggetti.

Effetti principali

Interazione

L’anova between fattoriale

Page 16: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati L’anova fattoriale between

16

L’anova between

fumatore non fumatore

fuma

120

125

130

135

140

145

150

Est

imat

ed M

arg

inal

Mea

ns

genere del soggettomaschio

femmina

Estimated Marginal Means of pressione massimaÈ possibile notare la mancanza di interferenza tra i fattori anche osservando il grafico che spss ha prodotto: le linee sono quasi parallele: infatti la riduzione di pressione nei soggetti non fumatori ha quasi la stessa entità per i maschi e per le femmine.

Dicendo che le linee sono “quasi” parallele, considerando che l’interazione non risulta significativa, affermiamo che il “quasi” identifica una differenza tanto piccola da non rendere significativo l’effetto di interazione.

L’anova between fattoriale

Page 17: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati L’anova fattoriale between

17

L’anova between

Tests of Between-Subjects Effects

Dependent Variable: pressione massima

3945,062a 7 563,580 3,065 ,006

1777436,257 1 1777436,257 9667,234 ,000

1404,369 1 1404,369 7,638 ,007

627,491 3 209,164 1,138 ,338

1690,121 3 563,374 3,064 ,032

16915,298 92 183,862

1881902,000 100

20860,360 99

SourceCorrected Model

Intercept

genere

città

genere * città

Error

Total

Corrected Total

Type III Sumof Squares df Mean Square F Sig.

R Squared = ,189 (Adjusted R Squared = ,127)a.

Analizziamo ora un modello anova fattoriale che permetta di capire se la pressione sanguigna (V.D.) è influenzata dal genere dei soggetti (fattore 1) e contemporaneamente dalla residenza in diverse città lombarde (Bergamo, Milano, Cremona e Varese) (fattore 2).

Dall’analisi degli output, notiamo che il fattore genere risulta significativo (p-value<0,05); il fattore “città” risulta invece non significativo (p-value>0,05): possiamo quindi concludere che la pressione sanguigna dei soggetti non è influenzata in modo significativo dai differenti stili di vita delle 4 città lombarde.. Contemporaneamente la pressione dei soggetti maschi risulta statisticamente diversa da quella dei soggetti femmine.

Ma...

Notiamo che l’interazione tra i due fattori risulta significativa (p-value<0,05): possiamo quindi concludere che il fattore “genere” influenza la pressione sanguigna in modo differente nelle 4 città.

Esaminiamo il grafico...

L’anova between fattoriale

Page 18: 1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati L’anova fattoriale between

18

L’anova between

maschio femmina

genere del soggetto

130

135

140

145

Est

imat

ed M

arg

inal

Mea

ns

città di provenienzabergamo

cremona

varese

milano

Estimated Marginal Means of pressione massima

Le quattro rette non risultano parallele: la riduzione media della pressione sanguigna delle femmine rispetto ai maschi non è omogenea nelle 4 città lombarde considerate. In particolare a Milano si può notare che le femmine hanno in media una pressione maggiore dei soggetti maschi.

L’anova between fattoriale