statistica descrittiva bivariata studio simultaneo di due caratteri distinti della popolazione

18
STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione

Upload: nilda-scotti

Post on 01-May-2015

221 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione

STATISTICA DESCRITTIVA BIVARIATAStudio simultaneo di due caratteri distinti della popolazione

Page 2: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione

Consideriamo un gruppo di 9 studenti dei quali vengono raccolte informazioni su sesso e regione di provenienza.

Nome Sesso

Regione

P. Neri M Sardegna

G. Lanzarotti F Marche

A. Bianchi M Lombardia

V. Rossi M Lombardia

E. Mariononi F Marche

M. Driu F Sardegna

E. Erba F Sardegna

V. Arrigoni M Lombardia

M. Mauri M Sardegna

Popolazione statistica?

Variabili statistiche?

Sesso Regione

Tabella di distribuzione doppia disaggregata

Page 3: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione

Una distribuzione doppia può essere:

* Quantitativa se entrambe le variabili sono quantitative

* Qualitativa se entrambe le variabili sono qualitative

* Mista negli altri casi

Page 4: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione

Regione Sardegna Marche Lombardia

Sesso

M 2 0 3

F 2 2 0

TABELLA DELLA DISTRIBUZIONE CONGIUNTA

Vantaggio: facilità di lettura dati

FREQUENZA CONGIUNTAOgni casella contiene la

delle 2 variabili

Page 5: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione

Regione Sardegna Marche Lombardia Totale

Sesso

M 2 0 3 5

F 2 2 0 4

Totale 4 2 3 9

Sesso Frequenza

M 5

F 4

Regione Frequenza

Sardegna 4

Marche 2

Lombardia 3

DISTRIBUZIONI MARGINALI

Sommando le frequenze per riga si ottengono le FREQUENZE MARGINALI per la VS sesso

Sommando le frequenze per colonna si ottengono le FREQUENZE MARGINALI per la VS regione

Page 6: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione

Si dice distribuzione marginale ogni distribuzione di frequenza che si ottiene considerando le frequenze associate a una sola variabile, indipendentemente dall’altra.

Page 7: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione

Ci si può domandare come si distribuisce la variabile sesso per gli studenti che provengono da una certa regione.

Ad esempio considerando la regione Lombardia

In questo caso si studia la variabile sesso CONDIZIONATA dalla variabile regione

Regione = Lombardia

Sesso Frequenze Relative Percentuali

M 3 1 100%

F 0 0 0%

Totale 3 1 100%

VS Sesso | Regione = Lombardia

Page 8: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione

Data una distribuzione doppia (X,Y) si ottiene la distribuzione condizionata di Y rispetto a xi

osservando come si distribuisce Y solo per i soggetti della popolazione che hanno per la variabile X il valore fissato xi

In simboli Y|(X = xi )

N.B: Nelle frequenze condizionate si formano tante tabelle quante le modalità della variabile X

Page 9: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione

Lo scopo dell’analisi di una distribuzione doppia è stabilire un legame tra le due variabili X e Y

E’ stata effettuata un’indagine sulla soddisfazione di 1316 utenti di una compagnia ferroviaria rispetto al tipo di treno su cui hanno viaggiato

Soddisfazione

Tipo di treno

AV IC R Totale

Si 203 118 178 499

No 122 167 528 817

Totale 325 285 706 1316

Page 10: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione

Calcoliamo le frequenze condizionate della soddisfazione X al tipo di treno Y

Soddisfazione AV

Si 0,62

No 0,38

Soddisfazione

AV IC R Totale

Si 0,62 0,41 0,25 0,38

No 0,38 0,59 0,75 0,62

Totale 1 1 1

La soddisfazione dipende dal treno!

La variabile X dipende da Y

Page 11: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione

Se la tabella delle frequenza condizionate fosse stata

Soddisfazione

AV IC R Totale

Si 0,38 0,38 0,38 0,38

No 0,62 0,62 0,62 0,62

Totale 1 1 1

La soddisfazione sarebbe stata indipendente dal tipo di treno

Soddisfazione

AV IC R Totale

Si 499 0 0 499

No 0 298 528 817

Totale 499 298 528 1316

La variabile soddisfazione dipende perfettamente dal tipo di treno

Page 12: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione

Come misurare il grado di dipendenza tra 2 variabili?

Test del 2 Pearson 1900

Come si calcola questo indice?

Page 13: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione

Frequenza teorica in caso di indipendenza

1) Si calcola la frequenza relativa dei soddisfatti

Soddisfatti dei treni AV

2) Si moltiplica la frequenza relativa per il numero di utenti del treno AV

499/1316

(499/1316 )*325FREQUENZA TEORICA IN CASO DI INDIPENDENZA

Page 14: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione

Frequenza teorica in caso di indipendenza

1) Si calcola la frequenza relativa degli insoddisfatti

insoddisfatti dei treni AV

2) Si moltiplica la frequenza relativa per il numero di utenti del treno AV

817/1316

(817/1316 )*325FREQUENZA TEORICA IN CASO DI INDIPENDENZA

ECC. ECC.

Page 15: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione

Calcolo della contingenza

Frequenzamisurata

Frequenza teorica

Contingenze

Quadrato delle contingenze

Si 203 123,23 79,77 6362,73

No 122 201,77 -79,77 6362,73

Contingenza = frequenza misurata – frequenza teorica in caso di indipendenza

Treno AV

Si ripete il calcolo delle contingenze per tutte le tipologie di treno

Page 16: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione

AV IC R

51,63 0,80 30,06

31,54 0,49 18,36

Si dividono i quadrati delle contingenze per le frequenze teoriche

La somma degli elementi della tabella è l’indice 2

Qual è il suo significato?

Page 17: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione

Se i 2 caratteri sono indipendenti, la somma delle contingenze è nulla

è uguale a zero

Se i 2 caratteri sono dipendenti, il valore di chi-quadro

aumenta all’aumentare della dipendenza

Page 18: STATISTICA DESCRITTIVA BIVARIATA Studio simultaneo di due caratteri distinti della popolazione

NORMALIZZATO

C =

N (h-1)

N = numero di unità statistiche considerate

h = minore tra il numero delle righe e delle colonne

0 < C < 1