statistica descrittiva bivariata studio simultaneo di due caratteri distinti della popolazione
TRANSCRIPT
STATISTICA DESCRITTIVA BIVARIATAStudio simultaneo di due caratteri distinti della popolazione
Consideriamo un gruppo di 9 studenti dei quali vengono raccolte informazioni su sesso e regione di provenienza.
Nome Sesso
Regione
P. Neri M Sardegna
G. Lanzarotti F Marche
A. Bianchi M Lombardia
V. Rossi M Lombardia
E. Mariononi F Marche
M. Driu F Sardegna
E. Erba F Sardegna
V. Arrigoni M Lombardia
M. Mauri M Sardegna
Popolazione statistica?
Variabili statistiche?
Sesso Regione
Tabella di distribuzione doppia disaggregata
Una distribuzione doppia può essere:
* Quantitativa se entrambe le variabili sono quantitative
* Qualitativa se entrambe le variabili sono qualitative
* Mista negli altri casi
Regione Sardegna Marche Lombardia
Sesso
M 2 0 3
F 2 2 0
TABELLA DELLA DISTRIBUZIONE CONGIUNTA
Vantaggio: facilità di lettura dati
FREQUENZA CONGIUNTAOgni casella contiene la
delle 2 variabili
Regione Sardegna Marche Lombardia Totale
Sesso
M 2 0 3 5
F 2 2 0 4
Totale 4 2 3 9
Sesso Frequenza
M 5
F 4
Regione Frequenza
Sardegna 4
Marche 2
Lombardia 3
DISTRIBUZIONI MARGINALI
Sommando le frequenze per riga si ottengono le FREQUENZE MARGINALI per la VS sesso
Sommando le frequenze per colonna si ottengono le FREQUENZE MARGINALI per la VS regione
Si dice distribuzione marginale ogni distribuzione di frequenza che si ottiene considerando le frequenze associate a una sola variabile, indipendentemente dall’altra.
Ci si può domandare come si distribuisce la variabile sesso per gli studenti che provengono da una certa regione.
Ad esempio considerando la regione Lombardia
In questo caso si studia la variabile sesso CONDIZIONATA dalla variabile regione
Regione = Lombardia
Sesso Frequenze Relative Percentuali
M 3 1 100%
F 0 0 0%
Totale 3 1 100%
VS Sesso | Regione = Lombardia
Data una distribuzione doppia (X,Y) si ottiene la distribuzione condizionata di Y rispetto a xi
osservando come si distribuisce Y solo per i soggetti della popolazione che hanno per la variabile X il valore fissato xi
In simboli Y|(X = xi )
N.B: Nelle frequenze condizionate si formano tante tabelle quante le modalità della variabile X
Lo scopo dell’analisi di una distribuzione doppia è stabilire un legame tra le due variabili X e Y
E’ stata effettuata un’indagine sulla soddisfazione di 1316 utenti di una compagnia ferroviaria rispetto al tipo di treno su cui hanno viaggiato
Soddisfazione
Tipo di treno
AV IC R Totale
Si 203 118 178 499
No 122 167 528 817
Totale 325 285 706 1316
Calcoliamo le frequenze condizionate della soddisfazione X al tipo di treno Y
Soddisfazione AV
Si 0,62
No 0,38
Soddisfazione
AV IC R Totale
Si 0,62 0,41 0,25 0,38
No 0,38 0,59 0,75 0,62
Totale 1 1 1
La soddisfazione dipende dal treno!
La variabile X dipende da Y
Se la tabella delle frequenza condizionate fosse stata
Soddisfazione
AV IC R Totale
Si 0,38 0,38 0,38 0,38
No 0,62 0,62 0,62 0,62
Totale 1 1 1
La soddisfazione sarebbe stata indipendente dal tipo di treno
Soddisfazione
AV IC R Totale
Si 499 0 0 499
No 0 298 528 817
Totale 499 298 528 1316
La variabile soddisfazione dipende perfettamente dal tipo di treno
Come misurare il grado di dipendenza tra 2 variabili?
Test del 2 Pearson 1900
Come si calcola questo indice?
Frequenza teorica in caso di indipendenza
1) Si calcola la frequenza relativa dei soddisfatti
Soddisfatti dei treni AV
2) Si moltiplica la frequenza relativa per il numero di utenti del treno AV
499/1316
(499/1316 )*325FREQUENZA TEORICA IN CASO DI INDIPENDENZA
Frequenza teorica in caso di indipendenza
1) Si calcola la frequenza relativa degli insoddisfatti
insoddisfatti dei treni AV
2) Si moltiplica la frequenza relativa per il numero di utenti del treno AV
817/1316
(817/1316 )*325FREQUENZA TEORICA IN CASO DI INDIPENDENZA
ECC. ECC.
Calcolo della contingenza
Frequenzamisurata
Frequenza teorica
Contingenze
Quadrato delle contingenze
Si 203 123,23 79,77 6362,73
No 122 201,77 -79,77 6362,73
Contingenza = frequenza misurata – frequenza teorica in caso di indipendenza
Treno AV
Si ripete il calcolo delle contingenze per tutte le tipologie di treno
AV IC R
51,63 0,80 30,06
31,54 0,49 18,36
Si dividono i quadrati delle contingenze per le frequenze teoriche
La somma degli elementi della tabella è l’indice 2
Qual è il suo significato?
Se i 2 caratteri sono indipendenti, la somma delle contingenze è nulla
è uguale a zero
Se i 2 caratteri sono dipendenti, il valore di chi-quadro
aumenta all’aumentare della dipendenza
NORMALIZZATO
C =
N (h-1)
N = numero di unità statistiche considerate
h = minore tra il numero delle righe e delle colonne
0 < C < 1