relazioni statistiche · 2017-12-01 · 1 analisi dei dati per la comunicazione introduzione...
TRANSCRIPT
1
Analisi dei dati per la comunicazione
Introduzione all’analisi bivariata: il caso di caratteri qualitativi
Prof.ssa Isabella Mingo
A.A. 2017-2018
Relazioni Statistiche
• Analisi dell’associazioneIndipendenza Interdipendenza Dipendenza
L’analisi congiunta di due o più caratteri è utile per studiare le relazioni tra di essi.
ADC-FSSC
2
Tipi di relazioni tra caratteri
• Indipendenza statistica (relazione simmetrica ):– Due caratteri sono statisticamente indipendenti quando
la conoscenza delle modalità di uno non consente diprevedere le modalità dell’altro
• Dipendenza (relazione asimmetrica):– Due caratteri sono dipendenti quando si può stabilire un
legame unidirezionale tra le modalità di un carattere equelle di un altro
• Interdipendenza (relazione simmetrica) :– Due caratteri sono interdipendenti quando si può stabilire
un legame bidirezionale tra le modalità di un carattere equelle di un altro.
ADC-FSSC
Indipendenza Statistica• Due caratteri sono statisticamente indipendenti
quando la conoscenza di uno dei due caratterinon migliora la “previsione” della modalitàdell’altro
• Assenza di qualsiasi legame tra i due caratteri• Relazione simmetrica: se X è indipendente da Y
allora Y è indipendente da X
ADC-FSSC
3
Indipendenza Statistica in una tabella doppia
In una tabella a doppia entrata si ha indipendenzatra i due caratteri X e Y se le distribuzioni relativecondizionate di X rispetto alle modalità di Y sonotra loro uguali e uguali alla distribuzione relativamarginale
Matrice profili riga ha tutte le righe uguali Matrice profili colonna ha tutte le colonne uguali
ADC-FSSC
Indipendenza statistica:esempio
• Profili riga %10/30*100=335/30*100=1715/30*100=5014/42*100=337/42*100=1721/42*100=50
• Profili colonna %10/24*100=4214/24*100=585/12*100=427/12*100=5815/36*100=4221/36*100=58 FSC
4
Dipendenza perfetta di due caratteri• In una tabella doppia il carattere Y dipende perfettamente da X se
ad ogni modalità di X è associata una sola modalità di Y.• Se i due caratteri perfettamente dipendenti la tabella doppia avrà per
ogni riga di X solo una colonna di Y in cui n ij 0
I.Mingo 2017-2018ADC-FSSC
Interdipendenza perfetta di due caratteri
• In una tabella doppia sussiste perfetta interdipendenza sead ogni modalità di X è associata una sola modalità di Y eviceversa.
Interdipendenza perfetta tra X e YX | Y 1 2 3 totale
1 0 0 30 302 0 20 0 203 10 0 0 10totale 10 20 30 60
I.Mingo 2017-2018ADC-FSSC
5
Esempi di dipendenza perfetta
Y = Talk show Repubblica Giornale Stampa TotBallarò 82 0 0 82Porta a Porta 0 37 0 37Virus 0 0 5 5Tot 82 37 5 124
X = Quptidiano letto
Y = Tempo Bici Auto TotSereno 82 0 82Variabile 0 37 37Pioggia 0 51 51Tot 82 88 170
X = Mezzo Trasporto
Y = CDL Scientifico Classico Tecnico TotaleSTC 0 23 0 23SCPO 41 0 8 49Totale 41 23 8 72
X = Diploma
Interdipendenza perfetta tra X e Y
X dipende perfettamente da Y
Y dipende perfettamente da X
ADC-FSSC
Situazioni intermedie tra indipendenza e perfetta associazione
Il grado di associazione(dipendenza o interdipendenza) ètanto maggiore quanto più latabella osservata si discosta daquella di indipendenza.
Frequenze osservate nij
Frequenze teoriche di indipendenza n*ij
Differenze tra Freq. osserv e freq. teoriche (cij)
Tavola di contingenza titolo di studio * lettura libri negli ultimi 12 mesi
6 46 5228,6 23,4 52,0
-22,6 22,61 17 18
9,9 8,1 18,0-8,9 8,9111 177 288
158,2 129,8 288,0-47,2 47,2
149 132 281154,3 126,7 281,0
-5,3 5,3193 62 255
140,1 114,9 255,052,9 -52,9
81 10 9150,0 41,0 91,031,0 -31,0541 444 985
541,0 444,0 985,0
ConteggioConteggio attesoResiduiConteggioConteggio attesoResiduiConteggioConteggio attesoResiduiConteggioConteggio attesoResiduiConteggioConteggio attesoResiduiConteggioConteggio attesoResiduiConteggioConteggio atteso
laurea
dipl. univ.
diploma m. superiore
diploma m. inferiore
licenza elementare
nessun titolo
titolo distudio
Totale
no si
lettura libri negli ultimi12 mesi
Totale
ADC-FSSC
6
Come si calcola la situazione di indipendenza o «teorica»?
Le frequenze assolute nell’ipotesi di indipendenza tra i 2 caratteri sono date da
Basso Medio Altof 19 5 0 24m 6 6 4 16Totale 25 11 4 40
StaturaSesso Totale
nnn
n .ji.*ij
us Totalecolonna Totaleriga Totale
Situazione osservata
Situazione teorica di indipendenza
Frequenza Teorica di Indipendenza
Basso Medio Altof 15 6.6 2.4 24m 10 4.4 1.6 16Totale 25 11 4 40
StaturaSesso Totale
n* 11 = 24x25/40=15n* 12 = 24x11/40=6.6n* 13 = 24x4/40=2.4
n* 21=16x25/40=10n* 22=16x11/40=4.4n* 23=16x4/40=1.6
n* 11 = 24x25/40=15n* 12 = 24x11/40=6.6n* 13 = 24x4/40=2.4
n* 21=16x25/40=10n* 22=16x11/40=4.4n* 23=16x4/40=1.6
Differenza tra situazione osservata e situazione teorica : le contingenze
Situazione osservata (freq.osservate)
Situazione teorica di indipendenza (freq. teoriche)
ij*ijij cnn
Contingenze
Basso Medio Altof 19 5 0 24m 6 6 4 16Totale 25 11 4 40
StaturaSesso Totale Basso Medio Altof 15 6.6 2.4 24m 10 4.4 1.6 16Totale 25 11 4 40
StaturaSesso Totale
Basso Medio Altof 4 -1.6 -2.4m -4 1.6 2.4
StaturaSesso
FSC
c11 = 19-15=4c12 = 5-6.6=-1.6c 13 =0-2.4=-2.4
C21=6-10=-4c22=6-4.4=1.6c23=4-1.6=2.4
Tabella delle Contingenze
7
Misura di associazione: il Chi-Quadrato di Pearson
Assume valore 0 se X e Y sono perfettamenteindipendenti
Assume valore positivo se esiste un legame didipendenza o interdipendenza tra X e Y
Ha le dimensioni di una frequenza assoluta
ADC-FSSC
ij*ijij cnn
Somma degli elementi per tutte le colonne della tabella
Somma degli elementi per tutte le righe della tabella
Esempio di calcolo del Chi quadrato
64.93.60.581.62.40.391.0676.1
)4.2(4.4
)6.1(10
)4(4.2
)4.2(6.6
)6.1(154 222222
2
H
i
K
j ij
ijij
1 1*
2*2
n
nn
Basso Medio Altof 4 -1.6 -2.4m -4 1.6 2.4
StaturaSesso
Contingenze
ADC-FSSC
ij*ijij cnn
Tabella delle Contingenze(cij)
Basso Medio Altof 15 6.6 2.4 24m 10 4.4 1.6 16Totale 25 11 4 40
StaturaSesso Totale
Frequenze teoriche (n*ij)
8
Come si interpreta il Chi quadrato
• La differenza fra i valori corrispondenti nij e n*ij (valoriosservati e valori attesi nell’ipotesi di indipendenza fra levariabili studiate) indica quanto la situazione osservatasi discosta da quella di indipendenza:– se la differenza è nulla, o è piccola, non c’è relazione tra i
caratteri– se i valori sono grandi allora si può ipotizzare che c’è una
relazione .• Ma quando questa differenza può essere considerata
piccola o grande?• Per rispondere a questo quesito bisogna conoscere la
distribuzione del test statistico del Chi Quadrato, di cui sioccupa la statistica inferenziale.
2
Caratteristiche del Chi quadrato• Nel calcolo del Chi quadrato il ruolo delle variabili è
simmetrico.• Il Chi quadrato non cambia se le modalità sono ordinate in
modo diverso: è un test in cui le variabili sono sempretrattate come qualitative non ordinabili .
• Il Chi quadrato non fornisce una misura dell’associazionefra variabili qualora queste fossero dipendenti, ci dicequanta evidenza c’è a favore della dipendenza, ma nonmisura la forza di questa dipendenza.
• Il valore del Chi quadrato dipende dal numero di unitàstatistiche, tende a crescere all’aumentare del numerodelle righe e delle colonne della tabella di contingenza.
9
Indici di associazione:Indice di contingenza quadratica media
(phi quadro)
L’influenza del numero di unità n è eliminata Assume valore 0 se X e Y sono perfettamente
indipendenti Se H=K=2 allora sicuramente il valore
massimo = 1
nχΦ
22
Proprietà
ADC-FSSC
Indice di associazione: Indice di Cramer
Assume valori compresi tra 0 e 1 Assume valore 0 se X e Y sono perfettamente
indipendenti Assume valore 1 quando i due caratteri sono perfettamente associati e H=K Y dipende perfettamente da X e H<K X dipende perfettamente da Y e H>K
)1(),1(min
2
KH
V
Proprietà
ADC-FSSC
10
Misure di associazione: esempio di calcolo
f mNon lavora 23 11 34Lavora 190 68 258Totale 213 79 292
Attuale condizione occupazionale
Sesso Totalef m
Non lavora 24.8 9.2 34Lavora 188.2 69.8 258Totale 213.0 79.0 292
TotaleAttuale condizione occupazionale
Sesso
f m
Non lavora -1.80 1.80
Lavora 1.80 -1.80
Attuale condizione occupazionale
Sesso
04.01
0.00187V
0.00187292
55.0
0.558.69)8.1(
2.188)8.1(
2.9)8.1(
8.24)8.1(
22
22222
n
Situazione teorica indipendenzaSituazione osservata
Contingenze
ADC-FSSC
Misure di associazione: esempio di dipendenza perfetta
f mNon lavora 213 0 213Lavora 0 79 79Totale 213 79 292
Attuale condizione occupazionale
Genere Totale
111V
1292292
n
292155,4157,6357,6321,38
22
2
f m
Non lavora 155,37 57,63 213,0Lavora 57,63 21,37 79,0Totale 213,0 79,0 292,0
Attuale condizione occupazionale
GenereTotale
Situazione osservata Situazione teorica indipendenza
Contingenze
f m
Non lavora 57,63 -57,63Lavora -57,63 57,63
Attuale condizione occupazionale
Genere
a.a 2011-2012ADC-FSSC
11
Esercizio
FSSC 2017-2018
Sapendo che su una tabella di contingenza in cui si riporta la distribuzione doppia di 1000 intervistati, incrociando in riga il quotidiano letto (modalità: Gazzetta dello Sport, Repubblica, Corriere della Sera, Stampa) e la loro condizione professionale dei clienti (modalità: Imprenditore, Artigiano, Lavoratore dipendente, Libero Professionista) si è ottenuto :2 = 988,07
Calcolare : PHI e V di Cramer
Come si interpretano i risultati ottenuti?
calcoli
Analisi bivariata tra caratteri quantitativi
FSSC 2017-2018
12
La relazione tra due variabili quantitative
01/12/2017a.a 2010-2011FSSC Pagina 194
Scatter-Plot o Grafico di Dispersione
Rappresenta la distribuzione unitaria doppia di 2 caratteriquantitativi
Sull’asse delle ascisse (X) e su quello delle ordinate (Y)sono riportati rispettivamente i valori numerici dellemodalità assunti dalle due variabili rilevate su ogni u.s.
L’insieme di punti così ottenuto si chiama nuvola di puntie consente di studiare la dispersione delle u.s. e la lorosomiglianza
La forma della nuvola può suggerire l’esistenza e la formadella relazione tra i due caratteri
FFSC a.a 2017-2018
13
Rappresentare la relazione tra due variabili quantitative : esercizio
Distribuzione Unitaria Doppia
FSSC a.a 2017-2018
Valore aggiunto SuicidiAgrigento 12606 12,67Alessandria 22462 20,56Ancona 21351 8,18Aosta 24896 19,02Arezzo 20304 11,96Ascoli 19525 15,31Asti 21085 13,87Avellino 14063 10,88Bari 14325 6,33Belluno 23054 25,65
Interdipendenza tra due caratteri quantitativi
• Si considera la distribuzione unitaria di 2 caratteri quantitativi X e Y
• Si analizza l’associazione dei due caratteri attraverso l’analisi dello scatter plot o mediante indici simmetrici che valutano la presenza di Concordanza: u.s. con valori piccoli (grandi) di un
carattere presentano più frequentemente valori piccoli (grandi) dell’altro carattere
Discordanza: u.s. con valori piccoli (grandi) di un carattere possiedono più frequentemente valori grandi (piccoli) dell’altro carattere
ADC-FSSC a.a 2017-2018
14
Pagina 198
.. .si puo analizzare l’interdipendenza graficamente
Per rilevare interdipendenza tra X e Y si può usare lo scatter-plotSecondo la forma della nuvola dei punti si ha Concordanza: nuvola
allungata verso alto a destra Discordanza: nuvola
allungata verso alto a sinistra Assenza di interdipendenza
lineare: nuvola pressochécircolare
Relazione diretta (concordanza)
05
10152025303540
0 2 4 6 8 10 12 14
Variabile X
Var
iabi
le Y
Relazione inversa (discordanza)
-20
-15
-10
-5
0
5
10
0 2 4 6 8 10 12 14
Variabile XVa
riabi
le Y
FSSC - Bocci a.a 2010-2011
Assenza di interdipendenza lineare: nuvola pressoché circolare
…continua
FSSC Mingo
15
Assenza di interdipendenza lineare: relazioni quadratiche
…continua
FSFSC -
Interdipendenza tra due caratteri quantitativi
• Per misurare il legame che esiste tra due caratteri quantitativi si utilizza la covarianza, definita come la media dei prodotti degli scostamenti delle variabili X e Y dalle rispettive medie:
N
MyMxYXCov
N
iyixi
xy
1
)()(),(
Questo valore sarà :•Nullo nel caso di indipendenza statistica•Positivo in caso di concordanza perché al crescere della X anche la Y crescerà di conseguenza le differenze avranno lo stesso segno.•Negativo in caso di discordanza, perché all’aumentare della X corrisponderà una diminuzione della Y e viceversa.•se dividiamo la covarianza per il prodotto delle deviazioni standard delle 2 variabili , otteniamo un valore standardizzato, che oscilla fra –1 e +1: il coefficiente di correlazione r di Pearson
16
Coefficiente di correlazione lineare r di Bravais-Pearson
YX
XYYVarXVar
YXCovr
)()(),(
nulla) a(covarianz 0 0
misura) di unità ha(non puro numeroun È
11
XYr
r
Assume valori tra –1 e +1Se i due caratteri sono statisticamente indipendenti allora sXY =0 e r=0Se r=0 non è detto che X e Ysiano statisticamente indipendentir>0 sXY >0 X e Y sono correlati positivamente (concordi)r<0 sXY <0 X e Y sono correlati negativamente (discordi)
FSSC- a.a 2017-2018
IL Coefficiente di correlazione lineare di Bravais e Pearson
• è una misura della relazione lineare esistente tra due variabili ovvero una misura della l’interdipendenza che esiste tra le due distribuzioni.
r misura una relazione simmetrica di tipo lineare cha varia tra -1 e +1 . Convenzionalmente:
17
Esempio: calcolo del coefficiente di correlazione
FFSC - a.a 2017-20186.2739.32
32.396
90.235064.564.25
64.256
84.153
2
2
Y
Y
X
X
-30.6516
183.905-N
N
1
XY
jyjxj
XY
MyMx
9654.0 6.27 5.064
30.651-x
XY
Y
XYXY
r
r
(x j -MX ) (y j -MY) (x j -MX )2 (y j -MY)2
3,13 -3,9 9,80 14,825,41 -6,8 29,27 45,563,93 -5,9 15,44 34,221,46 0,6 2,13 0,30
-7,43 10,7 55,20 113,42-6,48 5,3 41,99 27,56
153,84 235,90
Regione X YPIE 24,78 7,0LOM 27,06 4,1EMR 25,58 5,0LAZ 23,11 11,4CAM 14,22 21,5PUG 15,17 16,1Somma 129,92 65,1
21,65 10,85
(x j-MX )(y j -MY)-12,051-36,518-22,991
0,803-79,130-34,020
-183,905
Step per calcolare il coefficiente di correlazione
ADC-FSSC
1. Calcolare la media aritmetica di ciascun carattere2. Calcolare per ciascuna modalità di ciascun carattere gli
scarti dalla rispettiva media3. Ottenere la covarianza
• Moltiplicare per ciascuna modalità gli scarti dei due caratteri ottenuti al punto 2.
• Sommare i prodotti così ottenuti.• Dividere questa somma dei prodotti per il numero di unità
statistiche.4. Ottenere gli scarti quadratici medi
• Elevare al quadrato gli scarti dalla media di ciascuna modalità• Sommare per ogni carattere i quadrati così ottenuti• Dividere ciascuna di queste somme per il numero di unità
statistiche per ottenere le varianze.• Estrarre le radici quadrate per ottenere gli scarti quadratici
medi-
5. Ottenere r1. Dividere la covarianza (ottenuta al punto 3) per il prodotto degli
scarti quadratici medi dei due caratteri (ottenuti al punto 4).
18
Zona X VENDITE (migliaia di euro)
Y SPESE IN PUBBLICITA' (centinaia euro)
(x i-M x) (y i -M y) (x i-M x)2
(y i -M y )2
(x i -M x)(y i -M y )
A 5 5 -5,83 -6,17 33,99 38,07 35,97B 10 13 -0,83 1,83 0,69 3,35 -1,52C 6 7 -4,83 -4,17 23,33 17,39 20,14D 20 17 9,17 5,83 84,09 33,99 53,46E 15 14 4,17 2,83 17,39 8,01 11,80F 9 11 -1,83 -0,17 3,35 0,03 0,31Somma dei valori 65 67 162,83 100,83 120,17Media (somma/n) 10,83 11,17 27,14 16,81 20,03
5,21 4,10
r= 20,03/(5,21 * 4,10) 0,94
Calcolare il coefficiente di correlazione tra i due caratteri nella tabella seguente e rappresentare la nuvola dei punti .
I. Mingo 2017-2018
Esercizio
sxsy
Zona X VENDITE (migliaia di euro)
Y SPESE IN PUBBLICITA' (centinaia euro)
(xi-M x ) (y i -M y) (x i-Mx )2
(y i -M y)2
(x i -M x )(y i -M y)
A 5 5B 10 13C 6 7D 20 17E 15 14F 9 11Somma dei valori Media (somma/n)
Rappresentazione della nuvola dei punti: scatterplot
I. Mingo 2017-2018
19
Correlazione e relazione lineare: ESEMPI
r=0,976r=0,002
Le caratteristiche dei punti-unità espresse dalledue variabili (le due dimensioni del pianocartesiano) possono essere riassunte da unasola la retta.
Non è possibile individuare una rettache riassuma le due variabili poichéesse sono indipendenti.
I. Mingo 2017-2018
Correlazione: esempi
Correlazioni
-,897 ,976 -,337
-682,661 2617,602 -45,033
-35,930 137,769 -2,37020 20 20
Correlazione di PearsonSomma dei quadrati edei prodotti incrociatiCovarianzaN
tasso didisocc.
Tasso diattività delle
donne
Tasso didisoccupazion
e giovanile
Minorennidenunciati
per 100minorenni
in età 14-17anni
Tasso di disoccupazione
3020100
Tass
o di
atti
vità
del
le d
onne
50
40
30
20
Tasso di disoccupazione
3020100
Tass
o di
dis
occu
pazio
ne g
iova
nile
70
60
50
40
30
20
10
0
Tasso di disoccupazione
3020100
Min
oren
ni d
enun
ciat
i per
100
min
oren
ni
6
5
4
3
2
1