cap. 10 indipendenza, connessione e associazione cioè lanalisi statistica congiunta di una coppia...
TRANSCRIPT
Cap. 10 Indipendenza, connessione e associazione
Cioè l’analisi statistica congiunta di una coppia di fenomeni qualitativi
1
Quando osserviamo due variabili X,Y sorgenaturale chiedersi se queste siano tra loro
“in relazione”
X è causa di Y (o viceversa): quando X varia fa variare anche Y
X e Y variano contemporaneamente
perché un terzo fenomeno li fa variare
X
X
Y
YZ
Le ragioni possono essere molteplici, tra queste:
NO SI INCIDENTINO SI INCIDENTI
0.830.83
0.170.17
0.500.50 0.500.50
Distribuzioni di frequenza CONDIZIONATE relative
Cosa significa che due fenomeni “sono in relazione”?
Significa che quando varia uno anche l’altro varia in conseguenza
CausalitàAristoteleUna prima trattazione estesa del concetto di causa è stata quella di Aristotele il quale considera che il sapere sia legato alla conoscenza delle cause (verum scire est scire per causas).
Secondo Aristotele, le cause sono di quattro tipi:
causa materiale, indica la materia di cui è fatta una cosa (ad esempio il marmo nel caso si tratti di una statua);
causa formale, la forma, il modello o l'essenza di una cosa (nel caso citato la forma che rappresenta la statua);
causa efficiente, ciò che ha prodotto la cosa (lo scultore);
causa finale, il fine che quella cosa deve realizzare con la sua esistenza (la statua cioè deve essere utilizzata come statua, ad esempio per ornare un ambiente).
La scuola aristotelica ampliò la trattazione concentrandosi sulla definizione di causa prima che veniva identificata con Dio.
La filosofia dell'età moderna approfondì il concetto di causa efficiente facendolo coincidere con quello di legge o connessione causale dove il rapporto causa-effetto è rappresentato da grandezze misurabili matematicamente (Keplero, Galilei, Cartesio).
Da questo punto nasce la fisica classica che da Isaac Newton a Pierre Simon Laplace assume il determinismo e il meccanicismo come ineliminabili dalla trattazione dei fenomeni naturali.
La validità della concezione moderna della fisica venne messa in dubbio da David Hume il quale, riprendendo le teorie di Sesto Empirico e degli scettici, contestò che il rapporto causa-effetto fosse caratterizzato dalla necessità ma solamente da una connessione di fatto.
Non vi è nessuna necessità che ad una precisa causa debba necessariamente corrispondere un preciso effetto.
In realtà … constatando che ad una causa solitamente corrisponde un effetto, ci si aspetta che ad una causa simile corrisponda l'effetto simile previsto, ma ciò non è detto che accada.
Quindi il rapporto causa-effetto si traduce in uno stato d'animo soggettivo di attesa per cui al ripetersi di un determinato effetto si ritiene, senza alcuna assoluta certezza, che se ne debba verificare un altro simile.
La tesi di Hume, individuando la relazione causale in un' abitudine associativa di carattere psicologico, comportava l'impossibilità di arrivare a leggi universali naturali
Il concetto di relazione tra variabili in Statistica è (in parte) una formalizzazione del concetto Hume-iano di
abitudine associativa
La formalizzazione parte dalla definizione del concetto di:Assenza di relazione tra variabili
Assenza di relazione
“statistica” tra due variabili
1y jy hy
Se due fenomeni “sono in relazione, quando, al variare dell’uno varia anche l’altro” allora:
due fenomeni non sono in relazione se al variare dell’uno l’altro non varia
ma in che senso “non varia”? (le variabili statistiche …variano per definizione)
jxY ypi
1xY 2xY 3xY
Quando le distribuzioni condizionate sono tutte
uguali tra loro
NO SI INCIDENTI
0.83
0.17
0.50 0.50
Tra i Maschi ben l’83% ha incidenti
Tra le Femmine solo il 50%
Distribuzioni di frequenza CONDIZIONATE relative
NO SI INCIDENTI
0.83
0.17
0.83
0.17
0.50 0.500.50 0.50GENERE e
INCIDENTI non sono in relazione
Assenza di relazione “statistica” tra due variabili
1y jy hy
jxY ypi
1xY 2xY 3xY
le distribuzioni di Y condizionate ad X non variano al variare di X
Y e’ statisticamente indipendente da X quando
1c jc
hc
ijjxY x cypi
Indipendenza statistica
8
jYjxY ypypi
Se le distribuzioni relative di Y condizionate ad X
1y jy hy
jxY ypi
1xY 2xY 3xY
1y jy hy1y jy hy
jxY ypi
1xY 1xY 2xY 2xY 3xY 3xY
jY yp
ijjxY xcypi
allora sono uguali alla distribuzione marginale
jiYX
k
i
yxp ,,1
k
i 1
jiYX yxp ,,
iX xp iX xp
iX
jiYXjxY xp
yxpyp
i
,,
k
i 1jc iX xp
k
i 1jc iX xp jc 1
sono tutte uguali
Se le distribuzioni relative di Y condizionate ad X sono tutte uguali
1 ijYjxY xypypi
Allora anche le distribuzioni relative di X condizionate ad Y sono tutte uguali
2 jiXiyXyxpxp
j
iyXxp
j
jiYX yxp ,,
iX xp jxY yp
i 3 jiYX yxp ,, iX xp jxY yp
i
jiYX yxp ,3,1 , iX xp jY yp 4
jiYX yxp ,,
jY yp
iX xp jY yp
jY yp iX xp
Indipendenza statistica tra due variabili X e Y
ijYjxY xypypi
jiXiyXyxpxp
j
i,jypxpyxp jYiXjiYX ,,
Una qualunque di queste tre condizioni implica le altre
Queste condizioni implicano che le distribuzioni condizionate sono uguali alle marginali, e viceversa
Indipendenza statistica e frequenze assolute
i,jypxpyxp jYiXjiYX ,,
N
fyxp ij
jiYX ,,
N
fxp i
iX
N
f yp j
jY
i,jN
fff ji
ij
Freq. Teoriche I.S.
i,jN
fff ji
ij
Freq. osservate
if
jf N
Se tra X e Y ci fosse I.S. le frequenze che si dovrebbero osservare sono *
ijf *ijf
hk differenze
Necessaria una sintesi
2
Freq. Teoriche I.S.
i,jN
fff ji
ij
Freq. osservate
if jf
N
Se tra X e Y ci fosse I.S. le frequenze che si dovrebbero osservare sono *
ijf *ijf
*ijf
k
i 1
h
j 1
2Indice di connessione
Se e solo se
Tutte le freq. osservate
coincidono con quelle teoriche
0
Frequenze teoriche di indipendenza
• NB: Per stabilire l’indipendenza statistica si utilizzano solo frequenze (condizionate, marginali relative, congiunte osservate e teoriche): ecco perché questo tipo di analisi è possibile per fenomeni di qualunque natura, sia qualitativi che quantitativi.
• NB: Se si conclude che sono statisticamente indipendenti, l’analisi statistica bivariata è terminata: che senso avrebbe analizzare una relazione che non esiste?
15
Connessione
• Se X e Y non sono indipendenti, allora esiste una qualche relazione che li lega. Si indica con il termine connessione una generica relazione statisticamente rilevabile in una coppia di fenomeni osservati
• La connessione è tanto più debole (forte) quanto più la tabella osservata si avvicina (allontana) a quella teorica di independenza.
• Per misurare l’intensità della connessione possiamo allora guardare alle differenze tra frequenze osservate e frequenze teoriche di indipendenza:
16
2 ijf *ijf
k
i 1
h
j 1
2 *ijf
Indice di connessione: formula alternativa
k
i 1
h
j 1
(N2
ijf
if jf)1
5 1
2 2
6
4
37 10
5 1
2 2
6
4
37 10
5 1
2 2
6
4
37 10
5 1
2 2
6
4
37 10
7652
3612
4722
4322
27.12
Non vi è I.S. tra GENERE e INCIDENTI
Tanto o poco?
Indice di connessione normalizzato
1y jy hy
jxY ypi
1xY 2xY 3xY
1y jy hy1y jy hy
jxY ypi
1xY 1xY 2xY 2xY 3xY 3xY
Indipendenza Statistica (I.S.)
1y jy hy
jxY ypi
1
0
1
20Quanto può essere grande?
2max 11;1min khN
Perfetta connessione
La dimostrazione nel libro non è corretta
11f 12f 1f
21f 22f 2f
1f 2f N
1y 2y
1x
2x
X \ Y Tot.
Tot.
11f 12f 1f
21f 22f 2f
1f 2f N
1y 2y
1x
2x
X \ Y Tot.
Tot.
a
b
N
1y 2y
1x
2x
X \ Y Tot.
Tot.
a
b
a b
0
0aa
a
2
bb
b
2
ba
20
ba
20
11;1min2 2
khNNORM
Casi di perfetta connessione tra X e Y(biunivoca o bilaterale)
YX
Consuma alcool
Astemio Totale
Fumatore 160 0 160NonFumatore
0 80 80
Totale 160 80 240
YX
Consuma alcool
Astemio Totale
Fumatore 160 0 160NonFumatore
0 80 80
Totale 160 80 240
Tutti i fumatori sono anche bevitori
Tutti i non fumatori sono anche astemi
X YTabagismo “genera” Alcolismo
X YAlcolismo porta al Tabagismo
X
YZANSIA?
11;1min2 2
khNNORM
Questo indice ci dice che esiste una connessione
Ma non fornisce una spiegazione delle ragioni della relazione
(ad esempio CAUSA-EFFETTO)
(esula dalla statistica)
Segnala la presenza di una relazione da spiegare
Casi di perfetta connessione tra X e Y(biunivoca o bilaterale)
YX
Consuma alcool
Astemio Totale
Fumatore 160 0 160NonFumatore
0 80 80
Totale 160 80 240
YX
Consuma alcool
Astemio Totale
Fumatore 160 0 160NonFumatore
0 80 80
Totale 160 80 240
Tutti i fumatori sono anche bevitori
Tutti i non fumatori sono anche astemi
11;1min2 2
khNNORM
Questo indice ci dice che esiste una connessione
Ma non fornisce una spiegazione delle ragioni della relazione
(ad esempio CAUSA-EFFETTO)
(esula dalla statistica)
Segnala la presenza di una relazione da spiegare
YX
Consuma alcool
Astemio Totale
Fumatore 0 160 160NonFumatore
80 0 80
Totale 80 160 240
YX
Consuma alcool
Astemio Totale
Fumatore 0 160 160NonFumatore
80 0 80
Totale 80 160 240
Tutti i fumatori sono astemi
Tutti i non fumatori sono bevitori
Anche in questo caso
12 NORM
Casi di perfetta connessione tra X e Y(unilaterale)
1x
2x
1y 2y 3y
100
60
40
60
30 10
Ad ogni modalità di Y corrisponde una sola modalità di X
0 0
0
60 30 10
xpjyX jy 1
per una sola x
X YX Y
1y 2y
1x
2x
3x
10060 40
Ad ogni modalità di X corrisponde una sola modalità di Y
40
25
35
0
0
0
25
40
35
ypixY ix 1per una sola y
X YX Y12 NORM
24
1,1min
2
khN
3661.0
1124
4.45
1,1min
2
khN
0
Indice di connessione normalizzato
1y jy hy
jxY ypi
1xY 2xY 3xY
1y jy hy1y jy hy
jxY ypi
1xY 1xY 2xY 2xY 3xY 3xY
Indipendenza Statistica (I.S.)Perfetta connessione
1y jy hy
jxY ypi
1
0
1y jy hy1y jy hy1y jy hy
jxY ypi
1
0
11
00
1
0 10.1 0.9
Moltodebole
Molto forte
Non vi è necessità di studiare
ulteriormente la relazione tra X e Y
Vi è necessità di studiare ulteriormente la relazione tra
X e Y
Associazione tra coppie di modalità
1f
2f
N
1y 2y
1x
2x
X \ Y Tot.
Tot. 1f 2f
Si parla di associazione tra coppie di modalità, quando in una tabella 2 x 2,fissate le frequenze marginali, le frequenze congiunte tendono a concentrarsi
su una delle due diagonali
Associazione positiva
Associazione negativa
“Repulsione”11 e tra yx
11 e tra yx
1f
2f
N
1y 2y
1x
2x
X \ Y Tot.
Tot. 1f 2f
1f
2f
N
1y 2y
1x
2x
X \ Y Tot.
Tot. 1f 2f
Associazione positiva
Associazione positiva
Associazione negativa
Associazione negativa
Associazione tra coppie di modalità
YX
Consuma alcool
Astemio Totale
Fumatore 98 62 160NonFumatore
0 80 80
Totale 98 142 240
YX
Consuma alcool
Astemio Totale
Fumatore 18 142 160NonFumatore
80 0 80
Totale 98 142 240
YX
Consuma alcool
Astemio Totale
Fumatore 160 0 160NonFumatore
0 80 80
Totale 160 80 240
YX
Consuma alcool
Astemio Totale
Fumatore 160 0 160NonFumatore
0 80 80
Totale 160 80 240
Tutti i fumatori sono anche bevitori
Tutti i non fumatori sono anche astemi
YX
Consuma alcool
Astemio Totale
Fumatore 0 160 160NonFumatore
80 0 80
Totale 80 160 240
YX
Consuma alcool
Astemio Totale
Fumatore 0 160 160NonFumatore
80 0 80
Totale 80 160 240
Tutti i fumatori sono astemi
Tutti i non fumatori sono bevitori
Tutti i bevitori sono fumatori Tutti i non fumatori sono bevitori
Yule
11f
22f12f
21f
21122211 ffff 11
1f
2f
N
1y 2y
1x
2x
X \ Y Tot.
Tot. 1f 2f
1f
2f
N
1y 2y
1x
2x
X \ Y Tot.
Tot. 1f 2f
Associazione positiva
Associazione positiva
Associazione negativa
Associazione negativa
Associazione tra coppie di modalità
YX
Consuma alcool
Astemio Totale
Fumatore 98 62 160NonFumatore
0 80 80
Totale 98 142 240
YX
Consuma alcool
Astemio Totale
Fumatore 18 142 160NonFumatore
80 0 80
Totale 98 142 240
YX
Consuma alcool
Astemio Totale
Fumatore 160 0 160NonFumatore
0 80 80
Totale 160 80 240
YX
Consuma alcool
Astemio Totale
Fumatore 160 0 160NonFumatore
0 80 80
Totale 160 80 240
Tutti i fumatori sono anche bevitori
Tutti i non fumatori sono anche astemi
YX
Consuma alcool
Astemio Totale
Fumatore 0 160 160NonFumatore
80 0 80
Totale 80 160 240
YX
Consuma alcool
Astemio Totale
Fumatore 0 160 160NonFumatore
80 0 80
Totale 80 160 240
Tutti i fumatori sono astemi
Tutti i non fumatori sono bevitori
Tutti i bevitori sono fumatori Tutti i non fumatori sono bevitori
Yule
11f
22f12f
21f
21122211 ffff 11
1f
2f
N
1y 2y
1x
2x
X \ Y Tot.
Tot. 1f 2f
1f
2f
N
1y 2y
1x
2x
X \ Y Tot.
Tot. 1f 2f
Associazione positiva
Associazione positiva
Associazione negativa
Associazione negativa
Associazione tra coppie di modalità
YX
Consuma alcool
Astemio Totale
Fumatore 88 67 160NonFumatore
10 70 80
Totale 98 142 240
YX
Consuma alcool
Astemio Totale
Fumatore 88 67 160NonFumatore
10 70 80
Totale 98 142 240
Y figliX soddisfazione
1 figlio Più di 1 figlio
Totale
Bassa 5 30 35
Alta 20 50 70
Totale 25 80 105
Y figliX soddisfazione
1 figlio Più di 1 figlio
Totale
Bassa 5 30 35
Alta 20 50 70
Totale 25 80 105
1121122211
21122211
ffff
ffffYule
Yule = 0.79 Yule = -0.41
0-1 +1
Massima associazione
Massima repulsione
Forte repulsione
-0.75
Forte associazione
+0.75+0.25-0.25
Scarsa o nessuna associazione
Discreta associazione
Discreta repulsione
Forte associazione
Discreta repulsione
72
1f
2f
N
1y 2y
1x
2x
X \ Y Tot.
Tot. 1f 2f
1f
2f
N
1y 2y
1x
2x
X \ Y Tot.
Tot. 1f 2f
Associazione positiva
Associazione positiva
Associazione negativa
Associazione negativa
Connessione ed associazione
21122211
21122211
ffff
ffffYule
1y jy hy
jxY ypi
1xY 2xY 3xY
1y jy hy1y jy hy
jxY ypi
1xY 1xY 2xY 2xY 3xY 3xY
Indipendenza Statistica (I.S.)
1y jy hy
jxY ypi
1xY 2xY 3xY
1y jy hy1y jy hy
jxY ypi
1xY 1xY 2xY 2xY 3xY 3xY
Indipendenza Statistica (I.S.)Perfetta connessione
1y jy hy
jxY ypi
1
0
1y jy hy1y jy hy1y jy hy
jxY ypi
1
0
11
00
Perfetta connessione
1y jy hy
jxY ypi
1
0
1y jy hy1y jy hy1y jy hy
jxY ypi
1
0
11
00
0 10.1 0.90 10.1 0.9
Moltodebole
Molto forte
Non vi è necessitàdi studiare
ulteriormente la relazione tra X e Y
Vi è necessità di studiare ulteriormente la relazione tra
X e Y
0-1 +1
Massima associazione
Massima repulsione
Forte repulsione
-0.75
Forte associazione
+0.75+0.25-0.25
Scarsa o nessuna associazione
Discreta associazione
Discreta repulsione
0-1 +100-1-1 +1+1
Massima associazione
Massima repulsione
Forte repulsione
-0.75
Forte repulsione
Forte repulsione
-0.75
Forte associazione
+0.75
Forte associazione
Forte associazione
+0.75+0.25-0.25
Scarsa o nessuna associazione
+0.25-0.25 +0.25-0.25
Scarsa o nessuna associazione
Discreta associazione
Discreta repulsione
2NORM
NO!!!!
Connessione ed associazione
11f 12f 1f
21f 22f 2f
1f 2f N
1y 2y
1x
2x
X \ Y Tot.
Tot.
11f 12f 1f
21f 22f 2f
1f 2f N
1y 2y
1x
2x
X \ Y Tot.
Tot.
0Yule02 0Yule 02
Mecatti: pag. 190
0Yule 21122211 ffff
21122211 ffff 2212 ff
2212 ff
222112121122 ffffff
212122 ffff
1
12
2
22
f
f
f
f Quindi le distribuzioni di Y
condizionate ad X sono uguali
Connessione ed associazione
YX
Consuma alcool
Astemio Totale
Fumatore 98 62 160NonFumatore
0 80 80
Totale 98 142 240
YX
Consuma alcool
Astemio Totale
Fumatore 160 0 160NonFumatore
0 80 80
Totale 160 80 240
YX
Consuma alcool
Astemio Totale
Fumatore 160 0 160NonFumatore
0 80 80
Totale 160 80 240
Tutti i fumatori sono anche bevitori
Tutti i non fumatori sono anche astemi
Tutti i bevitori sono fumatori
1Yule
Perfetta connessione
1y jy hy
jxY ypi
1
0
1y jy hy1y jy hy1y jy hy
jxY ypi
1
0
11
00
Perfetta connessione
1y jy hy
jxY ypi
1
0
1y jy hy1y jy hy1y jy hy
jxY ypi
1
0
11
00
12 NORM
1Yule Non implica
12 NORM
Odds
11f 12f 1f
21f 22f 2f
1f 2f N
1y 2y
1x
2x
X \ Y Tot.
Tot.
11f 12f 1f
21f 22f 2f
1f 2f N
1y 2y
1x
2x
X \ Y Tot.
Tot.
SUCCESSO INSUCCESSO
Coronaropatia No Coronaropatia
Grecia Default Grecia No Default
MASCHIO
FEMMINA
Fumatore
Non Fumatore
Broker USA
Broker EU
Fenomeno di interesse
Fenomeno condizionante
Odds marginale
Odds condizionati
Quanto è probabile (frequente) Y = y1 rispetto a Y = y2
Odds e OR11f 12f 1f
21f 22f 2f
1f 2f N
1y 2y
1x
2x
X \ Y Tot.
Tot.
11f 12f 1f
21f 22f 2f
1f 2f N
1y 2y
1x
2x
X \ Y Tot.
Tot. Oddsmarginale
Oddscondizionati
Quanto è probabile (frequente) Y = y1 rispetto a Y = y2
69.014298 COdds
22.17288 FumoCOdds
YX
Consuma alcool
Astemio Totale
Fumatore 88 67 160NonFumatore
10 70 80
Totale 98 142 240
YX
Consuma alcool
Astemio Totale
Fumatore 88 67 160NonFumatore
10 70 80
Totale 98 142 240
Yule = 0.79 Forte associazione
72
14.07010 FumoNonCOdds
2
1
xYOdds
xYOddsOR 6.8
14.0
22.1
Odds e odds ratio
odds:
• Richiedono l’identificazione di un evento di interesse (outcome dicotomico)
• Sono sempre positivi• Nell’esempio fumo/alcool:
• Informano sul rischio di successo (che l’evento si verifichi) relativamente al rischio di insuccesso, nella sotto-popolazione considerata (rischio relativo)
• Nell’esempio fumo/alcool:
Il rischio relativo di essere consumatore di alcool per un fumatore è 8.6 volte quello di un non fumatore
36
evento)dell' si verificar(al contrari casi
evento)un di si verificar(al favorevoli casi
Odds e odds ratio
odds:
• Attenzione: l’odds ratio non è un rapporto tra probabilità (che l’evento si verifichi) nelle due sotto-popolazioni
• E’ un rapporto tra rischi, che sono a loro volta il rapporto tra la probabilità che l’evento si verifichi e la probabilità che l’evento non si verifichi in ciascuna sotto-popolazione
• L’odds ratio è anche interpretabile come misura di associazione:
(dimostrare per esercizio)37
evento)dell' si verificar(al contrari casi
evento)un di si verificar(al favorevoli casi
Sintesi
Due variabili X e Y sono tra loro statisticamente indipendenti se le distribuzioni di Y condizionate ad X non variano al variare di X. Vale il viceversa e vale anche che le
frequenze relative congiunte sono il prodotto delle frequenze relative marginali.
Si possono definire allora delle frequenze teoriche in caso di indipendenza: tanto più le frequenze effettive si discostano da quelle teoriche, maggiore è il grado di
connessione tra X e Y che si misura attraverso l’indice di connessione assoluto e normalizzato al suo massimo
L’indice di connessione assume il valore massimo nel caso di perfetta connessione bilaterale o unilaterale: le distribuzioni condizionate tendono a concentrarsi su una
modalità. Ad ogni x (y) corrisponde una e una sola y (x) (e viceversa nel caso bilaterale): in questo caso l’indice normalizzato vale 1. Se vale 0 significa che siamo
in situazione di I.S.
Se non vi è I.S. vale la pena approfondire lo studio della relazione tra X e Y: attraverso l’indice di Yule si misura quanto la modalità x1 di una variabile dicotomica tenda ad associarsi o respingersi rispetto alla modalità y1 di una variabile Y pure dicotomica.
Data una variabile dicotomica Y, l’Odds misura quanto è probabile osservare y1 rispetto ad y2: il confronto di Odds condizionati mostra quanto gli Odds sono
differenti nelle diverse modalità di condizionamento (X)