![Page 1: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/1.jpg)
Le distribuzioni multipleSi definisce distribuzione statistica multipla la
distribuzione ottenuta dalla rilevazione di più
caratteri su unità appartenenti ad una
determinata popolazione.
Se vengono rilevati due caratteri su ogni unità si
definisce una distribuzione doppia.
Se vengono rilevati tre caratteri su ogni unità si
definisce una distribuzione tripla.
![Page 2: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/2.jpg)
Le distribuzioni multipleSe vengono rilevati m caratteri su ogni unità si
definisce una distribuzione m-pla e le singole
variabili vengono definite variabili componenti.
Si parla di mutabile multipla se tutti i caratteri
componenti sono di natura qualitativa;
Si parla di variabile multipla se tutti caratteri
componenti sono di natura quantitativa.
![Page 3: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/3.jpg)
Le distribuzioni multiple
Se le N unità del collettivo non sono molto numerose, si
può rappresentare la distribuzione multipla indicando
per ciascuna unità le m modalità presenti in essa:
Unità X1 X2 … Xm
1 x11 x12 ... x1m
2 x21 x22 ... x2m
… ... ... ... ...
N xN1 xN2 ... xNmdove x11 indica la modalità del carattere X1 presente nella prima unità e così via.Questa è definita distribuzione doppia per unità - modalità.
![Page 4: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/4.jpg)
Le distribuzioni multipleConsideriamo un collettivo di sei studenti sui quali sono
stati rilevati l’età e il voto all’esame di statistica, la
distribuzione unità - modalità è la seguente:
Unità 1 2 3 4 5 6
età 18 19 20 19 21 22
voto 20 21 23 25 26 23
![Page 5: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/5.jpg)
Le distribuzioni doppieConsideriamo ora una popolazione sulla quale sono stati
rilevati due caratteri.
Quando le unità del collettivo sono numerose, è
preferibile rappresentare la distribuzione doppia tramite
una tabella a doppia entrata (distribuzione doppia di
frequenze) dove ad ogni modalità (xi,yj) di (X,Y)
corrisponde la frequenza assoluta nij, con i=1,2,…,k e
j=1,2,…,s.
In altre parole si registra quante volte una coppia di
modalità si presenta contemporaneamente per X e Y.
![Page 6: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/6.jpg)
Le distribuzioni doppie
dove:
y1 … yj … yh
x1 n11 n1j n1h n10
… … … … …
xi ni1 … nij … nih ni0
… … … … …
xk nk1 … nkj … nkh nk0
n01 ... n0j ... n0h N
h
jiji nn
10
k
iijj nn
10
k
i
h
jijnN
1 1
![Page 7: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/7.jpg)
Le distribuzioni doppieLe frequenze ni0, i=1,2,…,k sono definite frequenze
marginali assolute della variabile X, mentre le frequenze
n0j j=1,2,…,h sono definite frequenze marginali assolute
della variabile Y.
Consideriamo ora le frequenze fij, = nij/N con i=1,2,…,k e
j=1,2,…,s; in questo caso la tabella a doppia entrata può
essere scritta come:
![Page 8: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/8.jpg)
Le distribuzioni doppiey1 … yj … yh
x1 f11 f1j f1h f10
… … … … …
xi fi1 … fij … fih fi0
… … … … …
xk fk1 … fkj … fkh fk0
f01 ... f0j ... f0k 1
dove:
h
jiji ff
10
k
iijj ff
10 1
1 1
k
i
h
jijf
![Page 9: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/9.jpg)
Le distribuzioni doppieIn questo caso, le frequenze fi0, i=1,2,…,k sono le
frequenze marginali relative della variabile X mentre le
frequenze f0j, j=1,2,…,h sono le frequenze marginali
relative della variabile Y.
Le frequenze assolute marginali ni0 (le frequenze relative
marginali fi0) esprimono i soggetti (la porzione di soggetti)
che possiedono la modalità xi a prescindere da quello che
avviene per il carattere Y.
![Page 10: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/10.jpg)
Le distribuzioni condizionateConsideriamo una distribuzione doppia (X,Y) e fissiamo il
valore xi per la variabile X, se studiamo la distribuzione di
Y per i soli soggetti che possiedono quel valore xi della
variabile X, si ottiene la distribuzione condizionata di Y
dato xi .
Tale distribuzione si indica con Y|(X=xi)
Valori di Y|(X=xi) y1 y2 … yh Tot.
Freq.assolute ni1 ni2 ... nih ni0
Freq.relative ni1/ni0 ni2/ni0 ... nih/ni0 1
![Page 11: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/11.jpg)
Le distribuzioni condizionateSe fissiamo, invece, il valore yj per la variabile Y, se
studiamo la distribuzione di X per i soli soggetti che
possiedono quel valore yj della variabile Y, si ottiene la
distribuzione condizionata di X dato yj .
Tale distribuzione si indica con X|(Y=yj)
Valori di X|(Y=yj) x1 x2 … xk Tot.
Freq.assolute n1j n2j ... nkj n0j
Freq.relative n1j/n0j n2j/n0j ... nkj/n0j 1
![Page 12: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/12.jpg)
Le distribuzioni condizionate
X x1 x2 … xk
Freq.assolute n10 n20 ... nk0
OSSERVAZIONE:
Data una distribuzione doppia (X,Y) si possono
definire 2+h+k distribuzioni semplici:
2 distribuzioni marginali:
Y y1 y2 … yh
Freq.assolute n01 n02 ... n0h
![Page 13: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/13.jpg)
Le distribuzioni condizionateh distribuzioni condizionate di X dato yj la cui distribuzione generica è:
Valori di X|(Y=yj) x1 x2 … xk Tot
Freq.relative n1j/n0j n2j/n0j ... nkj/n0j 1
corrispondente alla modalità yj di Y con j=1,2,…,h.
k distribuzioni condizionate di Y dato xi la cui distribuzione generica è:
y1 y2 … yh Tot
Freq.relative ni1/ni0 ni2/ni0 ... nih/ni0 1
corrispondente alla modalità xi di X con i=1,2,…,k.
![Page 14: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/14.jpg)
Un esempioConsideriamo la seguente distribuzione doppia che descrive una popolazione di 100 individui sui quali sono stati rilevati il carattere grado di istruzione (X) e il carattere sesso (Y):
X Y TOT.
M F
Analfabeta 1 4 5
Licenza elementare 5 5 10
Licenza media 22 16 38
Licenza media superiore 18 17 35
Laurea 8 4 12
TOTALE 54 46 100
![Page 15: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/15.jpg)
Un esempioLa distribuzione doppia di frequenze relative è la seguente:
X Y TOT.
M F
Analfabeta 0,01 0,04 0,05
Licenza elementare 0,05 0,05 0,10
Licenza media 0,22 0,16 0,38
Licenza media superiore 0,18 0,17 0,35
Laurea 0,08 0,04 0,12
TOTALE 0,54 0,46 1,00
![Page 16: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/16.jpg)
Un esempio
Da questa distribuzione doppia possono essere ricavate:
2 distribuzioni marginali di frequenze relative (a, b);
2 distribuzioni condizionate (parziali) di frequenze relative
di X dato yj (c, d);
5 distribuzioni condizionate (parziali) di frequenze relative
di Y dato xi (e, f, g, h, i)
![Page 17: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/17.jpg)
Un esempioa) Distribuzione marginale di X
X=grado di istruzione fi
Analfabeta 0,05
Licenza elementare 0,10
Licenza media 0,38
Licenza media superiore 0,35
Laurea 0,12
TOTALE 1,00
![Page 18: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/18.jpg)
Un esempio
Y=sesso fi
M 0,54
F 0,46
TOTALE 1,00
b) Distribuzione marginale di Y
c) Distribuzione condizionata (X|Y=F)
X Y=F
Analfabeta 0,09
Licenza elementare 0,11
Licenza media 0,35
Licenza media superiore 0,36
Laurea 0,09
TOTALE 1,00
![Page 19: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/19.jpg)
Un esempio
X Y=M
Analfabeta 0,02
Licenza elementare 0,09
Licenza media 0,41
Licenza media superiore 0,33
Laurea 0,15
TOTALE 1,00
d) Distribuzione condizionata (X|Y=M)
Y X=analfabeta
M 0,20
F 0,80
TOT. 1,00
e) Distribuzione condizionata (Y|X=Analfabeta)
![Page 20: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/20.jpg)
Un esempio
Y X=lic.elementare
M 0,50
F 0,50
TOT. 1,00
f) Distribuzione condizionata (Y|X=Licenza Elem.)
g) Distribuzione condizionata (Y|X=Licenza Media)
Y X=lic. Media
M 0,58
F 0,42
TOT. 1,00
![Page 21: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/21.jpg)
Un esempio
Y X=lic. media superiore
M 0,51
F 0,49
TOT. 1,00
h) Distribuzione condizionata (Y|X=Licenza media sup.)
i) Distribuzione condizionata (Y|X=Laurea)
Y X=laurea
M 0,67
F 0,33
TOT. 1,00
![Page 22: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/22.jpg)
Indici per una sola variabileSe il carattere è quantitativo è possibile calcolare dei valori di sintesi per ciascuno dei caratteri X e Y.
In questo caso, la media aritmetica e la varianza di X sono le seguenti:
01
20
1
2
10
10
1)(
1
i
k
ixii
k
ixi
k
iii
k
iiix
fxnxN
XVar
fxnxN
![Page 23: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/23.jpg)
Le distribuzioni doppie
dove:
y1 … yj … yh
x1 n11 n1j n1h n10
… … … … …
xi ni1 … nij … nih ni0
… … … … …
xk nk1 … nkj … nkh nk0
n01 ... n0j ... n0h N
h
jiji nn
10
k
iijj nn
10
k
i
h
jijnN
1 1
![Page 24: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/24.jpg)
Indici per una sola variabile
La media aritmetica e la varianza di Y, invece, sono:
j
h
jyjj
h
jyj
h
jjj
h
jjjy
fynyN
YVar
fynyN
01
20
1
2
10
10
1)(
1
![Page 25: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/25.jpg)
Un esempioConsideriamo la seguente distribuzione di 100 studenti secondo il voto riportato in Statistica (X) e Ragioneria (Y).
X Y
18 19 20 21 22 23 24 25 26 27 28 29 30
18 4 4 8
19 5 2 3 10
20 7 7
21 9 4 13
22 9 2 11
23 0
24 0
25 3 9 6 18
26 2 2
27 0
28 6 6 12
29 1 6 4 11
30 2 4 2 8
5 24 8 9 6 0 11 10 6 6 3 4 8 100
![Page 26: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/26.jpg)
Un esempioOra calcoliamo i valori di sintesi per X:
X ni0 xini0 (xi-μ)2 (xi- μ)2ni0
18 8 144 34,34 274,72
19 10 190 23,62 236,20
20 7 140 14,90 104,30
21 13 273 8,18 106,34
22 11 242 3,46 38,06
23 0 0 0,74 0,00
24 0 0 0,02 0,00
25 18 450 1,30 23,40
26 2 52 4,58 9,16
27 0 0 9,86 0,00
28 12 336 17,14 205,68
29 11 319 26,42 290,62
30 8 240 37,70 301,60
100 2386 1590,08
![Page 27: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/27.jpg)
Un esempio
86,23100/23861
10
k
iiix nx
N
90,15100/08,15901
)( 01
2
i
k
ixi nx
NXVar
Per il carattere Y i calcoli vengono eseguiti nello stesso modo.
![Page 28: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/28.jpg)
La dipendenzaAnalizziamo ora alcune caratteristiche di una distribuzione doppia che non sono estensioni delle caratteristiche delle distribuzioni semplici.
DEFINIZIONE:
In matematica si dice che una variabile y, funzione di un’altra variabile x, è indipendente rispetto a x se, al variare di x, il valore di y resta costante.
![Page 29: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/29.jpg)
La dipendenza
x
y
y
Nel caso di una tabella a doppia entrata bisogna confrontare le distribuzioni condizionate (parziali).
![Page 30: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/30.jpg)
La dipendenza
Due distribuzioni semplici possono essere confrontate nei seguenti modi:
•Confrontando alcuni indici sintetici delle distribuzioni, per esempio due distribuzioni si dicono uguali rispetto alla media aritmetica se hanno la stessa media aritmetica;
•Confrontando direttamente tra loro le distribuzioni condizionate (parziali) di un carattere rispetto alle modalità dell’altro carattere.
![Page 31: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/31.jpg)
La dipendenza
Si possono presentare due situazioni limite:
•Caso di connessione nulla o indipendenza;
•Caso di perfetta dipendenza.
![Page 32: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/32.jpg)
Indici di connessioneNelle situazioni intermedie tra il caso di dipendenza perfetta e il caso di indipendenza sorge il problema della misura del grado di connessione tra i due caratteri.
Le misure del legame sono:
•Misure di dipendenza assoluta basate sul confronto fra le frequenze relative e le frequenze teoriche nel caso di indipendenza assoluta;
•Misure di dipendenza in media basate sul confronto delle medie delle distribuzioni condizionate (parziali).
![Page 33: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/33.jpg)
Connessione nulla o indipendenzaConsideriamo la seguente distribuzione doppia di frequenze:
y1 … yj … yh
x1 n11 n1j n1h n10
… … … … …
xi ni1 … nij … nih ni0
… … … … …
xk nk1 … nkj … nkh nk0
n01 ... n0j ... n0h N
![Page 34: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/34.jpg)
Connessione nulla o indipendenzaDEFINIZIONE:
Data una distribuzione doppia, il carattere Y è indipendente o non connesso con il carattere X, se le distribuzioni parziali secondo il carattere Y corrispondenti alle modalità di X sono tutte simili fra loro, cioè se, per j=1,2,…,h si ha:
(1) ...... 0
0020
2
10
1
N
n
n
n
n
n
n
n
n
n j
k
kj
i
ijjj
Infatti due distribuzioni secondo uno stesso carattere sono simili se sono uguali le frequenze relative di ciascuna modalità nelle due distribuzioni.
![Page 35: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/35.jpg)
Connessione nulla o indipendenzaConsideriamo ora il termine generale della (1):
,...,2,1 ,...,2,1 ,0
0
hjkiN
n
n
n j
i
ij
Quindi nel caso di indipendenza assoluta si ha:
,...,2,1 ,...,2,1 ,ˆ 00 hjkiN
nnn jiij
![Page 36: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/36.jpg)
Connessione nulla o indipendenzaIn termini di frequenze relative la relazione precedente può essere scritta:
,...,2,1 ,...,2,1 ,ˆ00 hjkifff jiij
Quindi, le frequenze assolute di una tabella a doppia entrata nella quale X e Y sono indipendenti sono indicate con:
,...,2,1 ,...,2,1 ,ˆ 00 hjkiN
nnn jiij
![Page 37: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/37.jpg)
Connessione nulla o indipendenza
k
i
h
jijn
1 1
ˆ)1
k
i
h
j
ji
N
nn
1 1
00
Per tali frequenze valgono le seguenti proprietà:
NNNN
1
k
i
h
jji nn
N 1 100
1
![Page 38: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/38.jpg)
Connessione nulla o indipendenza2) L’indipendenza o connessione nulla è bilaterale, in altre parole se Y è indipendente da X anche X lo è da Y.
Infatti se Y è indipendente da X si ha:
N
n
n
n j
i
ij 0
0
invertendo i medi si ha che:
N
n
n
ni
j
ij 0
0
cioè X è indipendente da Y.
![Page 39: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/39.jpg)
Connessione nulla o indipendenza
0 ˆ- ijijij nnc
3) Le differenze tra sono definite contingenze cioè:
ˆ e ijij nn
Le contingenze esprimono la diversità tra le frequenze assolute osservate e le frequenze assolute nel caso di variabili indipendenti.
ˆ- ijijij nnc
0 ˆ- ijijij nnc vi è attrazione tra le modalità xi ed yj
vi è repulsione tra le modalità xi ed yj
![Page 40: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/40.jpg)
Connessione nulla o indipendenza
k
i
h
jij
1 1
c
)ˆ(1 1
ijij
k
i
h
j
nn
4) Per le contingenze si ha:
0 NN
k
i
h
jij
k
i
h
jij nn
1 11 1
ˆ
![Page 41: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/41.jpg)
Perfetta dipendenzaDEFINIZIONE:
Il carattere Y dipende perfettamente da X se ad ogni modalità xi di X è associata una sola modalità yj di Y, in tal senso è possibile affermare che Y è completamente determinata dalle modalità di X.
ESEMPIO :
Consideriamo un carattere X che si presenta in quattro modalità ed un carattere Y che si presenta in tre modalità, se la distribuzione doppia è la seguente:
![Page 42: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/42.jpg)
Perfetta dipendenza
allora è possibile affermare che il carattere Y dipende perfettamente da X, in quanto ad ogni modalità xi di X è associata una sola modalità yj di Y e quindi che Y è completamente determinata dalle modalità di X.
y1 y2 y3
x1 7 0 0 7
x2 0 9 0 9
x3 6 0 0 6
x4 0 0 8 8
13 9 8 30
![Page 43: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/43.jpg)
Perfetta dipendenza
OSSERVAZIONE:
La relazione di perfetta dipendenza non è simmetrica. Infatti in questo caso, ad ogni modalità yj di Y non è associata una sola modalità xi di X (ad esempio, si veda la modalità y1). Pertanto, nell’esempio precedente X non dipende perfettamente da Y.
![Page 44: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/44.jpg)
Perfetta dipendenzaDEFINIZIONE:
La relazione è simmetrica, cioè Y e X sono mutuamente in dipendenza perfetta se ad ogni modalità yj di Y è associata una sola modalità xi di X e viceversa.
Ciò si verifica se, nell’ipotesi che le frequenze marginali siano tutte diverse da 0, si ha che h = k, cioè se la tabella della distribuzione doppia è quadrata.
![Page 45: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/45.jpg)
Perfetta dipendenzaESEMPIO :Consideriamo un carattere X che si presenta in tre modalità ed un carattere Y che si presenta in tre modalità, se la distribuzione doppia è la seguente:
y1 y2 y3
x1 4 0 0 4
x2 0 0 3 3
x3 0 5 0 5
4 5 3 12allora è possibile affermare che Y e X sono mutuamente in dipendenza perfetta cioè che ad ogni modalità yj di Y è associata una sola modalità xi di X e viceversa.
![Page 46: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/46.jpg)
Indici di dipendenza assoluta
k
i
h
j ij
ijij
n
nn
1 1
22
ˆ
)ˆ(
Una importante misura di distanza fra distribuzioni di frequenza è la distanza del di K. Pearson introdotta nel 1900, la quale è data da:
k
i
h
j ji
jiij
ff
fffN
1 1 00
200
k
i
h
j ji
jiij
N
nnN
nnn
1 1 00
2
00
![Page 47: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/47.jpg)
Indici di dipendenza assoluta
1) L’indice del
2) Il assume valore 0 nel caso di indipendenza assoluta e tende ad assumere valori sempre più grandi in situazioni dove X e Y sono lontani dall’ipotesi di indipendenza;
3) Il può essere utilizzato nell’analisi sia di caratteri quantitativi sia nell’analisi di caratteri qualitativi; in quanto il calcolo non dipende dalle modalità dei caratteri in esame, ma solo dalle distribuzioni delle frequenze.
![Page 48: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/48.jpg)
Un esempioLa tabella seguente riporta la distribuzione delle 76 unità di un collettivo secondo le modalità congiunte di due caratteri qualitativi A e B:
Carattere ACarattere B
B1 B2 B3
A1 17 12 8 37
A2 22 10 7 39
39 22 15 76
Dopo aver verificato che non sussiste indipendenza assoluta tra i caratteri, determinare l’indice di connessione
![Page 49: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/49.jpg)
Un esempio
Consideriamo, ad esempio,
Per avere indipendenza assoluta è necessario che:
,...,2,1 ,...,2,1 ,00 hjkiN
nnn jiij
Pertanto, è sufficiente che tale relazione non sia verificata per una sola frequenza assoluta della tabella a doppia entrata precedente per affermare che tra il carattere X e il carattere Y sussista un certo grado di dipendenza.
987,1876
(39)(37) 17 0110
11
N
nnn
quindi tra i due caratteri vi è un certo grado di dipendenza assoluta.
![Page 50: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/50.jpg)
Un esempioOra calcoliamo l’indice:
k
i
h
j ji
jiij
N
nnN
nnn
1 1 00
2
00
2
La tabella delle frequenze teoriche N
nnn jiij
00ˆ
è la seguente:
![Page 51: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/51.jpg)
Un esempioCarattere
A
Carattere B
B1 B2 B3
A1 18,99 10,71 7,30
A2 20,01 11,29 7,70
mentre la tabella dei valori
è la seguente:
![Page 52: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/52.jpg)
Un esempio
Carattere ACarattere B
B1 B2 B3
A1 0,21 0,16 0,07 0,44
A2 0,20 0,15 0,06 0,41
0,85
Quindi l’indice 85,01 1 00
2
00
2
k
i
h
j ji
jiij
N
nnN
nnn
che mostra un basso grado di dipendenza tra i caratteri.
![Page 53: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/53.jpg)
Altri indici di dipendenzaPer eliminare la dipendenza dell’indice da Nsi definisce la contingenza quadratica media come:
N
22
L’indice si annulla nel caso di indipendenza e soddisfa le seguenti disuguaglianze:
12 k 12 h
![Page 54: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/54.jpg)
Altri indici di dipendenzaL’uguaglianza =k-1 si verifica quando vi è dipendenza perfetta di X da Y, mentre l’uguaglianza =h-1 si verifica quando vi è dipendenza perfetta di Y da X .
Quindi, possiamo definire il seguente indice medio di contingenza di H. Cramer come:
)1,1min(
22
hk
con 10 2
![Page 55: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/55.jpg)
Un esempioLa tabella seguente riporta la distribuzione delle 20 regioni italiane per circoscrizione territoriale e per classe di produzione di frumento in milioni di quintali:
Circoscrizioni territoriali
Produzione di frumento
0-2,5 (bassa)
2,5-5,0 (media)
5,0-10,0 (alta)
Nord 4 2 2 8
Centro 0 2 2 4
Sud 5 1 2 8
9 5 6 20
Calcolare la contingenza quadratica media e l’indice medio di contingenza
![Page 56: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/56.jpg)
Un esempioPer calcolare l’indice dobbiamo innanzitutto quantificare l’indice
k
i
h
j ji
jiij
N
nnN
nnn
1 1 00
2
00
2
La tabella delle frequenze teoriche N
nnn jiij
00ˆ
è la seguente:
![Page 57: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/57.jpg)
Un esempio
Circoscrizioni territoriali
Produzione di frumento
0-2,5 (bassa)
2,5-5,0 (media)
5,0-10,0 (alta)
Nord 3,60 2,00 2,40
Centro 1,80 1,00 1,20
Sud 3,60 2,00 2,40
mentre la tabella dei valori
N
nnN
nnn
ji
jiij
00
2
00
è la seguente:
![Page 58: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/58.jpg)
Un esempioCircoscrizioni
territoriali
Produzione di frumento
0-2,5 (bassa)
2,5-5,0 (media)
5,0-10,0 (alta)
Nord 0,04 0,00 0,07 0,11
Centro 1,80 1,00 0,53 3,33
Sud 0,54 0,50 0,07 1,11
4,55Pertanto gli indici ricercati sono:
55,41 1 00
2
00
2
k
i
h
j ji
jiij
N
nnN
nnn
228,020/55,4
22
N
114,02
228,0
)1,1min(
22
hk
![Page 59: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/59.jpg)
La correlazioneKARL PEARSON (1857-1936)Pearson raccolse le altezze di 1078 padri e dei loro figli in età matura:
![Page 60: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/60.jpg)
La correlazione
Quando esiste una forte associazione fra X e Y conoscere il valore di una esse aiuta a prevedere il corrispondente dell’altra. L’intensità del legame tra la variabile X e Y è misurata tramite il coefficiente di correlazione.
![Page 61: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/61.jpg)
La correlazioneConsideriamo due caratteri quantitativi X e Y.
DEFINIZIONE:Dati due caratteri quantitativi X e Y, si ha concordanza tra di essi, se a valori più piccoli di X corrispondono valori più piccoli di Y e a valori più grandi di X corrispondono valori più grandi di Y.
DEFINIZIONE:Dati due caratteri quantitativi X e Y, si ha discordanza tra di essi, se a valori più piccoli di X corrispondono valori più grandi di Y e a valori più grandi di X corrispondono valori più piccoli di Y.
![Page 62: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/62.jpg)
La covarianzaUna importante misura della concordanza tra due caratteri è la covarianza definita come:
))((),( yxxy YXMYXCov
La formula precedente nel caso di distribuzioni unitarie diventa:
N
iyixi yx
NYXCov
1
))((1
),(
![Page 63: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/63.jpg)
La covarianza
ij
k
i
h
jyjxi nyx
NYXCov
1 1
))((1
),(
N
iyxii yxN
YMXMXYMYXCov
1
1
)()(),(
mentre nel caso di distribuzioni di frequenze assolute si ha:
Si può dimostrare che:
Infatti:
![Page 64: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/64.jpg)
La covarianza
N
iyixi yx
NYXCov
1
))((1
),(
N
iyxixyiii yxyx
N 1
1
yx
N
iix
N
iiy
N
iii y
Nx
Nyx
N
111
111
N
iyxii yxN 1
1
![Page 65: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/65.jpg)
La covarianzaNel caso di una distribuzione di frequenze si ha:
k
iyx
h
jijji nyx
NYXCov
1 1
1),(
OSSERVAZIONI:
•Se X e Y sono concordi, allora la covarianza assume segno positivo;
•Se X e Y sono discordi, allora la covarianza assume segno negativo;
•Se la covarianza è nulla, X e Y sono indifferenti (incorrelati).
![Page 66: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/66.jpg)
Proprietà della covarianza
),(),( YXCovYXCov
)()(1
),(1
YMyXMxN
YXCov i
N
ii
Siano X e Y due variabili e e due costanti, allora risulta:
cioè la covarianza è invariante per cambiamenti di unità di misura di X e Y.
Dim.:
Infatti:
![Page 67: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/67.jpg)
Proprietà della covarianza
)()(1
),(1
yi
N
ixi yx
NYXCov
xXMXM )()(
yYMYM )()(
Ma dato che:
N
iyixi yx
N 1
))((1
),( YXCov
![Page 68: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/68.jpg)
Proprietà della covarianza
),(),( YXCovYXCov
)()()()(1
1
YMyXMxN i
N
ii
Siano X e Y due variabili e , due costanti, allora risulta:
cioè la covarianza è invariante per traslazioni di X e Y.
Dim.:Infatti:
),( YXCov
![Page 69: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/69.jpg)
Proprietà della covarianza
),( YXCov
xXMXM )()(
yYMYM )()(
),(1
1
YXCovyxN yi
N
ixi
Ma dato che:
allora:
)()()()(1
1
yi
N
ixi yx
N
![Page 70: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/70.jpg)
Proprietà della covarianzaCombinando le due relazioni precedenti si ha:
),(),( YXCovYXCov
![Page 71: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/71.jpg)
Coefficiente di correlazione lineare
)()(
),(
YVarXVar
YXCov
yx
xy
11
Il coefficiente di correlazione lineare è definito come:
L’indice ρ misura il legame lineare fra X e Y e varia tra -1 e 1; cioè:
![Page 72: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/72.jpg)
Coefficiente di correlazione lineareNel caso di distribuzioni unitarie ρ è definito come:
N
iyi
N
ixi
N
iyixi
yx
xy
yN
xN
yxN
1
2
1
2
1
11
))((1
Nel caso di distribuzioni di frequenza invece si ha:
h
jjyj
k
iixi
ij
k
i
h
jyjxi
yx
xy
nyN
nxN
nyxN
10
2
10
2
1 1
11
))((1
![Page 73: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/73.jpg)
Coefficiente di correlazione lineareOSSERVAZIONI:
Se ρ>0, X e Y sono concordi tra loro;
Se ρ=1, X e Y sono legati da una perfetta dipendenza lineare diretta;
Se ρ<0, X e Y sono discordi tra loro;
Se ρ=-1, X e Y sono legati da una perfetta dipendenza lineare inversa;
Se ρ=0, X e Y sono indifferenti (incorrelati) tra loro.
![Page 74: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/74.jpg)
Un esempioSia data la seguente distribuzione di 6 appezzamenti di terreno secondo la quantità di fertilizzante utilizzato ed il raccolto di grano:
X Fertilizzante (Kg)
Y Grano (qt)
12 7
10 6
8 4
9 4
5 3
2 2
Calcolare il coefficiente di correlazione lineare.
![Page 75: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/75.jpg)
Un esempioCalcoliamo innanzitutto la Cov(X,Y) che nel caso di distribuzioni unitarie è pari a:
N
iyixi yx
NYXCov
1
))((1
),(
Per il calcolo dell’indice ci aiutiamo con la seguente tabella:
![Page 76: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/76.jpg)
Un esempio
xix yiy yiy xix X
Fertilizzante (Kg)
Y Grano (qt)
12 4,33 7 2,67 11,56
10 2,33 6 1,67 3,89
8 0,33 4 -0,33 -0,11
9 1,33 4 -0,33 -0,44
5 -2,67 3 -1,33 3,55
2 -5,67 2 -2,33 13,21
46 26 31,67
![Page 77: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/77.jpg)
Un esempio
N
iix x
N 1
67,76/461
N
iiy y
N 1
33,46/261
28,56/67,31))((1
),(1
N
iyixi yx
NYXCov
Quindi si ha:
Ora calcoliamo la Var(X) e la Var (Y):
![Page 78: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/78.jpg)
Un esempio
4,33 18,75 2,67 7,13
2,33 5,43 1,67 2,79
0,33 0,11 -0,33 0,11
1,33 1,77 -0,33 0,11
-2,67 7,13 -1,33 1,77
-5,67 32,15 -2,33 5,43
65,34 17,34
)( xix 2xix 2)( yiy )( yiy
![Page 79: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/79.jpg)
Un esempio
89,106/34,651
)(1
2
N
ixixN
XVar
89,26/34,17)(1
)(1
2
N
iyiyN
YVar
941,0)89,2()89,10(
28,5
)()(
),(
YVarXVar
YXCov
Quindi:
Pertanto il coefficiente di correlazione lineare è pari a:
che mostra una elevata correlazione lineare diretta tra i due caratteri.
![Page 80: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/80.jpg)
Un esempioSia data la seguente distribuzione di 10 squadre di calcio durante il campionato di calcio 2000-2001 secondo i gol fatti (variabile X) e i gol subiti (variabile Y):
Squadre Gol Fatti X Gol Subiti Y
ROMA 68 33
JUVENTUS 60 27
LAZIO 65 36
PARMA 51 31
INTER 47 47
MILAN 56 46
ATALANTA 39 35
BRESCIA 44 42
FIORENTINA 53 52
BOLOGNA 49 53
![Page 81: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/81.jpg)
Un esempioDeterminare il coefficiente di correlazione lineare.Calcoliamo innanzitutto la Cov(X,Y) :
xix yiy xix yiy X Y
68 14,8 33 -7,2 -106,56
60 6,8 27 -13,2 -89,76
65 11,8 36 -4,2 -49,56
51 -2,2 31 -9,2 20,24
47 -6,2 47 6,8 -42,16
56 2,8 46 5,8 16,24
39 -14,2 35 -5,2 73,84
44 -9,2 42 1,8 -16,56
53 -0,2 52 11,8 -2,36
49 -4,2 53 12,8 -53,76
532 402 -250,40
![Page 82: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/82.jpg)
Un esempioQuindi si ha:
N
iix x
N 1
2,5310/5321
N
iiy y
N 1
2,4010/4021
04,2510/4,250
))((1
),(1
N
iyixi yx
NYXCov
Ora calcoliamo la Var(X) e la Var (Y):
![Page 83: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/83.jpg)
Un esempio
14,8 219,04 -7,2 51,84
6,8 46,24 -13,2 174,24
11,8 139,24 -4,2 17,64
-2,2 4,84 -9,2 84,64
-6,2 38,44 6,8 46,24
2,8 7,84 5,8 33,64
-14,2 201,64 -5,2 27,04
-9,2 84,64 1,8 3,24
-0,2 0,04 11,8 139,24
-4,2 17,64 12,8 163,84
759,60 741,60
xix 2xix 2yiy yiy
![Page 84: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/84.jpg)
Un esempioQuindi:
96,7510/6,7591
)(1
2
N
ixixN
XVar
16,7410/60,7411
)(1
2
N
iyiyN
YVar
Pertanto il coefficiente di correlazione lineare è pari a:
334,016,7496,75
04,25
)()(
),(
YVarXVar
YXCov
![Page 85: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/85.jpg)
Un esempioSia data la seguente distribuzione di 20 famiglie secondo il numero di componenti (variabile X) e il numero di stanze dell’appartamento dove si vive (variabile Y):
XY
1 2 3
1 3 1 1 5
2 2 2 3 7
3 0 1 3 4
4 0 1 3 4
5 5 10 20
Calcolare il coefficiente di correlazione lineare.
![Page 86: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/86.jpg)
Un esempioCalcoliamo innanzitutto la Cov(X,Y) che nel caso di distribuzioni di frequenza è pari a:
ij
k
i
h
jyjxi nyx
NYXCov
1 1
))((1
),(
La media aritmetica di X è pari a:
35,220
47
20
)44()43()72()51(1
10
k
iiix nx
N
![Page 87: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/87.jpg)
Un esempio
25,220
45
20
)103()52()51(1
10
h
ijjy ny
N
La media aritmetica di Y è, invece, pari a:
![Page 88: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/88.jpg)
Un esempio
)]25,23)(35,24)(3()25,22)(35,24)(1(
)25,21)(35,24)(0()25,23)(35,23)(3(
)25,22)(35,23)(1()25,21)(35,23)(0(
)25,23)(35,22)(3()25,22)(35,22)(2(
)25,21)(35,22)(2()25,23)(35,21)(1(
)25,22)(35,21)(1()25,21)(35,21)(3[(20
1
))((1
),(1 1
ij
k
i
h
jyjxi nyx
NYXCov
462,020/25,9
La covarianza è pari a:
![Page 89: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/89.jpg)
Un esempio
X ni0 (xi-x) (xi-x)2 (xi-x)2 ni0
1 5 -1,35 1,82 9,11
2 7 -0,35 0,12 0,86
3 4 0,65 0,42 1,69
4 4 1,65 2,72 10,89
20 22,55
Y n0j (yj-y) (yj-y)2 (yj-y)2 n0j
1 5 -1,25 1,5625 7,81
2 5 -0,25 0,0625 0,31
3 10 0,75 0,5625 5,63
20 13,75
Per il calcolo delle varianze ci aiutiamo con le seguente tabelle:
![Page 90: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/90.jpg)
Un esempio
13,120/55,221
)(1
02
k
iixi nx
NXVar
69,020/75,13)(1
)(1
02
h
ijyj ny
NYVar
Quindi:
Pertanto il coefficiente di correlazione lineare è pari a:
521,0)69,0()13,1(
46,0
)()(
),(
YVarXVar
YXCov
![Page 91: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/91.jpg)
Alcune proprietàL’indipendenza assoluta tra X e Y implica una indifferenza tra i caratteri, cioè un ma una indifferenza tra i caratteri non implica una indipendenza assoluta, ma solamente una indipendenza di tipo lineare.
Infatti se vi è indipendenza assoluta tra X e Y si ha che le frequenze assolute sono pari a:
N
nncn jiijij
00
Pertanto si ha:
![Page 92: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/92.jpg)
Alcune proprietà
h
jjyj
k
iixi
ij
k
i
h
jyjxi
nyN
nxN
nyxN
10
2
10
2
1 1
)(1
)(1
))((1
h
jjyj
k
iixi
ji
k
i
h
jyjxi
nyN
nxN
nnyxN
10
2
10
2
001 1
2
)(1
)(1
))((1
![Page 93: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/93.jpg)
Alcune proprietà
0
)(1
)(1
)()(1
10
2
10
2
01 1
02
h
jjyj
k
iixi
j
k
i
h
jyjixi
nyN
nxN
nynxN
in quanto
0)( 0)( 01 1
0
j
k
i
h
jyjixi nynx
sono somma di scarti dalla media aritmetica; pertanto tra il carattere X e il carattere Y vi è indifferenza (=0).
![Page 94: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/94.jpg)
Alcune proprietàL’indifferenza, invece, può presentarsi anche in caso di connessione non nulla; infatti la covarianza può annullarsi anche se fra le distribuzioni marginali c’è massima dipendenza, ossia nel caso che ad ogni valore di X corrisponda uno ed un solo valore di Y. Ciò accade ad esempio per la seguente distribuzione:
X 0 1 2 3 4 5 6 7 8
Y 16 9 4 1 0 1 4 9 16
1682 XXY
Per la quale i valori della variabile Y sono legati alla variabile X dalla seguente relazione:
In questo caso =0 ma vi è una dipendenza perfetta di Y da X.
![Page 95: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/95.jpg)
Alcune proprietà
),( YX
)()(
),(
YVarXVar
YXCov
)()(
),(22 YVarXVar
YXCov
Siano X e Y due variabili e , , e delle costanti.
Allora si ha:
),())((),( YXsegnoYX
Dim.:
),())(( YXsegno
yx
YXCov
),(
![Page 96: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/96.jpg)
Alcune proprietàρ è quindi invariante per trasformazioni lineari che conservano il segno, cioè che mantengono invariata la direzione della relazione tra X e Y.
![Page 97: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/97.jpg)
Alcune proprietà1),( XX
1)(
)(
)()(
),(),(
XVar
XVar
XVarXVar
XXCovXX
Dim.:
Infatti:
![Page 98: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/98.jpg)
Correlazione spuriaIl coefficiente di correlazione lineare sintetizza con un valore unico il grado del legame lineare tra le variabili X e Y.
Non sempre, però, ad un valore elevato di ρ corrisponde un effettivo legame tra i due caratteri considerati. Infatti, ad esempio, può esistere un legame tra X e Y solo perchè entrambe le variabili dipendono da una terza variabile Z.
![Page 99: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/99.jpg)
Un esempioIl numero di bottiglie di birra bevute e il numero di condizionatori che vengono venduti in Italia presentano una alta correlazione lineare.
Ma tutte e due le variabili dipendono da una terza variabile: la temperatura.Infatti, più la temperatura è alta, più birre vengono bevute e più condizionatori vengono venduti.
![Page 100: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/100.jpg)
Un esempio
0;1;1;3;3 rYXYX 4.0;1;1;3;3 rYXYX 9.0;1;1;3;3 rYXYX
6.0;1;1;3;3 rYXYX 8.0;1;1;3;3 rYXYX 95.0;1;1;3;3 rYXYX
![Page 101: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/101.jpg)
Un esempio
3.0;1;1;3;3 rYXYX 5.0;1;1;3;3 rYXYX 95.0;1;1;3;3 rYXYX
7.0;1;1;3;3 rYXYX 9.0;1;1;3;3 rYXYX 99.0;1;1;3;3 rYXYX
![Page 102: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/102.jpg)
La regressioneSIR FRANCIS GALTON (1822-1911)
“Teoria del sangue blù”Il talento ed il carattere sono ereditari
In questo contesto nasce l’analisi della regressione lineare
La statura dei figli può essere prevista sulla base di quella dei genitori?
Se è così, l’altezza è ereditaria…e lo è anche il talento e l’onesta!
Esiste il sangue blu!
![Page 103: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/103.jpg)
La regressioneConsideriamo ancora due caratteri quantitativi X e Y, ma ora presupponiamo l’esistenza di una relazione di tipo funzionale tra essi, secondo cui è possibile stabilire quale sia la variabile indipendente e quale la dipendente.Ossia è possibile scrivere quanto segue:
dove X è la variabile indipendente e Y la variabile dipendente.
XfY
![Page 104: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/104.jpg)
La regressioneTale funzione matematica f(.) può assumere qualunque forma (quadratica, esponenziale, ecc.); noi ci limiteremo a trattare il caso della relazione lineare del tipo:
XY 10
dove β0 rappresenta l’intercetta, mentre β1 è il coefficiente angolare, ossia ci dà la pendenza della retta.
![Page 105: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/105.jpg)
La regressione
![Page 106: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/106.jpg)
Un esempioDate le distribuzioni del prezzo del gas X e del suo consumo pro-capite Y di 20 famiglie:
Prezzo (X) 30 31 37 42 43 45 50 54 54 57 58 58 60 73 88 89 92 97 100 102
Consumo pro-capite (Y) 134 112 136 109 105 87 56 43 77 35 65 56 58 55 49 39 36 46 40 42
I due caratteri possono essere rappresentati in uno scatter, che evidenzia una relazione decrescente, ossia all’aumentare del prezzo il consumo diminuisce.
![Page 107: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/107.jpg)
Un esempio
Prezzo vs Consumo pro-capite
0
20
40
60
80
100
120
140
160
20 30 40 50 60 70 80 90 100 110
Prezzo del gas
Co
ns
um
o p
ro-c
ap
ite d
el g
as
La relazione può essere interpretata con una funzione di tipo lineare, come la retta riportata nel grafico.
![Page 108: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/108.jpg)
La retta di regressionePer identificare univocamente la relazione matematica che “spiega” il fenomeno, sarà necessario stimare, attraverso il metodo dei minimi quadrati, cioè rendendo minime le distanze, al quadrato, tra i valori osservati e quelli teorici, il valore dei due parametri incogniti β0 e β1
In pratica è minimizzata la seguente funzione quadratica (somma dei quadrati degli scarti ei):
10 ,1
210
1
210 min),(,
N
iii
N
ii yyeg
![Page 109: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/109.jpg)
La retta di regressionedove
ii xy 1010 ),(
pertanto si ha:
10 ,
1
210
1
210 min,
N
iii
N
ii xyeg
La minimizzazione della funzione g(.) richiede il calcolo delle derivate parziali rispetto ad 0 e 1, per poi porle uguali a zero.
(1)
![Page 110: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/110.jpg)
La retta di regressionePertanto si ha:
0
0
1
0
g
g
02
02
110
1
110
0N
iiii
N
iii
xxyg
xyg
![Page 111: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/111.jpg)
La retta di regressione
N
iii
N
ii
N
ii
N
ii
N
ii
yxxx
yxN
11
21
10
1110
Equazioni normali
0 1
Risolvendo rispetto ad 0 e 1 si ottengono le stime:
che annullano le derivate parziali:
![Page 112: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/112.jpg)
La retta di regressione
xy
x
N
ii
N
iyxii
x
xy
N
ixi
N
iyixi
Nx
Nyx
x
yx
10
2
1
2
12
1
2
11
ˆˆ
)(
))((ˆ
Una volta stimati i coefficienti e sostituiti alla (1) è immediato disegnare la retta di regressione che è individuata dalla seguente equazione:
XY 10ˆˆˆ
Il termine 1 prende il nome di coefficiente di regressione
![Page 113: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/113.jpg)
Un esempioRiprendiamo i dati dell’esempio precedente e calcoliamo la retta di regressione:
)( xix 2)( xix )( yiy ))(( yixi yx Prezzo (X)
Consumo pro-capite
(Y)
30 134 -33 1089 65 -2145
31 112 -32 1024 43 -1376
37 136 -26 676 67 -1742
42 109 -21 441 40 -840
43 105 -20 400 36 -720
45 87 -18 324 18 -324
50 56 -13 169 -13 169
![Page 114: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/114.jpg)
Un esempioPrezzo (X)
Consumo pro-capite (Y)
54 43 -9 81 -26 234
54 77 -9 81 8 -72
57 35 -6 36 -34 204
58 65 -5 25 -4 20
58 56 -5 25 -13 65
60 58 -3 9 -11 33
73 55 10 100 -14 -140
88 49 25 625 -20 -500
89 39 26 676 -30 -780
92 36 29 841 -33 -957
97 46 34 1156 -23 -782
100 40 37 1369 -29 -1073
102 42 39 1521 -27 -1053
10668 -11779
)( xix 2)( xix )( yiy ))(( yixi yx
![Page 115: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/115.jpg)
Un esempio
N
iix x
N 1
6320/12601
N
iiy y
N 1
6920/13801
10,110668
11779
)(
))((ˆ
1
2
11
N
ixi
N
iyixi
x
yx
55,13863104,169ˆˆ10 xy
Pertanto la retta di regressione è:
XY 10,155,138ˆ
![Page 116: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/116.jpg)
Un esempioNella seguente tabella vengono riportati il numero delle pagine ed i prezzi (in euro) di dieci volumi di una stessa collana editoriale:
n. pagine 120 137 145 250 375 222 308 345 698 572
prezzo 12 22 16 14 15 12 14 14 20 16
Utilizziamo la seguente tabella per svolgere i calcoli:
![Page 117: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/117.jpg)
Un esempioi xi yi x2
i y2i xiyi
1 120 12 14400 144 1440
2 137 22 18769 484 3014
3 145 16 21025 256 2320
4 250 14 62500 196 3500
5 375 15 140625 225 5625
6 222 12 49284 144 2664
7 308 14 94864 196 4312
8 345 14 119025 196 4830
9 698 20 487204 400 13960
10 572 16 327184 256 9152
3172 155 1.334.880 50.817
![Page 118: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/118.jpg)
Un esempio2,31710/3172 x 5,1510/155 y
005,0328721,6
1651
2,31710880.334.1
5,152,31710817.50ˆ2
2
1
2
11
x
N
ii
N
iyxii
Nx
Nyx
914,132,317005,05,15ˆˆ10 xy
Pertanto la stima del coefficiente di regressione:
mentre il valore dell’intercetta è pari a:
![Page 119: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/119.jpg)
Un esempio
XY 005,0914,13
Pertanto la retta di regressione è:
Graficamente si ha:
05
1015
2025
0 200 400 600 800
n. pagine
prez
zo
![Page 120: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/120.jpg)
Ancora sulla retta di regressioneFino ad ora e stata considerata la seguente retta di regressione:
XY 10ˆˆˆ
cioè la retta di Y su X, ma può essere considerata anche la retta:
YX 'ˆ'ˆ10
cioè la retta di X su Y dove:
![Page 121: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/121.jpg)
Ancora sulla retta di regressione
yx
y
N
ii
N
iyxii
y
xy
N
iyi
N
iyixi
Ny
Nyx
y
yx
'ˆ'ˆ
)(
))(('ˆ
10
2
1
2
12
1
2
11
1 'ˆ1Il segno di è uguale a quello di
infatti il numeratore (covarianza) dei due coefficienti è identico e il denominatore sempre positivo.
![Page 122: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/122.jpg)
Ancora sulla retta di regressioneLe due rette di regressione si incontrano nel punto:
),( yx
Se 0'ˆˆ11
le rette di regressione sono perpendicolari tra loro e parallele agli assi
![Page 123: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/123.jpg)
Ancora sulla retta di regressione
'ˆˆ0X
0ˆ Y
X
Y
),( yx
![Page 124: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/124.jpg)
Ancora sulla retta di regressione
'ˆˆ11
22y
xy
x
xy
2
yx
xy
Il coefficiente di correlazione ρ e i coefficienti di regressione sono legati dalla seguente relazione:
'ˆˆ11
Infatti:
yx
xy
![Page 125: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/125.jpg)
Ancora sulla retta di regressioneIl coefficiente di correlazione ρ e i coefficienti di regressione sono legati anche dalla seguente relazione:
'ˆˆ11
x
y
y
x
Il coefficiente di regressione sono legati dalla seguente relazione:
'ˆˆ12
2
1
x
y
![Page 126: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/126.jpg)
Ancora sulla retta di regressioneLe due rette di regressione coincidono soltanto quando vi è perfetta correlazione lineare cioè quando:
1
![Page 127: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/127.jpg)
Il grado di accostamento
Non necessariamente però il modello stimato, quello lineare, è il migliore al fine di interpretare la relazione tra i due caratteri.
Per valutare la bontà di adattamento del modello ai dati osservati, facciamo ricorso all’indice di determinazione R2.
L’indice R2 si basa sulla scomposizione della devianza totale:
![Page 128: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/128.jpg)
Il grado di accostamento
N
iyiyYDev
1
2)()(
N
iyiii yyy
1
2)ˆˆ(
N
iyiyYDev
1
2)(
N
iyiii
N
iyi
N
iii yyyyyy
11
2
1
2 )ˆ)(ˆ(2)ˆ()ˆ(
![Page 129: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/129.jpg)
Il grado di accostamentoSi dimostra facilmente che:
0)ˆ)(ˆ(21
N
iyiii yyy
per la seconda delle equazioni normali.
Pertanto si ha:
)()()( RDevEDevYDev
N
iyi
N
iii yyyYDev
1
2
1
2 )ˆ()ˆ()(
![Page 130: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/130.jpg)
Il grado di accostamentoL’accostamento sarà tanto migliore quanto minore sarà Dev(E).
Allora l’indice di determinazione R2 è pari a:
R2= Dev(R)/Dev(Y)=1-[Dev(E)/ Dev(Y)]
R2 indica quanta parte di Dev(Y) è spiegata dalla devianza di regressione.
Ovviamente 0 R21.
![Page 131: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/131.jpg)
Il grado di accostamentoIn altre parole, R2 indica quanta parte della devianza presente nei dati (Dev(Y)) è stata colta dal modello di regressione (Dev(R)).
N
iyi
N
iii
N
iyi
N
iyi
y
yy
YDev
EDev
y
y
YDev
RDev
R
1
2
1
2
1
2
1
2
2
)(
)ˆ(1
)(
)(1
)(
)ˆ(
)(
)(
![Page 132: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/132.jpg)
Il grado di accostamentoEsso varia tra 0 ed 1:
)()( quando 1
)()( quando 02
YDevRDev
YDevEDev
R
![Page 133: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/133.jpg)
Il grado di accostamento
![Page 134: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/134.jpg)
Un esempioTornando all’esempio precedente del gas e del consumo pro-capite, e calcoliamo il valore dell’indice R2. I calcoli sono riassunti nella seguente tabella:
2yiy iy ii yy ˆ 2ˆ ii yy Prezzo
(X)Consumo
pro-capite (Y)
30 134 4225 105,43 28,57 816,24
31 112 1849 104,33 7,67 58,83
37 136 4489 97,70 38,30 1466,89
42 109 1600 92,18 16,82 282,91
43 105 1296 91,08 13,92 193,77
45 87 324 88,87 -1,87 3,50
50 56 169 83,35 -27,35 748,02
![Page 135: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/135.jpg)
Un esempio 2yiy
iy ii yy ˆ 2ˆ ii yy Prezzo (X)
Consumo pro-capite (Y)
54 43 676 78,93 -35,93 1290,96
54 77 64 78,93 -1,93 3,72
57 35 1156 75,62 -40,62 1649,98
58 65 16 74,52 -9,52 90,63
58 56 169 74,52 -18,52 342,99
60 58 121 72,31 -14,31 204,78
73 55 196 57,96 -2,96 8,76
88 49 400 41,40 7,60 57,76
89 39 900 40,29 -1,29 1,66
92 36 1089 36,98 -0,98 0,96
97 46 529 31,46 14,54 211,41
100 40 841 28,15 11,85 140,42
102 42 729 25,94 16,06 257,92
20838 7832,11
![Page 136: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/136.jpg)
Un esempio
62,038,0120838
11,78321
)(
)(12
YDev
EDevR
![Page 137: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/137.jpg)
Un esempioConsideriamo le seguenti variabili X e Y:
xi yi
1 5
2 7,5
3 12
4 15,5
6,3ˆ,1ˆ10
X,Y 631ˆ
Applicando i minimi quadrati si trova:
cioè:
![Page 138: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/138.jpg)
Un esempioIl calcolo di R2 è il seguente:
iy yiy 2yiy ii yy ˆ 2ˆii yy xi yi
1 5 4,6 -5 25 0,4 0,16
2 7,5 8,2 -2,5 6,25 0,7 0,49
3 12 11,8 2 4 0,2 0,04
4 15,5 15,4 5,5 30,25 0,1 0,01
40 65,50 0,70
![Page 139: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/139.jpg)
Un esempio
104/404
1 4
1
i
iy y
70,0ˆ)(
50,6510)(
4
1
2
4
1
24
1
2
iii
ii
iyi
yyEDev
yyYDev
989,050,65
70,01
)(
)(12
YDev
EDevR
![Page 140: Le distribuzioni multiple Si definisce distribuzione statistica multipla la distribuzione ottenuta dalla rilevazione di più caratteri su unità appartenenti](https://reader036.vdocuments.site/reader036/viewer/2022062300/5542eb4e497959361e8bca7d/html5/thumbnails/140.jpg)
Il grado di accostamento
OSSERVAZIONE IMPORTANTE
Si dimostra che R2=ρ2.