indici di variabilità - luiss guido carlidocenti.luiss.it/.../2016/...indici_di_variabilita.pdf ·...
TRANSCRIPT
Indici di variabilità
10x = 10x =
Gli indici di posizione sono tanto più rappresentativi
quanto minore è la dispersione dei dati intorno ad essi.
La variabilità è l’attitudine delle osservazioni ad esse
diverse l’una dall’altra
Gli indici di variabilità misurano
1) la dispersione (rispetto alla posizione)
2) la variabilità
Voti Master
Studente Matematica Algebra Probabilità Inferenza
A 25 24 28 24
B 23 24 24 25
C 25 24 30 27
D 25 24 27 23
E 28 27 26 28
F 28 24 26 24
G 26 24 26 28
H 25 24 25 26
I 26 27 27 25
L 22 21 25 21
M 26 27 23 26
N 22 21 20 20
O 20 24 25 24
P 27 24 30 25
La varianzaDati n valori 1 2 nx , x , ,x… con media x , la varianza è
2 2
(2)s x x= −
dove n
i
i
x xn =
= ∑ 2(2)
1
1
( )22
1
1 n
i
i
s x xn =
= −∑
Essa indica qual è la concentrazione delle osservazioni
intorno alla media, fornendo indicazioni sull’ordine di
grandezza degli scarti.
Scarto quadratico medio
2sσ =
La varianza
( )
( )
( )
����
( )
( )
22
22
1
2 2
1
2 2
1 1 1
2 2
2
2
2
1
12
1 1 12
2
n
i
i
n
i i
i
n n n
i i
i i i
x x nx
s x xn
x x x xn
x x x xn n n
x x x
x x .
=
=
= = =
= = =
= −
= − +
= − +
= − +
= −
∑
∑
∑ ∑ ∑��� ������ ������ ������ ���
Esempio 4.1 - Varianza
(1, 2, 5, 6, 7, 9) 5x =Dati:
2 2 2 2
2 2 2
1(1 5) (2 5) (5 5)
6
(6 5) (7 5) (9 5) 7.67
s = − + − + −
+ − + − + − =
1. Media dei quadrati degli scarti
( ) ( )2 2 2 2 2 2
2
11 2 5 6 7 9 32.67
6x = + + + + + =
2 232 67 5 7 67s . .= − =
2. Differenza fra la media dei quadrati e il quadrato della
media
7 67 2 77. .σ = =Scarto quadratico medio
Varianza
da distribuzione di frequenza
( )22
1
1 k
i i
i
s x x nn =
= −∑
2 2
2( )s x x= −
X assume
k valori x1, x2, …, xk
con frequenze n1, n2, …, nk
dove ( )
2
2
1
1 k
i i
i
x x nn =
= ∑
1.
2.
Esempio 4.2 – Varianza Voti in algebra
( )22
1
1 144 3574
14
3 17
k
i i
i
s x x n .n
.
=
= − =
=
∑
Tabella 4.2 – Calcolo della varianza dei voti in Algebra.
ix
in
ix x− ( )
2
ix x− ( )
2
i ix x n−
21 2 -3.21 10.3041 20.6082
24 9 -0.21 0.0441 0.3969
27 3 2.79 7.7841 23.3523
Totale 14 44.3574
( )2
1
k
i i
i
x x n=
−∑
3 17 1 78. .σ = =Scarto quadratico medio
24.21=x
Esempio 4.2 – Varianza dei voti in Probabilità
2
2
1
1 9450675
14
k
( ) i i
i
y y nn =
= = =∑2 2 2
2 675 25 86
6 26
( )s y y .
.
= − = −
=
6 26 2 50. .σ = =Scarto quadratico medio
Tabella 4.3 – Media dei quadrati
dei voti in Probabilità.
iy in 2iy 2
i iy n
20 1 400 400
23 1 529 529
24 1 576 576
25 3 625 1⋅875
26 3 676 2⋅028
27 2 729 1⋅458
28 1 784 784
30 2 900 1⋅800
Totale 14 9⋅⋅⋅⋅450
2
1
k
i i
i
y n=
∑
25.86=y
Varianza da dati
raggruppati in classi
k classi
(x0 – x1), (x1 – x2), … , (xk-1 – xk)
con frequenze n1, n2, … , nk
e valori centrali x1, 2x , … , kx
( )22
1
1 k
i i
i
s x x nn =
−∑≃≃≃≃
2 2
2( )s x x−≃≃≃≃
dove 2
(2)
1
1 k
i i
i
x x nn =
∑≃
1.
2.
Esempio 4.3 – varianza rendimentiTabella 4.4 – Calcolo della varianza per i rendimenti .
Classi ix
in
ix x− ( )
2
ix x− ( )
2
i ix x n−
- 1.0 |– 1.0 0.0 9 -2.83 8.01 72.09
1.0 |– 2.0 1.5 23 -1.33 1.77 40.71
2.0 |– 3.0 2.5 24 -0.33 0.11 2.64
3.0 |– 4.0 3.5 8 0.67 0.45 3.60
4.0 |– 6.0 5.0 9 2.17 4.71 42.39
6.0 |– 8.0 7.0 3 4.17 17.39 52.17
8.0 |– 10.0 9.0 3 6.17 38.07 114.21
10.0 |– 12.0 11.0 1 8.17 67.75 67.75
Totale 80 395.56
( )2
1
k
i i
i
x x n=
−∑
( )22
1
1 1395.56 4.94
80
k
i i
i
s x x nn =
− = =∑≃≃≃≃
4 94 2 22. .σ =≃≃≃≃
2 83x .=
Esempio 4.3 – varianza rendimentiTabella 4.5 – Calcolo della media dei quadrati
Classi ix
in 2
ix
2
i ix n
-1.0 |– 1.0 0.0 9 0.00 0.00
1.0 |– 2.0 1.5 23 2.25 51.75
2.0 |– 3.0 2.5 24 6.25 150.00
3.0 |– 4.0 3.5 8 12.25 98.00
4.0 |– 6.0 5.0 9 25.00 225.00
6.0 |– 8.0 7.0 3 49.00 147.00
8.0 |– 10.0 9.0 3 81.00 243.00
10.0 |– 12.0 11.0 1 121.00 121.00
Totale 80 1⋅⋅⋅⋅035.75
2
1
k
i i
i
x n=
∑
2 2 2
2 12 95 2 83 4 94( )s x x . . .− = − =≃≃≃≃
2
(2)
1
1 1035.7512.95
80
k
i i
i
x x nn =
= = =∑
2 83x .=
Disuguaglianza di Chebyshev
( )2
21
sfr X x ε
ε− < ≥ −
( )2
21
sfr x X xε ε
ε− < < + ≥ −
x ε−
x
x ε+
La frequenza con la quale una variabile statistica X assume
valori in un intorno della media di semi- ampiezza ε è
almeno pari a 1-s2/ ε2.
0ε >
Esempio 4.4 – Disuguaglianza di Cebyshev
Tabella 4.6 – Tempo impiegato dagli operatori di un call center.
1.32 1.65 1.67 1.73 1.78 2.08 2.16 2.19 2.21 2.34 2.42 2.63
2.64 2.74 2.82 2.95 2.97 2.98 3.06 3.09 3.11 3.16 3.25 3.28
3.32 3.34 3.36 3.39 3.42 3.42 3.45 3.47 3.49 3.62 3.63 3.76
3.77 3.90 3.96 4.06 4.11 4.19 4.20 4.21 4.28 4.32 4.46 4.54
4.56 4.56 4.61 4.63 4.70 4.74 4.77 4.77 4.92 5.12 5.24 5.51
3 5x .=
( )
( )
1.5 5.5
1.022 1 0.745
4
fr X
fr X x
< <
= − < ≥ − =
2 1 02s .=
Varianza
di trasformazioni lineari
Sia 2
Xs la varianza di una variabile X, la varianza di una
trasformazione lineare Y aX b= + è data da
2 2 2 2
Y aX b Xs s a s+
= =
� La varianza è indipendente dalla posizione
� La varianza cambia quando varia la scala
Varianza
di trasformazioni lineari
( )
( )
( )
( )
2
22
1
2
1
2
1
22 2 2
1
1
1
1
1.
X
k
Y i i
i
k
i i
i
k
i i
i
k
i i X
i
s
s y y nn
ax b ax b nn
ax ax nn
a x x n a sn
=
=
=
=
=
= −
= + − +
= −
= − =
∑
∑
∑
∑����������������������������
Sia X una variabile statistica
• che assume valori positivi, X>0,
• con media x
• scarto quadratico medio σ ,
il coefficiente di variazione è dato da
Coefficiente di variazione
CVx
σ=
Il coefficiente di variazione non dipende dall’unità di
misura
CV(X) = CV(aX), per a >0
Esempio – coefficiente di variazione
Tabella 4.6 – Tempo impiegato dagli operatori di un call center.
1.32 1.65 1.67 1.73 1.78 2.08 2.16 2.19 2.21 2.34 2.42 2.63
2.64 2.74 2.82 2.95 2.97 2.98 3.06 3.09 3.11 3.16 3.25 3.28
3.32 3.34 3.36 3.39 3.42 3.42 3.45 3.47 3.49 3.62 3.63 3.76
3.77 3.90 3.96 4.06 4.11 4.19 4.20 4.21 4.28 4.32 4.46 4.54
4.56 4.56 4.61 4.63 4.70 4.74 4.77 4.77 4.92 5.12 5.24 5.51
1 020 29
3 5
.CV .
.= =
3 5x .=
2 1 02s .=
MAD
Median Absolute Deviation
{ }1.483 iMAD mediana x med= −
o X: x1, x2, … , xn
o med = mediana(X)
o Se la distribuzione è “normale” il MAD
approssima lo scarto quadratico medio
o Non risente dei valori anomali
Esempio - MAD
ix ix med−
58 14
64 8
68 4
70 2
71 1
71 1
72 0
74 2
76 4
78 6
87 15
103 31
121 49
{ } 4imed x med− =
1 483 4 5 932MAD . .= × =
Consumi pro-capite annui di cereali
med=72
16 335.σ =
ix med−
0
1
1
2
2
4
4
6
⋮
Scarti
ordinati
( ) 7prof med =
mediana
I quartili
4
1 1Q x
=
4
3 3Q x
=2Q med=
I quartili dividono i dati in quattro parti di eguale
numerosità.
E1 Q1 med Q3 E2
1/4 1/4 1/4 1/4
Profondità del quartile
( )( )
1
prof med +1prof Q =
2
o Ottili
o Sedicili
o etc.
Esempio – quartili
consumi di carne
( ) 8.5prof med =
( )[ ]
1
8.5 14.5
2prof Q
+= =
n=16
Med=87
Carne
( 55, 61, 62, 66, 68, 75, 85, 86, 88, 91, 97, 107, 152, 231, 299, 329 )
1
3
67
1
66
29 5
68
2
107 152
2
Q
Q .
+= =
+= =
M 87
Q 67 129.5
E 55 329
Sintesi
Differenza interquartile
3 1DQ Q Q= −
� x(1), x(2), … , x(n)
�Quartili Q1 e Q3
Misura la variabilità della metà centrale dei dati.
Campo di variazione
( ) ( )1nx x−
Esempio – Differenza interquartile e campo di
variazione
( ) ( )1329 55 274
nx x− = − =
3 1 129 5 67 62 5QD Q Q . .= − = − =
Carne
( 55, 61, 62, 66, 68, 75, 85, 86, 88, 91, 97, 107, 152, 231, 299, 329)
M 87
Q 67 129.5
E 55 329
Sintesi
83.91σ =