Download - Variabilità - Lezione 3
1
Variabilità
..senza variabilità non ci sarebbe la statistica…
Se tutti votassimo lo stesso partito alle elezioni (=moda), non ci sarebbero i sondaggi, nè le previsioni elettorali…il voto politico sarebbe una unica modalità…
Se tutte le persone fossero alte uguali (=media) non esisterebbe la variabile altezza, perché non la misureremmo…
La statistica si basa sulla diversità, studia l’attitudine a variare dei fenomeni
2
MUTABILITA’LA VARIABILITA’ DEI FENOMENI
QUALITATIVIPer misurarla si usano gli indici di eterogeneità
•Sono indici che si basano sulla frequenze relative fi o percentuali pi
•Non sono vincolati da un particolare ordinamento delle modalità
•Quindi possono essere calcolati per qualsiasi tipo di fenomeno
MUTABILITA’LA VARIABILITA’ DEI FENOMENI QUALITATIVI
Proprietà degli indici di eterogeneità
•Sono sempre positivi
•Sono massimi quando ad ogni modalità assunta dal fenomeno corrisponde la stessa frequenza, cioè fi=1/k per ogni i
•Sono minimi quando il fenomeno assume una sola modalità, cioèuna fi è uguale a 1 e tutte le altre (k-1) sono uguali a 0
3
MUTABILITA’LA VARIABILITA’ DEI FENOMENI QUALITATIVI
Indice di eterogeneità di Gini
21
11
k
ii
E f=
= −∑Assume valori compresi tra 0 e (k-1)/k (massimo)
Per normalizzarlo in modo che vari tra 0 e 1 bisogna dividerlo per il suo massimo:
*1 1 1
kE Ek
=−
ESEMPIO: CORSO DI LAUREA
2 2 2 2 21
11 1 (0.1869 0.3424 0.2538 0.2169 ) 1 0.2636633 0.7363
k
ii
E p=
= − = − + + + = − =∑
*1 1
40.7363 0.98181 3
kE Ek
= = ⋅ =−
K = n° delle modalità = 4
xi ni fi fi2
SAM 137 0.1869 0.0349SPO 251 0.3424 0.1173ORU 186 0.2538 0.0644IES 159 0.2169 0.0471
733 1.0000 0.2636
Indice di eterogeneità di GiniE1 0.7364 k= 4E1* 0.9818
INDICE NORMALIZZATO PROSSIMO A 1: C'è quasi massima eterogeneità
4
ESEMPIO: MEDIA VOTIDati
MEDIA VOTI ni pi Ni Pi fi218 11 1.50% 11 1.50% 0.00022520519 11 1.50% 22 3.00% 0.00022520520 18 2.46% 40 5.46% 0.00060302721 29 3.96% 69 9.41% 0.00156526622 47 6.41% 116 15.83% 0.00411138123 75 10.23% 191 26.06% 0.01046922624 105 14.32% 296 40.38% 0.02051968325 84 11.46% 380 51.84% 0.01313259726 105 14.32% 485 66.17% 0.02051968327 85 11.60% 570 77.76% 0.01344713928 94 12.82% 664 90.59% 0.01644552629 49 6.68% 713 97.27% 0.00446873130 20 2.73% 733 100.00% 0.000744478Totale complessivo 733 100.00% 0.106477147
Indice di eterogeneità di GiniE1 0.8935 k= 12E1* 0.9748
INDICE NORMALIZZATO PROSSIMO A 1: C'è quasi massima eterogeneità
ESEMPIO: RENDIMENTOrendim ni fi pi Ni Fi Pi fi 2
sufficiente 40 0.054570259 5.47% 40 0.054570259 5.47% 0.00299423discreto 151 0.206002729 20.52% 191 0.260572988 25.99% 0.042106366buono 294 0.401091405 40.08% 485 0.661664393 66.07% 0.160657308ottimo 248 0.338335607 33.93% 733 1 100.00% 0.11509822
733 1 100.00% 0.320856125
Indice di eterogeneità di GiniE1 0.6791 k= 4E1* 0.9055
INDICE NORMALIZZATO PROSSIMO A 1: C'è una buona eterogeneità
xi ni fi pi fi2
M 350 0.47749 47.74898 0.227996F 383 0.52251 52.25102 0.273017
733 1 0.501013
Indice di eterogeneità di GiniE1 0.498987 k= 2E1* 0.997973
INDICE NORMALIZZATO PROSSIMO A 1: C'è massima eterogeneità
ESEMPIO: SESSO
5
ESEMPIO: CREDITI (raggruppata in classi)crediti ni fI pi Ni Fi Pi fi20-|20 207 0.282401 28.24% 207 0.282401 28.24% 0.07975
20-|40 183 0.249659 24.97% 390 0.53206 53.21% 0.0623340-|60 84 0.114598 11.46% 474 0.646658 64.67% 0.01313360-|80 83 0.113233 11.32% 557 0.759891 75.99% 0.01282280-|100 64 0.087312 8.73% 621 0.847203 84.72% 0.007623
100-|120 42 0.057299 5.73% 663 0.904502 90.45% 0.003283120-|140 29 0.039563 3.96% 692 0.944065 94.41% 0.001565140-|160 24 0.032742 3.27% 716 0.976808 97.68% 0.001072160-|180 17 0.023192 2.32% 733 1 100.00% 0.000538
733 1 100.00% 0.182116
Indice di eterogeneità di GiniE1 0.8179 k= 9E1* 0.9201
INDICE NORMALIZZATO PROSSIMO A 1: C'è una buona eterogeneità
ESEMPIO: Eterogeneità del RENDIMENTO nei CORSI DI LAUREACORSO LAUREA SPO CORSO LAUREA ORU
Conteggio di ID Conteggio di IDRENDIMENTO Totale pi fi2 RENDIMENTO Totale pi fi2buono 73 29.08% 0.084585959 buono 79 42.47% 0.180397discreto 29 11.55% 0.013348994 discreto 52 27.96% 0.078159ottimo 147 58.57% 0.342994556 ottimo 42 22.58% 0.050989sufficiente 2 0.80% 6.34911E-05 sufficiente 13 6.99% 0.004885Totale complessivo 251 100.00% 0.440993 Totale complessivo 186 100.00% 0.314429
Indice di eterogeneità di Gini Indice di eterogeneità di GiniE1 0.559 k= 4 E1 0.6856 k= 4E1* 0.7453 E1* 0.9141
CORSO LAUREA SAM CORSO LAUREA IES
Conteggio di ID Conteggio di IDRENDIMENTO Totale pi fi2 RENDIMENTO Totale pi fi2buono 64 46.72% 0.218232191 buono 78 49.06% 0.240655discreto 34 24.82% 0.061590921 discreto 36 22.64% 0.051264ottimo 30 21.90% 0.047951409 ottimo 29 18.24% 0.033266sufficiente 9 6.57% 0.004315627 sufficiente 16 10.06% 0.010126Totale complessivo 137 100.00% 0.332090149 Totale complessivo 159 100.00% 0.335311
Indice di eterogeneità di Gini Indice di eterogeneità di GiniE1 0.6679 k= 4 E1 0.6647 k= 4E1* 0.8905 E1* 0.8863
NOTA: Il corso di laurea più omogeneo è SPO, quello più eterogeneo è ORU
6
VARIABILITA’LA VARIABILITA’ DEI FENOMENI QUANTITATIVI
Per misurarla si usano
•gli indici di variabilità globale si basano sulle differenze tra i valori delle modalità
•gli indici di dispersionesi basano sulle differenze tra i valori delle modalità e un prefissato indice di posizione
Entrambi possono essere calcolati solo per fenomeni quantitativi
Proprietà degli indici di variabilità e di dispersione
•Sono sempre positivi
•Sono uguali a zero quando tutte le unità osservate assumono la stessa modalità, la variabile statistica in tal caso si dice degenere
•Sono invarianti per traslazione, cioè se ad ogni xi viene aggiunta una quantità c costante, la variabilità di X non cambia
NOTA: per gli indici di variabilità e dispersione non è affatto immediata la determinazione del loro valore massimo, tralasceremo il calcolo dei valori normalizzati degli indici
VARIABILITA’LA VARIABILITA’ DEI FENOMENI QUANTITATIVI
7
VARIABILITA’LA VARIABILITA’ DEI FENOMENI QUANTITATIVI
SALARIO
1 14002 16103 16304 17005 17106 17507 18008 2000
Maschi
1 16502 16703 16804 16905 17006 17207 17408 1750
Femmine
La media per i maschi e per le femmine coincide = 1700
VARIABILITA’LA VARIABILITA’ DEI FENOMENI QUANTITATIVI
1700
1700
1650 1750
1400 2000
8
Indici di variabilità globale
VARIABILITA’LA VARIABILITA’ DEI FENOMENI
QUANTITATIVI
Differenza Interquartile D.I. = Q3-Q1
Campo di Variazione K= xmax-xmin
VARIABILITA’LA VARIABILITA’ DEI FENOMENI QUANTITATIVI
xi ni pi Pi1400 1 12.50% 12.50%1610 1 12.50% 25.00%1630 1 12.50% 37.50%1700 1 12.50% 50.00%1710 1 12.50% 62.50%1750 1 12.50% 75.00%1800 1 12.50% 87.50%2000 1 12.50% 100.00%
Min=1400; Max=2000Q1=1610; Q3=1750
D.I=140; k=600
xi ni pi Pi1650 1 12.50% 12.50%1670 1 12.50% 25.00%1680 1 12.50% 37.50%1690 1 12.50% 50.00%1700 1 12.50% 62.50%1720 1 12.50% 75.00%1740 1 12.50% 87.50%1750 1 12.50% 100.00%
Min=1650; Max=1750Q1=1670; Q3=1720
D.I=50; k=100
Salario Maschi Salario Femmine
Nel secondo caso i valori sono molto meno dispersi, stanno vicini tra loro e nell’intorno della media (la media 1700 è molto più rappresentativa, )
9
BOX - PLOT
SALARIO
10
MEDIA VOTI
CREDITI
11
CREDITI
Q-Q PLOT
•Q-Q plot sta per Quantile – Quantile Plot
•E’ un grafico che ha in ascissa e in ordinata i quantili di due distribuzioni.
•Se le distribuzioni sono le stesse, i quantili saranno piu o meno gli stessi ed i punti del diagramma saranno piu o meno sulla retta a 45 gradi
•Tramite il Q-Q Plot è possibile testare se due distribuzioni differiscono sia in termini di posizione, sia in termini di variabilità, si in termini di forma
12
Q-Q PLOT
Indici di dispersione: Varianza
VARIABILITA’
LA VARIABILITA’ DEI FENOMENI QUANTITATIVI
Si basa sulla differenze tra i valori delle modalità e la loro media.
Si considerano gli scostamenti al quadrato per evitare compensazioni tra distanze positive e negative.
NB: si ricordano la terza e la quarta proprietà della media
xix
ix x−
13
VARIAZA SEMPLICE
Se si considera una tabella di rilevazione, la varianza aritmetica èdata dalla seguente formula
( ) ( )2 2
2 2
1 1
1 1n n
i ii i
x x x xn n
σ= =
= − = −∑ ∑
( ) 24; ( ) 29M Voti M Crediti= =
FORMULA OPERATIVA
22906( ) 24 5, 25
V Voti = − =
ID VOTI CREDITI VOTI2 CREDITI21 22 6 484 362 24 71 576 50413 21 19 441 3614 26 27 676 7295 27 22 729 484
2906 6651 26651( ) 29 489, 25
V Crediti = − =
VARIANZA PONDERATA
Se si considera una tabella di frequenza, la varianza è data dalla seguente formula
( ) ( )2 2
2 2
1 1
1 1k k
i i i ii i
x x n x n xn n
σ= =
= − = −∑ ∑
FORMULA OPERATIVA
( ) 24,5M Voti =
( ) 94M Crediti =
VOTI ni VOTI2 VOTI2ni19 10 361 361021 20 441 882024 50 576 2880025 80 625 5000026 20 676 1352027 10 729 729030 10 900 9000
200 121040
2121040( ) 24,5 4,95200
V Voti = − =
crediti xi ni xi2 xi2ni20-|60 40 20 1600 32000
60-|100 80 105 6400 672000100-|140 120 60 14400 864000140-|180 160 15 25600 384000
totale 200 1952000
21952000( ) 94 924200
V Crediti = − =
14
VARIANZA: problemi
Elevando al quadrato si perde l’unità di misura del fenomenoEx. Se si si considera la variabile peso, la varianzarisulta espressa in kg2
SCARTO QUADRATICO MEDIO
2σ σ=
E’ un indice assoluto, cioè risente dell’unità di misura del fenomeno, e ciò impedisce di fare confronti di variabilitàEx. Le distanze, e quindi la loro somma, per il fatturato nel settore Automobilistico sono sicuramente più grandi di quelle nel settore Abbigliamento, ciò non implica che ci sia maggiore variabilità
COEFFICIENTE DI VARIAZIONE
Indice relativo
CVxσ
=
ESEMPIO: MEDIA VOTIDati
MEDIA VOTI ni pi Ni Fi xi2 xi2ni18 11 1.50% 11 1.50% 324 356419 11 1.50% 22 3.00% 361 397120 18 2.46% 40 5.46% 400 720021 29 3.96% 69 9.41% 441 1278922 47 6.41% 116 15.83% 484 2274823 75 10.23% 191 26.06% 529 3967524 105 14.32% 296 40.38% 576 6048025 84 11.46% 380 51.84% 625 5250026 105 14.32% 485 66.17% 676 7098027 85 11.60% 570 77.76% 729 6196528 94 12.82% 664 90.59% 784 7369629 49 6.68% 713 97.27% 841 4120930 20 2.73% 733 100.00% 900 18000Totale complessivo 733 100.00% 468777
Media 25.1473
Varianzaσ2 7.14337 7.14337σ 2.67271CV 0.10628
varianza cacolata con la formula operativa
varianza calcolata con la funzione VAR.POP()
15
ESEMPIO: CREDITIcrediti ni fI pi Ni Fi Pi xi xi2 xi2ni0-|20 207 0.282401 28.24% 207 0.282401 28.24% 10 100 20700
20-|40 183 0.249659 24.97% 390 0.53206 53.21% 30 900 16470040-|60 84 0.114598 11.46% 474 0.646658 64.67% 50 2500 21000060-|80 83 0.113233 11.32% 557 0.759891 75.99% 70 4900 40670080-|100 64 0.087312 8.73% 621 0.847203 84.72% 90 8100 518400
100-|120 42 0.057299 5.73% 663 0.904502 90.45% 110 12100 508200120-|140 29 0.039563 3.96% 692 0.944065 94.41% 130 16900 490100140-|160 24 0.032742 3.27% 716 0.976808 97.68% 150 22500 540000160-|180 17 0.023192 2.32% 733 1 100.00% 170 28900 491300
733 1 100.00% 3350100
Media 52.128Varianzaσ2 1793.256 1793.256 1853.067σ 42.34685CV 0.816934
varianza calcolata con la funzione VAR.POP()
varianza cacolata con la formula operativa sulla tabella di frequenza non raggruppata
varianza calcolata con la formula operativa sulla tabella raggruppata in calssi
ESEMPIO: CREDITI NEI CORSI DI LAUREA
CORSO LAUREA CREDITI sqm(i) CREDITI Media (i)VOTI sqm(i) VOTI media (i) CV (crediti) CV (voti)IES 46.23911861 64.57232704 2.605823639 24.33962264 0.71608258 0.107061ORU 42.62440899 52.34946237 2.575695298 24.44623656 0.81422821 0.105362SAM 44.50154193 50.75912409 2.627798053 24.45985401 0.87672005 0.107433SPO 36.02140776 44.00398406 2.204688868 26.55378486 0.81859424 0.083027
SPO tra i 4 corsi di laurea è quello che presenta minore variabilità nei voti, ciò conferma il risultato ottenuto con l’indice di Gini per i rendimenti (che di fatto è una variabile qualitativa ottenuta dalla variabile voti. Il corso di laurea con minore variabilità per quanto riguarda i crediti è invece IES
16
VARIANZA: PROPRIETA’1. La varianza di una costante è uguale a 0, cioè
2. E’ invariante per translazione, cioè se ad ogni xi viene aggiunta una quantità a costante, la varianza non cambia, cioè
3. Se ogni xi viene moltiplicata per una quantità b costante, la varianza risulta moltiplicata per la costante b al quadrato, cioè
IN SINTESI (varianza di una trasformazione lineare)
2( ) xV X a σ+ =
2 2( ) xV a bX b σ+ =
( ) 0V a =
2( ) ( )V bX b V X=
VARIANZA: TEOREMI
Teorema 1
La varianza di un miscuglio di k gruppi (o sottopopolazioni), per ciascuno dei quali è già noto il valore della varianza , è
pari alla somma di due varianza, vale a dire
2 2
1
2 21
1
1 ( )i
k
W i ii
ni ij ij
i
nn
x xn
σ σ
σ
=
=
=
= −
∑
∑VARIANZA NEI GRUPPI ( ) Media ponderata delle varianze dei gruppi
Within VARIANZA FRA GRUPPI ( ) Varianza ponderata delle medie dei gruppi
Between
2 2 2 W Bσ σ σ= +
( )2
2
1
1 k
B i ii
x x nn
σ=
= −∑
17
VARIANZA: TEOREMI
Teorema 2
La varianza della somma (o della differenza) di due variabili è uguale alla somma delle varianze delle singole variabili solo se queste sono indipendenti
Se ( ) ( ) ( ) ( ) se e sono indipendenti
altrimenti( ) ( ) ( ) ( ) 2 ( , )
Z X YV Z V X Y V X V Y X Y
V Z V X Y V X V Y COV X Y
= += + = +
= + = + +
ESEMPIO: TEOREMA 1MEDIA VOTI
DatiCORSO LAUREA media( i ) varianza( i ) ni xini xi2 xi2niIES 24.33962264 6.790316839 159 1079.660377 592.4172303 94194.33962ORU 24.44623656 6.634206267 186 1233.962366 597.6184819 111157.0376SAM 24.45985401 6.905322606 137 946.0291971 598.2844584 81964.9708SPO 26.55378486 4.860653006 251 1220.023904 705.1034904 176980.9761Totale complessivo 25.1473397 7.143366047 733 4479.675844 464297.3242
varianza within 6.1114268varianza between 1.031939247varianza totale 7.143366047
tabella Pivot con campi: MEDIA, VAR.POP e CONTEGGIO
Teorema 1: La varianza di un miscuglio di k gruppi (o sottopopolazioni), per ciascuno dei quali è giuà noto il valore della varianza , è pari alla somma di varianza between e varianza within
18
ESERCIZIO RIEPILOGATIVO
ESERCIZIO RIEPILOGATIVO