![Page 1: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/1.jpg)
LA SINTESI STATISTICA
Una serie di dati numerici è compiutamente descritta da tre
proprietà principali:
• La tendenza centrale o posizione
• La dispersione o variabilità
• La forma
![Page 2: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/2.jpg)
GLI INDICI DI TENDENZA CENTRALE
• Le misure di tendenza centrale servono per individuare il
valore intorno al quale i dati sono raggruppati;
• la tendenza centrale è la misura più appropriata per
sintetizzare l’insieme delle osservazioni raccolte in una
distribuzione di dati descritta con un con un solo valore;
• è la prima informazione sulla della dimensione del
fenomeno.
![Page 3: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/3.jpg)
Sintesi dei datiIndici di tendenza centrale
• Medie analitiche
L’ applicazione è ammessa solo per le misure quantitative
che consentono operazioni di calcolo su tutti i dati originali
in modo da poter rappresentare algebricamente l’insieme
• Indici di posizione
Forniscono l’unica sintesi possibile per classificazioni
ordinali e qualitative
![Page 4: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/4.jpg)
MEDIA ARITMETICA SEMPLICE
• Il valore che ogni dato dovrebbe assumere se tutti i dati del campione avessero lo stesso valore
• Il valore che meglio di ogni altro indica il valore teorico che avrebbe dovuto aversi in assenza di perturbazioni accidentali
• misura della tendenza centrale: la maggior parte dei dati si concentra su tale valore
N
xxxxx n
.....321_
N
xx i_
![Page 5: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/5.jpg)
PROPRIETÀ DELLA MEDIA ARITMETICA
• La somma algebrica degli scarti dalla media è uguale a zero Σ(xi - x)=0 ; se la media rispetta il requisito di essere il valore centrale, deve minimizzare gli scarti; quelli positivi vengono bilanciati da quelli
negativi.
(2-4)+(4-4)+(6-4)= -2+2 =0
• La media è interna al range, ossia, è sempre compresa fra l’osservazione più bassa e quella più alta
• Date più medie e le singole numerosità dei casi con cui sono state calcolate, la media generale può essere calcolata come media ponderata delle medie
i
ii
n
xnx
__
![Page 6: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/6.jpg)
MEDIA ARTMETICA PONDERATA
• Nella media ponderata i valori della distribuzione sono considerati per il numero delle volte che si presentano.
• In questa media i termini entrano più volte nel calcolo, in rapporto alla loro importanza (peso)
ii
i
ii xNN
xxx
i i ff
f
f
![Page 7: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/7.jpg)
Il valore della media si sposta verso il valore più frequente
Se il numero di osservazioni che corrisponde ad un singolo valore è molto elevato, la media tende a spostarsi versi tale valore che acquista un peso maggiore nei confronti degli altri termini della distribuzione
• Se a ciascuno dei tre valori corrispondono 10 osservazioni:
• Se il numero delle osservazioni corrispondete al primo termine fosse 5 e quello corrispondente all’ultimo termine fosse 15:
• Se al primo termine corrispondessero 15 osservazioni e 5 al terzo:
66,430
140
30
904010
30
)156()104()52(
430
120
30
604020
30
)106()104()102(
33,330
100
30
304030
30
)56()104()152(
![Page 8: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/8.jpg)
Media ponderata in una distribuzione in classi
• Si ricorre al calcolo delle media ponderata quando i valori della distribuzione sono raggruppati in classi. In tali casi si moltiplica il numero di osservazioni corrispondente a ciascuna classe per il valore centrale della classe ottenuto mediante la media aritmetica dei valori estremi della classe stessa
Classi f. xc
146-155 10 150 156-165 20 160 166-175 30 170 176-185 20 180 186-195 10 190
7090
300.151900360051003200150090
)10190()20180()30170()20160()10150(
![Page 9: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/9.jpg)
Limitazioni di impiego della media aritmetica
• Dati non quantitativi
• Differenti ordini di grandezza delle misure 0.8 7 58 124
• Presenza di valori estremi molto scostati
28 34 22.5 299
• Presenza di valori estremi indeterminati o infiniti 9 6 4 7 >100
• Distribuzioni di frequenza con classe aperte il valore centrale delle classi aperte non si può calcolare
Es: Fino a 500 oltre un milione
![Page 10: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/10.jpg)
Medie o indici di posizioneModa
• Nel caso di dati espressi su scala nominale l’unico criterio per sintetizzare la tendenza centrale consiste nell’individuare il gruppo o il dato che compare maggiormente
• Si chiama moda di una distribuzione di frequenze il dato che corrisponde alla massima frequenza
• Es: Distribuzione di 150 famiglie secondo il numero di figli
n.°figli f. 0 20 1 60 2 40 3 18 più di 3 12
• La moda è 1 a cui corrisponde la massima frequenza 60
![Page 11: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/11.jpg)
Moda per caratteri qualitativi
La moda si può
calcolare anche per
caratteri qualitativi
come nella distribuzione
delle “risposte” ad una
terapia in 450 pazienti
Risposta f. guarigione 144 miglioramento 160 stazionarietà 86 peggioramento 50 morte 10 N = 450
La moda è la risposta miglioramento
![Page 12: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/12.jpg)
Moda per distribuzioni in classi
• La moda è molto influenzata dal numero e dall’ampiezza delle classi
• Se le classi hanno uguale ampiezza si può valutare la classe modale nella classe a maggior frequenza
• Nel caso di classi con ampiezza diversa si dovrà considerare la densità di frequenza delle classi e non la frequenza assoluta
Moda = L1+
- L1 e c sono il confine inferiore e l’ampiezza della classe modale;
- Δ1 e Δ2 sono le differenze, rispettivamente, tra la frequenza della classe modale e la precedente (Δ1) e la successiva (Δ2)
c
21
1
![Page 13: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/13.jpg)
Esempio di calcolo della classe modale in una distribuzione in classi (ampiezze diverse) densità di frequenza e moda
Strutture di degenzaclassificate in base al numero di posti letto
ampiezza di densità di
Numero posti letto f classe frequenza
26-50 moda corretta 251 25 10.04
51-100 moda apparente 368 50 7.36
101-150 288 50 5.76
151-200 159 50 3.18
201-300 304 100 3.04
301-500 173 200 0.87
501-800 99 300 0.33
La classe modale corretta è “26-50” 251/25 = 10.04
![Page 14: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/14.jpg)
Caratteristiche della moda
• La moda si utilizza nel caso di misure qualitative e quando
la distribuzione presenta una singola frequenza molto più
elevata rispetto alle altre
• Una distribuzione può non avere una moda (se numericamentemodeste) o (con numerose osservazioni) due o più mode
(bimodali o plurimodali)
a) 3, 7,12, 18 b) 5, 6, 6, 6, 8, 9, 9, 9,16
![Page 15: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/15.jpg)
Mediana
• In una distribuzione si definisce mediana o valore mediano quel valore che assume la variabile tale per cui si hanno uguali possibilità di trovare valori inferiori o superiori ad essa
• In una serie di valori ordinati secondo grandezza, si definisce mediana il valore che separa le osservazioni in due parti numericamente uguali, il
50% con valori inferiori e il 50% superiori
![Page 16: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/16.jpg)
Mediana
• Caratteristica importante della mediana è di non risentire dei valori di testa e di coda di una serie ordinata. Pertanto è preferibile alla media, quando per il fenomeno osservato o per un numero modesto di osservazioni, in una distribuzione si riscontrano valori estremi particolarmente bassi o, soprattutto, elevati.
Es : 20,20,30,30,100 x = 40
quattro valori sono inferiori alla media !
![Page 17: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/17.jpg)
Calcolo della mediana
1. Ordinamento dei dati in modo crescente
2. Calcolo della posizione della mediana
3. Identificazione del valore corrispondente a quella posizione
In una serie di misure singole eordinate la mediana corrispondeal valore in posizione
Se il numero di osservazioni è dispari tale posizione coincidecon il dato centrale, il cui valorerappresenta la mediana.
Se il numero è pari si colloca tra le due posizioni centrali
e la successiva
2
1N
2
N
12
N
![Page 18: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/18.jpg)
Esempio di calcolo della medianaPer calcolare la mediana dei valori 9 6 15 5 1 7 3 1 12
A)Ordinamento dei dati posizione 1 2 3 4 5 6 7 8 9 misura 1 1 3 5 6 7 9 12 15
B)Calcolo della posizione mediana la posizione mediana è la quinta 9 + 1 / 2 = 5
Se le osservazioni fossero state solo le prime 8 (ordinate)la mediana sarebbe caduta tra la quarta e la quinta osservazione 8 + 1 / 2 = 4.5
C)Identificazione valore della medianacon 9 misure, il valore coincide con la 5° posizione : 6Con 8 alla posizione 4.5 corrisponde la media dei due valori centrali 5 + 6 / 2 = 5.5
![Page 19: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/19.jpg)
Proprietà della mediana
• La mediana non cambia o cambia di poco (è “robusta”) in presenza di alcuni dati molto estremi (ad es. con alcuni valori molto alti rispetto agli altri)
173 155 162 165 167 175 171 169 164 178 156 158 166
media =166. 1
• Se nel campione i due soggetti più alti diventanosono ancora più alti:
155 156 158 162 164 165 166 167 169 171 173 189 210 1 2 3 4 5 6 7 8 9 10 11 12 13
mediana = 166
La mediana non cambia perché l’ordinamento delle prime n osservazioni non cambia (invece la media cambia perché l’ammontare totale cambia)
![Page 20: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/20.jpg)
Mediana di distribuzioni in classi
• Nel caso di distribuzioni in classi i dati sono già ordinati e si procede all’identificazione della classe mediana, in cui cade l’osservazione mediana avvalendosi delle frequenze cumulate della distribuzione
• Se la distribuzione è in classi,identificata la classe mediana, si calcola il valore mediano fra quelli compresi nell’intervallo di classe
![Page 21: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/21.jpg)
Calcolo della mediana di distribuzioni in classi
Mediana =
Dove:
L1 e c sono il confine inferiore e l’ampiezza della classe mediana;
È la posizione della mediana
fcum rappresenta la frequenza cumulata delle classi che precedono la classe mediana;
fmed è la frequenza della classe mediana
cf
fN
Lmed
cum
21
2
N
![Page 22: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/22.jpg)
Esempio di calcolo di mediana in classi
Classe(cm) fa fcum
150-154 2 2155-159 6 8160-164 11 19165-169 18 37170-174 25 62 175-179 13 75180-184 7 82 Σ 82
Mediana:
Posizione = (classe 170-174)
Valore =
412
82
2
N
8.170525
3741170
21
cf
fN
Lmed
cum
![Page 23: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/23.jpg)
Esempio di calcolo di mediana in classi
Classe(cm) fa fcum
150-154 2 2155-159 6 8160-164 11 19165-169 18 37170-174 25 62 175-179 13 75180-184 7 82 Σ 82
Moda:Classe modale = 170-174
Valore =
5.1715)1325()1825(
1825170
c
21
1
![Page 24: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/24.jpg)
Valore centraleIn una serie
ordinata
Esemplificazione
Quali sono le principali misure di posizione nella seguente serie numerica?
xi 3 15 11 4 5 8 6 4 4
Serie ordinata (x(i)) 3 4 4 4 5 6 8 11 15
Moda, valore
più frequente
Media
(Σi xi / n)
=60/9=6.67
![Page 25: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/25.jpg)
Utilizzo misure di posizione
Media Mediana ModaLa misura di posizione più usata la misura migliore con la misura migliore distribuzioni asimmetriche quando un valore ha una frequenza relativa elevataFacile da trattare matematicamente
Utilizza tutta l’informazionedisponibile sulle unitàstatistiche (Σx/n)
È facile calcolare un valoreponderatoX = (x1+n1+x2n2)(n1+n2)
Proprietà dell’equilibriodelle distanzeΣi(x i - x)=0 Proprietà del minimo delle distanze: Σ│x- me│=minProprietà del minimo degli scarti quadratici: Σi(x i – x )2=min
![Page 26: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/26.jpg)
Indici di tendenza centrale utilizzazione in relazione alla scala di misura dei dati
Scala di misura indici di tendenza centrale utilizzabili
Nominale Moda
Ordinale Moda, Mediana
Intervallare Moda, Mediana,media aritmetica
![Page 27: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/27.jpg)
Estensione della mediana:Quantili
• La mediana separa la distribuzione in due parti, ognuna comprendente il 50% delle osservazioni
• I quantili separano la distribuzione ad altre frazioni percentuali, ad esempio:
– Il 10 quartile (Q1) separa il primo 25% dal restante 75%
– Il 30 quartile (Q3) separa il primo 75% dal restante 25%
– Il 10 decile separa il primo 10% dal restante 90%
– Il 95°percentile è tale che solo il 5% ha un valore superiore a esso
![Page 28: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/28.jpg)
Quantili
• Sono indicatori di posizione che come la mediana suddividono in modo preordinato una serie di dati, in particolare per serie numerose organizzate in distribuzioni di frequenza
• I più utilizzati sono i quartili (Qi), i decili (Di), i centili o percentili (Pi) che suddividono una serie ordinata di dati in quattro, dieci e cento parti uguali
• Il primo quartile Q1 separa il 25% delle osservazioni con valore più basso, il secondo corrisponde alla mediana e il Q3 lascia a sinistra i tre quarti delle osservazioni
![Page 29: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/29.jpg)
Formula per il calcolo dei percentili
• La posizione i di un dato percentile (p indice del percentile e n la numerosità)
• Data una distribuzione di 19 valori ordinati, la posizione del 20-esimo percentile sarà
• Q20 assumerà il valore del quarto dato della distribuzione
pn
i
100
1
420100
119
i
![Page 30: LA SINTESI STATISTICA Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione](https://reader035.vdocuments.site/reader035/viewer/2022062701/5542eb6a497959361e8d602c/html5/thumbnails/30.jpg)
Esempio
Data la seguente distribuzione
1 3 4 5 8 10 12 13 15 (n=9)
Calcolare l’80-esimo percentile
13880
100
1080
100
1980
XXXQ