lezione a.7 ancora sulle modalità centrali tquars – a.a. 2010/11 tecniche quantitative per...

26
LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli

Upload: mario-di-giovanni

Post on 01-May-2015

214 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

LEZIONE A.7

Ancora sulle modalità centrali

TQuArs – a.a. 2010/11Tecniche quantitative per l’analisi nella ricerca sociale

Giuseppe A. Micheli

Page 2: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

In questa lezione..

In questa lezione faremo conoscenza con un’ultima famiglia di misure centrali di una distribuzione:

La mediana

I quartili, i percentili e in generale i ‘quantili’

Si tratta di misure che si applicano a variabili (almeno) ordinabili, e che si basano sulle frequenze cumulate o retrocumulate.

Di queste misure vedremo la logica e le procedure di calcolo.

Mentre la mediana è una misura di posizione centrale, quartili e percentili ci introducono alla descrizione della variabilità.

Page 3: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

La mediana

La mediana Me(X) è la modalità che occupa il posto centrale La mediana Me(X) è la modalità che occupa il posto centrale nella sequenza ordinata dei dati.nella sequenza ordinata dei dati.

Si dimostra che se la funzione di perdita è

allora: DN

xk

N

k 1

1

min per = Me(X)

L xk k

Ricordiamo che la media aritmetica rende minima una misura quadratica del “danno” prodotto dagli errori che si compiono sostituendo la media stessa alle effettive osservazioni.

Pensavamo che questa piacevole proprietà dipendesse dal fatto che M(X) è una media ‘analitica’, cioè coinvolge nel conto tulle le modalità e numerosità della v.s.

Ora troviamo che anche la Mediana possiede una proprietà simile. Eppure essa è solo una media ‘lasca’. Basta vedere come si calcola..

Page 4: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

Calcolo della mediana per serie ordinate

La mediana è la modalità osservata nell’unità di analisi che si La mediana è la modalità osservata nell’unità di analisi che si colloca al centro nella serie statistica in ordine crescente. Essa colloca al centro nella serie statistica in ordine crescente. Essa lascia metà popolazione a sinistra e metà a destra nella se-lascia metà popolazione a sinistra e metà a destra nella se-quenza ordinata. quenza ordinata. Il calcolo di Me(X) discende immediatamente dalla definizione, nel caso di seriazione disaggregata, distinguendo due casi:

122

21

NN XXMe

2

1 NXMe

Quindi per calcolare la mediana non si richiedono modalità quantitative (bastano ordinali!) e soprattutto non si coinvolgono nel calcolo tutte le modalità, ma solo quella che sta al centro della sequenza ordinata.

N=pari=2r

N=dispari=2r+1

Page 5: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

Calcolo della mediana per variabili discrete

Se le informazioni sono ricodificate in forma di variabile statistica il crite-rio di calcolo non cambia. Solo, non dovremo cercare la mediana nella sequenza ordinata delle N osservazioni, ma in quella delle k (<N) modalità, contraddistinte dalle rispettive frequenze fk e cumulate Fk.

Il calcolo non passerà quindi più dall’enumerazione di tutte le modalità osservate, ma dall’applicazione di una semplice procedura sulle fre-quenze cumulate.

«Il valore mediano corrisponde alla modalità x«Il valore mediano corrisponde alla modalità xkk la cui cu-mulata la cui cu-mulata

FFkk è la prima a raggiungere o superare F è la prima a raggiungere o superare FMe Me = ½ »= ½ »

xxkk = Me(X) SSE F = Me(X) SSE Fkk 0.5 e F 0.5 e Fk–1 k–1 < 0.5< 0.5

Page 6: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

Un esempio e la sua percezione grafica

xi ni Fi

0 20 0,10

1 30 0,25

2 70 0,60

3 50 0,85

4 20 0,95

5 10 1

200

N.esami dati

0

0,2

0,4

0,6

0,8

1

-1 0 1 2 3 4 5 6

F(1)=0,25 è meno di 0,50:

proseguiamo…

F(2)=0,60 è più di 0,50: allora Me(X) è 2, la modalità corrispondente!

Si può determinare Me(X) anche dal grafico a scalini della funzione cumulata:

Sull’asse verticale si individua il valore 0,5: da lì si fa partire una linea orizzontale, che incrocia generalmente la curva in un tratto verticale.

Da quel punto di scende in verticale, e si trova il valore cercato.

Me(X)

F=0,5

Page 7: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

Quando l’unità mediana non esiste

Può capitare che a una modalità si trovi esattamente Fk=0.5 (possibile per N pari): il 50% dei casi si raggiunge esattamente in corrispondenza di un salto di modalità.

In questo caso si prende come mediana il valore centrale tra la si prende come mediana il valore centrale tra la modalità k e la successivamodalità k e la successiva, anche se esso può essere un valore fittizio.

Me(X) = (xk+1+xk)/2 SSE Fk = 0.5 e Fk–1 < 0.5

xi ni Fi

0 20 0,10

1 30 0,25

2 50 0,50

3 70 0,85

4 20 0,95

5 10 1

200

0

0,2

0,4

0,6

0,8

1

-1 0 1 2 3 4 5 6

Me(X)

F(2) ora è proprio 0,50. X2 è os-servato nel 50% dei casi. L’osser-vazione successi-va è 3. Me(X)= (2+3)/2=2,5

Page 8: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

Calcolo della mediana per variabili per classi

Consideriamo ora una v.s. segmentata in m classi Ik=(IXk,SXk), dove l'estremo superiore SXk della classe coincidere con l'estremo inferiore IXk+1 della classe successiva. Ci sarà un punto C all’interno di una classe tale che, se alziamo da C una verticale, essa spaccherà l’area sottesa all’istogramma esattamente in due: il 50% a sinistra, il 50% a destra.

In questo caso applicheremo il criterio già dato per individuare non il valore mediano, ma la "classe medianaclasse mediana":

Ik = Classe Me(X) SSE Fk 0.5 e Fk–1 < 0.5

xi-xi+1 ni fi Fi

0-400 34 0,34 0,34

400-1000 40 0,40 0.74

1000-2000 26 0,26 1

100 1

Province per num. abitanti/kmq

0

0,02

0,04

0,06

0,08

0,1

0 500 1000 1500 2000 2500

La classe mediana è (400-1000). Ma quale è

con precisio-ne il punto

C?

CC

Page 9: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

Calcolo della mediana per interpolazione

‘Zummiamo’ sul segmento 400-1000 della funzione cumulata.

Per trovare il valore mediano a cui corrisponde F(Me)=0,5 esami-niamo i due triangoli OAB e OCD, che insistono sullo stesso angolo.

La geometria di Talete spiega che i rapporti tra i cateti corrispon-denti dei due triangoli sono uguali

“OB sta a OD come BA sta a DAOB sta a OD come BA sta a DA”

Ma ognuno di questi cateti è mi-surabile in termini di modalità e frequenze cumulate, tutte osser-vate (FMe=0,5) tranne la nostra incognita: Me.

0

0,2

0,4

0,6

0,8

1

0 200 400 600 800 1000 1200

Fi

i =SXk-IXk

fk=

Fk-Fk-1FMe-Fk-1

Me-Ixk

Me xx x

F FF F

Me x F Ff

I k

S k I k

Me k

k k

I k

k

Me k

k

1

1

1

O

A

B

C

D

Page 10: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

Una lettura di basso profilo dell’interpolante

Me=I k kk

k

xF

f

12 1

64024040040,0600400

40,0

34,050,0600400=Me

Abbiamo ottenuto la formula per cal-colare la mediana per interpolazione in modo ‘alto’, partendo da Talete.

Ma possiamo anche trascurare Talete, leggere la formula e interpretarla in modo letterale:

Se la classe mediana va da 400 a 1000, il valore mediano sarà pari all’estremo inferiore della classe (400) più una quota dell’intervallo della classe stessa (1000-400=600).

Tale quota % è posta uguale alla quota di frequenza della classe mediana che serve per arrivare al 50% della cumulata.

0

0,2

0,4

0,6

0,8

1

-500 500 1500 2500 3500

½

640

Nota:Me(X)=640 ma

M(X)=738

Page 11: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

Un secondo esempioxi |-xi+1 fi Fi

15 |-25 0,157 0,157

25 |-35 0,497 0,654

35 |-45 0,273 0,927

45 |-65 0,073 1,000

Immigrati per età

05

1015202530354045505560

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80

0

0,2

0,4

0,6

0,8

1

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80

Stimiamo l’età mediana degli immigrati in Lombardia

La classe mediana è 25-35), la prima la cui cumulata supera il 50%.

Me(X)=25+10(0,500-0,157)/0,497]=25+10 (0,343/0,497)=25+ 100,69=25+6,9=31,925+6,9=31,9

Nota: M(X)=33 > Me(X)=31,9 > Md(X)=30

Me=31,9

Page 12: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

Un terzo esempio

xi |- xi+1

0 |- 20

20 |- 40

40 |- 60

60 |- 80

80 |- 100

100|-160

160|-300

0

4

8

12

16

20

24

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32

xi

hi

Famiglie lombarde per reddito annuo

Fi

11,5

51,4

82,9

94,1

97,5

99,5

1,00

0

20

40

60

80

100

0 4 8 12 16 20 24 28 32 36 40

FiLa classe mediana è 20-40)

Me(X) =

20+20(0,500-0,115)/0,399]=

20+200,385/0,399]=

20+200,965= 20+19,3= 39,3

M=43,6>Me=39,3>Md=30M=43,6>Me=39,3>Md=30

Page 13: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

Le invenzioni dei fratelli Huysgens

Torniamo alla tavola della distribuzione delle età di morte stimata da Graunt nel 1662.

Quello che non sappiamo è che essa segna anche la data di nascita di due pietre miliari della statistica: media e mediana.

La tavola viene infatti vista da due fratelli olandesi, astronomi e assicuratori. In otto-bre 1669 scrive Luis a Christian Huysgens:

“Ho trovato una misura interessante di vita media: l’intensità totale di anni vissuti equi-ripartiti. Sarà m(X)=1822/100=18,22.

Nasce l’età media: 18 anni e un tanto.

xi-xi+1 xi

Da 0 a 6 3

Da 6 a 16 11

Da 16 a 26 21

Da 26 a 36 31

Da 36 a 46 41

Da 46 a 56 51

Da 56 a 66 61

Da 66 a 76 71

Da 76 a 86 81

ni xi ni

36 108

24 264

15 315

9 279

6 246

4 204

3 183

2 142

1 81

100 1822

Bello, vero? Ma una settimana dopo (potenza delle poste) il fratello Christian risponde acidamente (come succede tra fratelli): “Non mi consegue che 18 anni e 2 mesi sia l'età di ogni persona concepita...

Page 14: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

Qualità nascoste della mediana: robustezza

“..Supponiamo che gli uomini siano ancora più deboli e su 100 ne muoiano 90 nei primi 6 anni; ma che quelli che superano tale età siano dei Nestori e dei Matusa-lemmi e vivano fino a 152 anni e 2 mesi. Tu otterresti lo stesso numero e tuttavia chi scommettesse che un nato pervenga all'età di 6 anni ne avrebbe un gran danno poiché di 10 solo 1 arriva a quel traguardo…”

xi-xi+1

Da 0 a 6

Da 6 a 16

Da 16 a 26

Da 26 a 36

Da 36 a 46

Da 46 a 56

Da 56 a 66

Da 66 a 76

Da 76 a 86

Ni

36

60

75

84

90

94

97

99

100

Conclude Christian: “Son cose differenti la speranza speranza dell'età futuradell'età futura di una persona e l'età a cui v'è l'età a cui v'è uguale probabilità che egli arrivi o non arriviuguale probabilità che egli arrivi o non arrivi. Il primo valore serve per calcolare i vitalizi e il secondo per le scommesse”. E’ la nascita della medianaE’ la nascita della mediana!!

xi-xi+1 xi

Da 0 a 6 3

155,2 155,2

Da 16 a 26 21

ni xi ni

90 270

10 1552

100 1822

La media resta 18,22 (ma Christian aveva sbagliato i calcoli..)

Mediana = Me(X) =

6+10*(50-36)/24=

=6+10*(14/24)=

=11,83<18,22=M(x)

Page 15: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

Robustezza e sensitività

Dall'esempio dei fratelli Huysgens si capisce come la media aritmetica risenta molto più della mediana delle fluttuazioni dei valori estremi osservati. In altre parole, "forme" particolari della distribuzione sono percepite con forte sensitività dalla media aritmetica. La sensitività è una grande qualità della media, ma talvolta può produrre effetti imprevedibili..

Robustezza è la qualità di una misura di rilevare il "vero" ordine di Robustezza è la qualità di una misura di rilevare il "vero" ordine di grandezza delle osservazioni, senza lasciarsi influenzare da varia-grandezza delle osservazioni, senza lasciarsi influenzare da varia-zioni "marginali" nella distribuzionezioni "marginali" nella distribuzione.

La robustezza è quindi una proprietà desiderabile per un indice di posizione, che può far propendere per una misura invece che per un'altra quando (come nel caso degli Huysgens e delle assicurazioni sulla vita) tale proprietà sia ritenuta imprescindibile.

La mediana è una misura robusta dell'ordine di grandezza La mediana è una misura robusta dell'ordine di grandezza del fenomeno osservato.del fenomeno osservato.

L’opposto della robustezza è la sensitività.

Page 16: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

Una simulazione

X sia il fatturato di 10 imprese. Conosciamo il valore di 9 imprese, ma dell’ultima sappiamo solo che è compreso tra 0 e 100.

{39,44,53,60,62,66,71,74,81,k}

Come varia M(X) al variare di x10, e come varia Me(X)?

100k66 se 64

66k60 se 2

62+k60k0 se 61

Me

10

155

10

550

10

x

10

1

kkx

mi

ix

55

57

59

61

63

65

0 20 40 60 80 100

55

65

0 100

La media (tratto continuo) è ‘sensi-bile’ al variare di x10, la mediana in-vece non risente proprio di varia-zioni che avvengano ‘sulle code’.

RobustnessRobustness e Sensitivity Sensitivity sono due qualità opposte. Il tipo di dati a disposizione suggerirà quale media è più adatta.

Page 17: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

Mediana in variabili per classi

La tabella mostra i dati relativi ad un campione di 560 persone cui è sta-to chiesto l’ammontare del loro reddito annuale in migliaia di euro.

Calcolate il valore medio e la mediana

Entrate numerosità

[0; 5) 20

[5; 10) 200

[10; 20) 250

[20; 30) 50

[30; 50) 30

[50; 70) 10

560

Valori centrali cumulate intensità

2,5 20 50

7,5 220 1500

15 470 3750

25 520 1250

40 550 1200

60 560 600

8350

Aggiungiamo le colonne di calcolo di de-stra.

Media = Intensità totale / Numerosità Totale = 8350/560 = 14,911

Classe mediana = la prima la cui cumulata supera N/2=280: [10; 20)

Mediana = 10+10 * (280-220)/(470-220) = 10+10 * (60/250) = 12,4

Page 18: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

Cumulate e retrocumulateni fi

[1-500) 100 0.10[500-1000) 300 0.30[1000-1500) 400 0.40[1500-2000) 150 0.15[2000-5000) 50 0.05

1000 1.00

Consideriamo gli stipendi mensili degli impiegati in una società. Qual è la quota di persone che non guadagnano meno di x euro?

F1 = f1 = 0.1 (quota di persone con meno di 500 euro di stipendio)

F2 = F1 + f2 = 0.40 (quota di persone con meno di 1000 euro)

F3 = F2 + f3 = 0.80 (quota di persone con meno di 1500 euro)

F4 = F3 + f4 = 0.95 (quota di persone con meno di 2000 euro)

F5 = F4 + f5 = 1.00 (quota di persone fino a 5000 euro)

R1 = 1.00 (quota di persone con almeno un euro di stipendio)

R2 = R1 - f1 = 0.90 (quota di persone con almeno 500 euro)

R3 = R2 - f2 = 0.60 (quota di persone con almeno 1000 euro)

R4 = R3 - f3 = 0.20 (quota di persone con almeno 1500 euro)

R5 = R4 - f4 = 0.05 (quota di persone con almeno 2000 euro)

Page 19: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

La mediana come intersezione

0

0.1

0.4

0.8

0.9511

0.9

0.6

0.2

0.0500

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

Spezzata delle frequenze cumulate e retrocumulate

Cumulate

Retrocumulate

Media

na

NB: le due curve si intersecano in X=Mediana

Page 20: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

Media, mediana e dati troncati

Supponiamo di seguire una popolazione nella sua e-voluzione (es.: mortalità di una coorte di imprese).

Qui la media aritmetica è una misura centrale poco affidabile, perché la ‘coda’ di imprese longeve è ancora in vita. Otterremmo così medie assai diverse nel caso in cui tutte le imprese ancora in attività chiudano tra il 10° e il 12° anno (caso A), oppure, poniamo, tutte tra il 28° e il 32° anno (caso B).

xi-xi+1 ni(A) ni

(B)

0-1 15,4 15,4

1-2 13,3 13,3

2-3 10,9 10,9

3-4 7,8 7,8

4-5 6,2 6,2

5-6 4,4 4,4

6-7 4,1 4,1

7-8 3,1 3,1

8-9 2,0 2,0

9-10 2,4 2,4

10-12 30,4 0

28-32 0 30,4

58,8)304,011(24,21111

10

1

)(

fxfxm ii

iAx

36,11)304,030(24,21111

10

1

)(

fxfxm ii

iBx

La media aritmetica varia davvero molto, invece la mediana è robustarobusta: 4,42

Page 21: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

Dalla mediana al quantile

La Mediana fornisce, a partire dalle cumulate, una misura della mo-dalità “che sta nel mezzo”. Ma possiamo anche chiederci, per esempio:

Qual è il reddito familiare sopra cui sta nella fascia medio-alta, che divide la popolazione non ‘fifty-fifty’, 50% a sinistra e 50% a destra ma per es. 75% a sinistra (redditi inferiori) e 25 a destra?Qual’è la soglia di reddito oltre cui sta la fascia bassa, la soglia per esempio che discrimina il 20% meno benestante?Dove porre la ‘soglia della povertà’ che segnali il 10% più povero?

Sono tutte (compresa la mediana!) varianti di una stessa famiglia di misure (‘quantili’) che scandiscono i valori assunti da una v.s. in corrispondenza di ‘posti significativi in graduatoria’:

Il reddito che lascia a sinistra ¾ delle famiglie è un ‘quartile’Il reddito che lascia a sinistra 1/5 delle famiglie è un ‘quintile’Il reddito che lascia a sinistra 1/10 delle famiglie è un ‘decile’..

Secondo le esigenze, useremo quantili larghi (quartili) o dettagliati (decili).

Page 22: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

Quartili, quintili, decili per variabili discrete

Il calcolo di un quantile è simile al calcolo della Mediana. Per v.s. discrete:

«Il c-mo quartile è la modalità xk la cui cumulata Fk è la prima a raggiungere o superare Fk=c/4: xk=4Qc(X) SSE Fkc/4 e Fk–1<c/4»

«Il c-mo quintile è la modalità xk la cui cumulata Fk è la prima a raggiungere o superare Fk=c/5: xk=5Qc(X) SSE Fkc/5 e Fk–1<c/5»

«Il c-mo decile è la modalità xk la cui cumulata Fk è la prima a raggiungere o superare Fk=c/10: xk=10Qc(X) SSE Fkc/10 e Fk–1<c/10»xi ni Fi

0 20 0,10

1 30 0,25

2 70 0,60

3 50 0,85

4 20 0,95

5 10 1

N.esami dati

Quartili:

4Q1(X)=1,5

44QQ22(X)=2=Me(X)=2=Me

4Q3(X)=3

Quintili:

5Q1(X)=1

5Q2(X)=2

5Q3(X)=2,5

5Q4(X)=3

Per es. il secondo quintile 5Q2(X) è la modalità che lascia alla sua sinistra (va-lori inferiori) il 40% delle osservazioni, alla sua destra il 60%.

La mediana è il II quartile.

Page 23: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

Quartili, quintili, decili per variabili per classi

Anche per v. per classi il calcolo di un quantile è simile a quello di Me(X). Una volta individuata la ‘classe quantile’, si interpola. Per es.:

k

kc

kkI f

Fx 14

c4 =Q c-mo

quartile

c-mo quintile

k

kc

kkI f

Fx 15

c5 =Q

c-mo decile

c-mo percentile

k

kc

kkI f

Fx 110

c10 =Q

k

kc

kkI f

Fx 1100

c100 =Q

Percentile è il valore al quale o Percentile è il valore al quale o al di sotto del quale si trova al di sotto del quale si trova una specifica percentuale delle una specifica percentuale delle osservazioni di una v.s.osservazioni di una v.s. Ad esempio il 60° percentile è quel valore che divide il gruppo di dati in due parti: il 60% a sinistra e il 40% a destra di esso (coincide quindi col terzo quintile).I decili vengono spesso usati in studi di politica economica (per in-dicare i livelli di reddito di scaglioni ‘decimali’ di popolazione).I percentili sono molto usati nei test psicologici.

Page 24: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

Un esempio: quartili dell’età di maternità

xi|-xi+1 Fi(46)

15-20 0,07

20-25 0,51

25-30 0,86

30-35 0,91

xi|-xi+1 Fi(60)

15-20 0,11

20-25 0,38

25-30 0,66

30-35 0,79

0

20

40

60

80

100

15 20 25 30 35

Cumulata di donne friulane che hanno avuto un figlio per età (coorti ’46-’60).

0

20

40

60

80

100

15 20 25 30 35

1Q4(X)=20+50,18/0,44]=22,0

2Q4(X)=20+50,43/0,44]=24,9

3Q4(X)=25+50,24/0,35]=28,4

1Q4(X)=20+50,14/0,27]=22,6

2Q4(X)=25+50,12/0,28]=27,1

3Q4(X)=30+50,09/0,13]=33,5

Interessante: da una coorte all’altra il primo quartile non varia granché (i calendari ‘precoci’ hanno quasi lo stesso peso), ma slittano in avanti la mediana e soprattutto il 3° quartile

Page 25: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

Un esempio: decili dei redditi a Milano

xi |- xi+1

0,0 |- 0,8

0,8 |- 1,2

1,2 |- 1,6

1,6 |- 2,0

2,0 |- 2,4

2,4 |- 2,8

2,8 |- 3,2

3,2 |- 3,6

3,6 |- 4,0

4,0 |- 4,4

4,4 |- 4,8

4,8 |- 5,2

5,2 |- 6,0

6,0 |- 8,0

8,0 |- 12

Fi(MIL)

35

44

105

193

272

474

570

702

772

825

851

877

903

974

1000

Fi(PIC)

11

25

113

279

419

615

723

803

851

916

940

957

976

996

1000

k

kc

kkI f

Fx 110

c10 =Q

Calcoliamo i decili delle distribuzioni dei redditi mensili familiari ‘equivalenti’ stimate per Milano e per i piccoli comuni della regione dalla Survey Lombarda 2000.

Nella colonna delle cumulate trovo la prima classe di reddito che raggiunge o supera il 10, 20, 30.. 90%. Entro la classe decile così individuata applico la formula:

Per es. primo e secondo decile di Milano sono:

1Q10(X)MIL=1,2+0,4*(0,100-0,044)/(0,105-0,044)=1,567

2Q10(X)MIL=2,0+0,4*(0,200-0,193)/(0,272-0,193)=2,035

Page 26: LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

Leggere i decili di redditoPoveri si è nella stessa misura in città e fuori: il primo decile (reddito max del 10% più po-vero) è lo stesso. Anche il primo quartile (reddito del 25% più povero) non varia molto.

Ma al crescere del decile la divaricazione cre-sce. La superiorità del reddito medio a Milano è dovuta alla maggiore dispersione dei redditi in città. Misuriamo la dispersione con le diffe-renze tra quantili a ugual distanza dalla me-diana: siamo già dentro alla prossima lezione!

decile

I

II

III

IV

V

VI

VII

VIII

IX

KQ10(X)MIL

1,567

2,035

2,455

2,653

2,908

3,291

3,594

4,211

5,908

KQ10(X)PIC

1,541

1,810

2,060

2,346

2,565

2,769

3,115

3,585

4,301

quart.

I

II

III

KQ4(X)MIL

2,289

2,908

3,874

KQ4(X)PIC

1,930

2,565

3,335

Differenza interquantilica

9Q10(X)- 1Q10(X)

4Q5(X)- 1Q5(X)

3Q4(X)- 1Q4(X)

D.i.Q Milano

4,341

2,176

1,585

D.i.Q Paesi

2,760

1,775

1,405