lezione a.11 la concentrazione
DESCRIPTION
TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli. LEZIONE A.11 La concentrazione. In questa lezione. - PowerPoint PPT PresentationTRANSCRIPT
LEZIONE A.11
La concentrazione
TQuArs – a.a. 2010/11Tecniche quantitative per l’analisi nella ricerca sociale
Giuseppe A. Micheli
In questa lezione.. In questa lezione facciamo la conoscenza con l’ultimo, diffuso, concetto utilizzato per descrivere la variabilità di un carattere: la concentrazioneconcentrazione.
Approderemo allo stesso concetto per due strade assai differenti:
Da una parte formuleremo un nuovo criterio di misura della variabilità non come dispersione intorno a un polo centrale, ma come media delle media delle differenzedifferenze tra tutte le osservazioni prese a due a due. Di questa misura:
Impareremo una procedura rapida di calcolorapida di calcolo.
Effettueremo la normalizzazione normalizzazione di questa misura.
Introdurremo poi un nuovo tipo di graficografico, che collega proporzioni via via cumulate di una popolazione con le corrispondenti proporzioni dell’intensità totale del carattere da esse possedute. In particolare:
Esamineremo le proprietàproprietà di questa curva ben nota in Economia.
Svolgeremo degli esempiesempi, alcuni semplici altri più articolati.
Infine introdurremo il concetto di ‘dominanzadominanza’ tra due curve.
La differenza media
Un diverso modo per studiare la "diversità di valori osservati" consiste nel considerare gli informatori elementari [distanze] dij=|xi–xj| i,j.
Si possono costruire indici di mutua variabilitàindici di mutua variabilità, considerando una qualche funzione D(x) di sintesi di una v.s. X che soddisfi le proprietà canoniche (mai ne-gativa, pari a zero SSE xi=xj i,j, dotata delle proprietà di invarianza rispetto alle traslazioni e monotonicità). Come per la funzione di perdita, sintetizziamo le distanze in una media ponderata.
q
i
q
jjiji nnxx
NN 1 11
1In particolare definiamo Differenza me-Differenza me-dia semplice senza ripetizione:dia semplice senza ripetizione:
Il calcolo di , come si può immaginare, è lungo e macchinoso, richiedendo di conteggiare le differenze tra tutte le modalità osservate a due a due. Ma per v.s. discrete esiste, ed è equivalente, una procedura rapida di calcoloprocedura rapida di calcolo.
Indicate con qi=xini le già note inten-sità specifiche e definite (per analogia alle cumulate Ni) Qi=k=1..iqk le corri-spondenti intensità cumulate, la diffe-renza media semplice è pari a:
m
iii
m
iii nQNq
NN 111
2
Un esempio ‘all’osso’
xi ni Ni qi=xin
i
Qi
0 4 4 0 0
4 2 6 8 8
8 4 10 32 40
N=10 T=40
qiNi Qi ni
0 0
48 16
320 160
A=368 B=176
2.4176368910
2
1
2
11
m
iii
m
iii nQNq
NN
L’esempio è stupido, come è stupida la procedura di calcolo.
Si tratta di conteggiare le due colonne aggiuntive delle qiNi e delle Qini, senza pretendere che abbiano alcun significato!
A questo punto il calcolo di richiede solo i tre parametri cerchiati
Rapporto di concentrazione di Gini
E’ possibile normalizzare , è cioè possibile trovarne un massimo? La risposta è la stessa data per la varianza. La differenza media cresce con l’ordine di grandezza del fenomeno studiato, ma per una particolare categoria di caratteri, che abbiamo definito trasferibili, si può trovare un massimo a parità di intensità totale T, che è quello della distribuzione distribuzione massimante di Xmassimante di X:
Per questa distribuzione la differenza media semplice senza ripetizione è:
11
0"
N
TmNX
Si può perciò definire un normalizzato:
mNmNNN
NmNNmNNN
2121
1110110
1
1max
R si chiama rapporto di concentrazione di Gini.
Rm
2
*max
Eterogeneità dispersione concentrazione
Confrontiamo i concetti di eterogeneità, dispersione e concentrazione. I tre concetti sembrano avere consistenti punti di sovrapposizione; ma per coglierne le differenze la cosa migliore è confrontare le situazioni definite come ‘di minimo’ e (nel caso di caratteri trasferibili) ‘di massimo’:
La situazione di mutabilità (o eterogeneità) nullamutabilità (o eterogeneità) nulla (un unica modalità osservata N volte) coincide con quella di concentrazione nulla e con coincide con quella di concentrazione nulla e con quella di dispersione nulla.quella di dispersione nulla.
La distribuzione di massima eterogeneitàdistribuzione di massima eterogeneità (tante modalità equi-frequenti) è invece per definizione diversa dalla distribuzione massimante [massima concentrazione o massima varianza per caratteri trasferibili]. La differenza è lampante!
Max eterogeneità: Max concentrazione e dispersione:
3
1
3
1
3
1*CBA
X
11
0*
N
TX
Confrontare frequenze e intensità cumulate
Nel calcolo rapido di abbiamo introdotto, accanto al concetto di frequenza cumulata, quello di intensità cumulataintensità cumulata.
Come per la prima, possiamo definire un'intensità cumulata relativa:
Il confronto tra le due successioni Fi e Si, per ogni modalità i, è di uso comune e prezioso per valutare la mutua variabilità (o la concentrazione) di un carattere trasferibile in una popolazione.
m
kk
i
kki
k
ki
kki
i
kki
n
n
N
nfnN
1
1
111
F
m
kkk
i
kkki
k
kki
kki
i
kkki
nx
nx
T
nxsnxQ
1
1
111
S
Il senso del confronto
Quando diciamo che in certi paesi del Sud del Mondo "il 90 % della po-il 90 % della po-polazione possiede solo il 5 % delle risorsepolazione possiede solo il 5 % delle risorse" facciamo riferimento ad una variabile X = risorse disponibili che ha, per esempio, una distribuzione così fatta (numerosità espressa in milioni):
xi ni Ni Fi qi Qi Si
1 90 90 0,90 90 90 0,05
100 9 99 0,99 900 990 0,55
810 1 100 1 810 1800 1
100 1800
Dunque la concentrazione di un carattere trasferibile è un modo alternativo ma molto evocativo per descrivere la mutua variabilità di un feno-meno.
come rappresentarlagraficamente
come misurarla sinteticamente
Ci poniamo allora due domande sulla
Concentrazione:
Dieci monete e cinque persone
Dieci monete siano divise non equamente tra 5 individui:X = {1,1,1,2,5}. Ognuno dei 5 individui costituisce il 20 % della popolazione. Posti (per convenzione) in ordine crescente di carattere posseduto, il primo individuo (20 % della popolazione) possiede solo il 10 % del carattere, l’ultimo il 50% dell’intero capitale. C'è quindi una certa concentrazione del carattere.
Viceversa nella seriazione Y={2,2,2,2,2} a ogni 20 % della popolazione spetta la stessa quota (20 %) del carattere. Formalizziamo i due casi in termini di frequenze e intensità cumulate.
xi ni Ni Fi qi Qi Si
1 1 1 0,2 1 1 0,1
1 1 2 0,4 1 2 0,2
1 1 3 0,6 1 3 0,3
2 1 4 0,8 2 5 0,5
5 1 5 1 5 10 1
5 10
yi ni Ni Fi qi Qi Si
2 1 1 0,2 2 2 0,2
2 1 2 0,4 2 4 0,4
2 1 3 0,6 2 6 0,5
2 1 4 0,8 2 8 0,8
2 1 5 1 2 10 1
5 10
La curva di Lorenz-GiniLa curva di Lorenz–Gini è la spez-zata, posta nel primo quadrante, ottenuta congiungendo i punti di coordinate (Fi,Si) [frequenze cu-mulate relative e intensità cumu-late relative], inscritta nel quadra-to compreso tra O (0,0) e P (1,1).
La curva può essere costruita con dati disaggregati (serie) o aggregati. Per es. la v.s. X delle 10 monete è rappresentabile anche così:
Curva di Lorenz - Gini
00,10,20,30,40,50,60,70,80,9
1
0 0,2 0,4 0,6 0,8 1
xi ni Ni Fi qi Qi Si
1 3 3 0,6 3 3 0,3
2 1 4 0,8 2 5 0,5
5 1 5 1 5 10 1
5 10
Fi
Si
Proprietà della curva di Lorenz-Gini / 1
La spezzata giace sempre nella parte inferiore del dominio (Fi,Si): quella cioè sottostante alla bisettrice del quadrante che corrisponde al caso di concentrazione nulla o equiripartizione (Fi = Si per ogni i).
Ciò significa che ogni punto della spezzata (tranne il primo e l'ultimo) ha ordinata inferiore all’ascissa e ciò per costruzione, in quanto le modalità xi sono disposte in ordine crescente.
FN
n
T
nxS
i
k
ki
k
kki
11
Curva di Lorenz - Gini
0123456789
10
0 1 2 3 4 5
Come per frequenze e frequenze cumulate, anche nella rappresentazione grafica della concentrazione possiamo sostituire le coordinate assolute (Ni, Qi) a quelle relative (Fi, Si), mantenendo inalterate le proporzioni interne. Solamente, il massimo delle coordinate sarà P (N, T) invece che (1, 1).
Qi
Ni
Proprietà della curva di Lorenz-Gini / 2
Inoltre la spezzata ha concavità sempre la spezzata ha concavità sempre rivolta verso l'alto, cioè i segmenti rivolta verso l'alto, cioè i segmenti hanno pendenza sempre crescente.hanno pendenza sempre crescente.
La pendenza di una retta è data dal rap-porto tra i due cateti del triangolo ret-tangolo (è la ‘tangente’ dell’angolo). Ma:
Curva di Lorenz - Gini
0123456789
10
0 1 2 3 4 5
Poiché per costruzione le modalità sono messe in ordine crescente, tgi–1<tgi i.
ixn
nx
NN
QQtg i
i
ii
ii
iii
1
1
La spezzata corrispondente al caso di concentrazione nulla (equi-ripartizione) è la bisettrice del quadrante, per la quale Fi = Si i.
Qi
Ni
Misurare la concentrazione con Lorenz-Gini
Il grado di concentrazione di una Il grado di concentrazione di una v.s. è tanto più alto quanto più la v.s. è tanto più alto quanto più la concavità della spezzata si allon-concavità della spezzata si allon-tana dalla bisettrice e si avvicina tana dalla bisettrice e si avvicina alla forma limite della distri-alla forma limite della distri-buzione massimante, buzione massimante, corrisponden-te alla spezzata OCP, dove C=(N–1;0)
11
0*
N
TmNX
Si può allora definire geometricamente una misura di concentrazione come rapporto tra l'area (A) com-presa tra la bisettrice [situazione di equiripartizione] e la spezzata (area a tratteggio verticale) e l'area Amax compresa tra la bisettrice e la spezzata di massima concentrazione (a tratteggio orizzontale). maxA
AR
Perfetta equiripartizione
Max con-cen-tra-zione
Il rapporto di concentrazione di Gini
Ci sono molte procedure per calcolare R. Ma una di queste usa misure a noi già familiari. Si può dimostrare che R è proprio equivalente alla Si può dimostrare che R è proprio equivalente alla differenza media senza ripetizioni normalizzatadifferenza media senza ripetizioni normalizzata.
Per il calcolo di R dunque la procedura rapida di calcolo di , già vista, è la più conveniente.
xmA
AR
2max
Il rapporto tra le 2 aree è un indice standardizzato e si chiama Rapporto Rapporto di Concentrazione di Gini.di Concentrazione di Gini.
m
iii
m
iii nQNq
NNBA
NN 111
2)(
1
2
Vediamo qualche esempio.
Un primo esempioxi ni qi Ni Qi qiNi Qini Fi Si
339 1 339 1 339 339 339 0,11 0,03
461 1 461 2 800 922 800 0,22 0,07
697 1 697 3 1497 2091 1497 0.33 0,13
1320 1 1320 4 2817 5280 2817 0,44 0,24
1524 1 1524 5 4341 7620 4341 0,55 0,37
1798 1 1798 6 6139 10788 6139 0,67 0,52
1857 1 1857 7 7996 12999 7996 0,78 0,67
1889 1 1889 8 9885 15112 9885 0,89 0,83
1994 1 1994 9 11879 17946 11879 1 1
9 11879 73097 45693
0
0,5
1
0 0,5 1
=2(A-B)/(N.(N-1))=
=54808/(9.8)=761,22
max=2(T/N)=23758/9=
=2639,78
R = /max= 0,288
Concentrazione degli in-troiti pubblicitari (milioni di euro) tra nove emit-tenti radiofoniche.
(in questo caso le nu-merosità specifiche sono tutte unitarie)
Ricordatevi: il grafico si costruisce individuando i punti blu, e collegandoli
poi tra loro
P(0.55,0.37)
Un secondo esempioxi ni qi=xini Ni Qi qiNi Qini
10 115 1150 115 1150 132250 132250
30 399 11970 514 13120 6152580 5234880
50 315 15750 829 28870 13056750 9094050
70 112 7840 941 36710 7377440 4111520
90 34 3060 975 39770 2983500 1352180
130 20 2600 995 42370 2587000 847400
230 5 1150 1000 43520 1150000 217600
1000 43520 33439520 20989880
Distribu-zione dei redditi familiari in Lom-bardia m=43,52
924,24999000
24899280)2098988033439520(
9991000
2
2865,087
924,24
87)52,43(22
max
max
R
mx
Fi Si
0,115 0,026
0,514 0,301
0,829 0,663
0,941 0,844
0,975 0,914
0,995 0,974
1 1
0
0,2
0,4
0,6
0,8
1
0 0,2 0,4 0,6 0,8 1
Questa area è il 28,65% dell’intera a-
rea triangolare sottesa alla bisettrice
Distribuzione gaussiana e curva di Lorenz
xi ni qi=xini Ni Fi Qi Si
10 6 60 6 0,006 60 0,001
30 60 1800 66 0,066 1860 0,026
50 242 12100 308 0,308 13960 0,199
70 384 26880 692 0,692 40840 0,583
90 242 21780 934 0,934 62620 0,895
110 60 6600 994 0,994 69220 0,989
130 6 780 1000 1 70000 1
02468
101214161820
0 20 40 60 80 100 120 140
Distribuzione redditi N(70; 20,7)
0
0,2
0,4
0,6
0,8
1
0 0,2 0,4 0,6 0,8 10
0,5
1
0 0,5 1
La distribuzione osservata dei redditi è skew. Ma qual è la concentrazione (e la curva di Lorenz) se, a parità di intensità totale, la distribuzione è gaussiana?
Blu distr.gaussiana
Rosso osservata
In questo caso i dati distribuiti secondo una N(m,) mostrano minore concentrazione (curva di Lorenz più vicina alla bisettrice). Ma non c’è una regola.
Simmetria e concentrazione di una v.s. sono due proprietà distinte: ognuna va per la sua strada.
Distribuzione uniforme e curva di Lorenz
xi ni qi=xini Ni Fi Qi Si
10 143 1430 143 0,143 1430 0,020
30 143 4290 286 0,286 5720 0,082
50 143 7150 429 0,429 12870 0,184
70 142 9940 571 0,571 22810 0,326
90 143 12870 714 0,714 35680 0,510
110 143 15730 857 0,857 51410 0,734
130 143 18590 1000 1 70000 1
02468
101214161820
0 20 40 60 80 100 120 140
0
0,2
0,4
0,6
0,8
1
0 0,2 0,4 0,6 0,8 1
0
0,5
1
0 0,5 1
Blu distrib.uniforme
Rosso osservata
Distribuzione uniforme (m=70)
Ecco subito una riprova. A parità di intensità totale, una distribuzione uniforme (più dispersa della N) mostra concentrazione maggiore di quella osservata. Ma attenzione. La distribuzione skew osservata ha curva di Lorenz più vicina alla bisettrice per le cumu-late basse della popolazione (i poveri) ma poi interse-ca quella della distribuzione uniforme, e per i più ric-chi (coda a destra della curva) essa rivela più spere-quazione. Per capir meglio ci vuole un terzo esempio.
Un terzo esempioXi
(000)ni
(000)qi
ante (10M)
Fi Siante
0-2 2778 463 .088 .020
2-4 8560 2703 .361 .134
4-6 5592 2785 .539 .252
6-8 3964 2763 .665 .369
8-10 2985 2666 .760 .481
10-15 4544 5511 .905 .715
15-20 1746 2986 .961 .841
20-30 887 2108 .989 .930
30-40 201 682 .995 .959
40-99 158 965 1 1
31415 23632
T=tax (10M)
qi post
(10M)%T/ qi
post Si
post
0 463 - .023
52 2651 2% .156
254 2531 9% .283
400 2363 14% .402
426 2240 16% .514
932 4579 17% .744
583 2403 20% .865
489 1619 23% .946
198 484 29% .971
381 584 39% 1
3715 19917 16%
A sinistra: distribu-zione dei redditi tra i titolari di codice fi-scale in UK, 1984.
m=7,52; R=0,397
(molto superiore a quella Lombarda!)
A destra: redistribu-zione dei redditi do-po tassazione pro-gressiva.
m=6,34; R=0,352Osserviamo su dati reali (Economic Trends del Central Statistical Office) l’effetto di una tassazione sui redditi. A parità di proporzione di popolazione, la proporzione di reddito è sempre superiore, cioè più vicina alla bisettrice che esprime la situazione di perfetta equiripartizione.
Trasferimenti equiparativi e concetrativi
0
1
0 1
0
1
0 1
Rosso = prima dell’imposta
Blu = dopo l’imposta
Proporzione di popolazione
Proporzione di redditiEssendo calcolata su caratteri trasfe-ribili la misura di concentrazione è sensibile a trasferimenti "paretiani":
trasferimenti equiparativi: tolgo-no unità di conto a qualche individuo attribuendole ad altri che possiedono una quota del carattere totale pari o inferiore a quella posseduta dall‘ individuo depauperato (per es. una imposta progressiva che si traduce in servizi per i meno abbienti)
(più di rado) trasferimenti con-centrativi (per es. fissare per il buo-no-scuola una soglia minima rimbor-sabile di 150-200 euro e nel frat-tempo derubricare i falsi in bilancio).
La manovra inglese del 1984 è un e-sempio di trasferimento equiparativo.
Dominanza secondo Lorenz
Eccoci tornati, in conclusione, allo strano caso di due curve di Lorenz (redditi osservati e redditi con distribuzione uniforme) intersecate tra loro. Non è un caso eccezionale!
Date due curve di Lorenz A e B, diciamo che A è Lorenz-dominanteLorenz-dominante rispetto a B se la curva di A più vicina alla bisettrice in ogni punto, cioè:
SSiiAA > S > Sii
BB F Fii
Ovvio che una curva dominante su un’altra corrisponde a una situazione di maggiore perequazione, quindi
Se SSe SiiAA>S>Sii
BB FFii R RAA < R < RBB
Le due curve inglesi sono un buon esempio.
Ma possiamo pensare a situazioni meno nette, in cui le scelte si rivelano più complesse. Per esempio…
Equità e polarizzazione..Supponiamo che la distribuzione dei redditi nella società A, per effetto di una certa politica, assuma la forma B, con lo stesso ammontare complessivo di risorse (per es. stesso Pil), ma una diversa configurazione. xi
A niA qi Ni Qi qiNi Qini Fi Si
1 20 20 20 20 400 400 0,20 0,05
3 52 156 72 176 11232 9152 0,72 0,44
5 16 80 88 256 7040 4096 0,88 0,64
8 8 64 96 320 6144 2560 0,96 0,80
20 4 80 100 400 8000 1600 1 1
100 400 32816 17808
xiB ni
B qi Ni Qi qiNi Qini Fi Si
0 20 0 20 0 0 0 0,20 0
4 75 300 95 300 28500 22500 0,95 0,75
20 5 100 100 400 10000 2000 1 1
100 400 38500 24500
A=2(32816-17808)/(100.99)= =3,03
maxA
=2(400/100)=8
RA = /max= 0,379
B=2(38500-24500)/(100.99)= =2,83
maxB
=2(400/100)=8
RB = /max= 0,354
RB = 0,354 < 0,379 = RA
La società in B è più perequata
La società in B è più ‘perequata’.. Eppure sembra più polarizzata che mai! Cosa si può dire in più confrontando le due curve di Lorenz?
Se due curve di Lorenz si intersecano
0
1
0 1
0
1
0 1
Rosso = società B
Blu = società A
Le politiche attuate hanno prodotto in B una scomparsa dei ceti medio-alti (X=8) e un addensamento della maggior parte della popolazione (75 su 100) su valori medio bassi.
In compenso il restante 25% è po-larizzato tra un 20% di nullatenenti e un 5% di benestanti.
R di Gini suggerisce sinteticamente un’accresciuta perequazione: ma non agli estremi della scala sociale.
E’ meglio allora una società (B) con un ceto medio omogeneo ma con forti sperequazioni verso il basso, o una società (A) più perequata là dove ci sono meno risorse?
R di Gini sintetizza una situazione. Ma se vogliamo interpretarla in funzione di diversi obiettivi alternativi, meglio leggere il grafico!