estadística descriptiva 2.1 promedios y medidas de posición 2.2
TRANSCRIPT
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 1
Estadística Descriptiva
2.1 Promedios y medidas de posición2.2 Medidas de dispersión2.3 Medidas de asimetría. Valores atípicos.2.4 Medidas de desigualdad.2.5 Valores atípicos: Diagrama de caja y
bigotes2.6 Transformación lineal de una variable:
comportamiento de las medidas numéricas estudiadas
Parcialmente financiado a través del PIE13-024 (UMA)
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 2
CARACTERIZACIÓN DE UNA VARIABLE:� Medidas de posición (2.1)◦ Central (promedios)◦ No central (cuantiles)
� Medidas de dispersión (2.2)� Medidas de asimetría (2.3)� Medidas de desigualdad (2.4)
� Media aritmética� Mediana� Moda
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 3
N
nxx i
ii∑=
Dada la siguiente distribución obtenga la media:
Rentas (10 2 €) n i
500-15001500-25002500-35003500-45004500-55005500-6500
378421
25
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 4
Rentas (10 2 €) n i x i x in i
500-15001500-25002500-35003500-45004500-55005500-6500
378421
100020003000400050006000
300014000240001600010000
6000
25 73000
€10292025
73000 2===∑
N
nxx i
ii
1. Suma de las desviaciones respecto a la media
2. Cambios de origen
3. Cambios de escala
4. Media de varios grupos
( ) 0=−=∑ ∑ iiii nxxnd
xbxbxx ii =⇒= ''
axxaxx ii +=⇒+= ''
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 5
1x
grupo 1 2 … r
media …
observaciones …
Tamaño N1 N2 … Nr
2x rx
N
xNxNxN
N
xNx rrii +++== ∑ K2211
ix1
ix2 rix
Dados r grupos distintos de los que se conocen sus diferentes medias y tamaños poblacionales:
La media global se puede obtener como la suma ponderada de las Medias de cada grupo
� Datos no agrupados ni=1•N impar: Valor central de la variable•N par: Media de los 2 valores centrales
� Datos no agrupados: Primer valor de la variable con Ni>N/2 (hay una excepción a esta regla)
� Datos agrupados
ii
i
i an
NNLMe
1
12 −
−
−+=
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 6
DE
BC
AD
AB =
semejantes Triangulos
ADEy ABC
Polígono acumulado de frecuencias
Li-1 LiMe
Ni
N/2
Ni-1
AD
E
C
B
Rentas (10 2 €) n i
500-15001500-25002500-35003500-45004500-55005500-6500
378421
25
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 7
Rentas (10 2 €) n i Ni
500-15001500-25002500-35003500-45004500-55005500-6500
378421
31018222425
25
nteanteriorme Calculada €102920 2=x
€10*5.281210008
105.1225002
5.122
21
1 =−+=−
+=
=
−− i
i
i
i an
NNLMe
N
� Datos no agrupados ni=1: Obtención inmediata
� Datos no agrupados: xj con mayor nj
� Datos agrupados
variableAmplitud
constante Amplitud
11
11
11
11
iii
ii
iii
ii
ahh
hLMo
ann
nLMo
+−
+−
+−
+−
++=
++=
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 8
1−= iLMo
1−= iLMo
iii x
LLMo =+= −
21
iLMo =Li-1
Li-1Li-1LiLi Li
Caso 1: ni+1=0 Caso 2: ni-1=ni+1 Caso 3: ni-1=0Caso 1: ni+1=0
Li-1 Li
Caso 1: ni+1=0
Li-1
Caso 1: ni+1=0
LiLi-1
Caso 1: ni+1=0Caso 1: ni+1=0
Li-1
Caso 1: ni+1=0
LiLi-1
Caso 1: ni+1=0 Caso 2: ni-1=ni+1Caso 2: ni-1=ni+1
Li-1
Caso 2: ni-1=ni+1
Li
Caso 2: ni-1=ni+1
Li-1
Caso 2: ni-1=ni+1
LiLi-1
Caso 2: ni-1=ni+1 Caso 3: ni-1=0Caso 3: ni-1=0Caso 3: ni-1=0Caso 3: ni-1=0Caso 3: ni-1=0
Li-1
Caso 3: ni-1=0
LiLi-1
Caso 3: ni-1=0
1
1
:es proporción La
−
+=− i
i
i n
n
ma
m
Li-2 Li+1Li-1 LiMo
m
ai
ni-1
ni+1
ni
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 9
Rentas (10 2 €) n i
500-15001500-25002500-35003500-45004500-55005500-6500
378421
25
Rentas (10 2 €) n i
500-15001500-25002500-35003500-45004500-55005500-6500
378421
25
nteanteriorme Calculadas €10*2812.5 Me €10*2920 22 ==x
€10*6364.2863100047
42500 2
11
11 =
++=
++=
+−
+− i
ii
ii a
nn
nLMo
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 10
� Mediana (N/2)� Cuartiles/as (N/4)� Deciles/as (N/10)� Percentiles/as (N/100)
ii
i
i an
NNLQ
1
114 −
−
−+= i
i
i
i an
NNLMe
1
12 −
−
−+=
ii
i
ij an
NjNLQ
1
14 −
−
−+=
ii
i
i an
NNLQ
1
134
3−
−
−+=
ii
i
i an
NNLQ
1
124
2−
−
−+=
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 11
ii
i
ij an
NjNLD
1
110 −
−
−+=
� Deciles
� Percentiles
ii
i
ij an
NjNLP
1
1100 −
−
−+=
Alquiler (103 €)
n i
2-33-44-66-8
8-1212-20
100150350100150150
1000
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 12
Alquiler (103 €)
n i Ni
2-33-44-66-8
8-1212-20
100150350100150150
100250600700850
1000
1000
€10*4286.52350
25050042 31
1 =−+=−
+= −− i
i
i
i an
NNLMe
700100/70
200100/20
7504/3
5002/
==
==
N
N
N
NP20
Me
P70
Q3
€10*3333.94150
70075084
331
13 =−+=−
+= −− i
i
i
i an
NNLQ
€10*6667.31150
1002003100
2031
120 =−+=−
+=−
− ii
i
i an
NNLP
€10*82100
6007006100
7031
170 =−+=−
+=−
− ii
i
i an
NNLP
Solución
Poca variabilidad
Poca dispersión
Homogeneidad
Promedio poco representativo Promedio representativo
Mucha variabilidad
Mucha dispersión
Heterogeneidad
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 13
Empresa A Empresa Bx i n i x in i x i n i x in i
150200250
131
150600250
50120590
131
50360590
1000 1000
2005
1000==Ax 2005
1000==Bx
¿En cuál de estas dos empresas es más representativo el salario medio?
¿En cuál de estas dos empresas es más representativo el salario medio?
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 14
Medidas de dispersión
Absolutas Relativas
RecorridoVarianza y D. Estándar
Coeficiente deVariación
Empresa A Empresa Bx i n i x i n i
150200250
131
50120590
131
100150250 =−=AR 54050590 =−=BR
¿En cuál de estas dos empresas es más representativo el salario medio?
En la de menor recorrido (A)
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 15
minmax xxR −=
13 QQRQ −=
19 DDRD −=
199 PPRP −=
Nº individuos Nº días Ni
menos de 5 1 1
De 5 a 10 2 3
De 10 a 15 1 4
De 15 a 20 2 6
De 20 a 25 3 9
De 25 a 30 5 14
De 30 a 35 5 19
De 35 a 40 3 22
De 40 a 50 2 24
De 50 a 60 1 25
De 60 a 80 1 26
26
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 16
Nº individ Nº días Ni
menos de 5 1 1
De 5 a 10 2 3
De 10 a 15 1 4
De 15 a 20 2 6
De 20 a 25 3 9
De 25 a 30 5 14
De 30 a 35 5 19
De 35 a 40 3 22
De 40 a 50 2 24
De 50 a 60 1 25
De 60 a 80 1 26
26
N/4 6,5
3N/4 19,5
N/10 2,6
9N/10 23,4
N/100 0,26
99N/100 25,74
Recorrido 80-0= 80 personas
Recorrido Intercuartílico 15 personas
Cuartil 1 20,83333333
Cuartil 3 35,83333333
Recorrido Interdecílico 38 personas
Decil 1 9
Decil 9 47
Recorrido Intercentílico 73,5 personas
Centil 1 1,3
Centil 99 74,8
Solución:
( )Varianza
2
22
2
N
nxxS
N
ndS iiii ∑∑ −
==
( ) típicaoestándar Desviación
2
N
nxxS ii∑ −
=
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 17
Empresa A Empresa Bx i n i x in i d i d i
2n i x i n i x in i d i d i2n i
150200250
131
150600250
-500
50
25000
2500
50120590
131
50360590
-150
-80
390
22500
19200
152100
1000 5000 10000 193800
10005
5000
200
2 ==
=
A
A
S
x
387605
193800
200
2 ==
=
B
B
S
x
¿En cuál de estas dos empresas es más representativo el salario medio?
En la de menor varianza (A)
1. Cambios de origen
2. Cambios de escala
3. Cambio de origen y de escala
4. Fórmula de cálculo
222'' xxii SbSbxx =⇒=
222'' xxii SbSbxax =⇒+=
22'' xxii SSaxx =⇒+=
( ) 222
2 xN
nx
N
nxxS iiii
x −=−
= ∑∑
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 18
x
SCV =
Interpretación:� Dispersión mínima CV=0
� ∆ Dispersión → ∆ CV� CV≈1 o mayor → Media no representativa
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 19
0
400
800
1200
1 2 3 4 5 6 7 8 9
0
400
800
1200
0.15 0.20 0.25 0.30 0.35 0.40 0.45
0
400
800
1200
0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0
400
800
1200
1600
2000
0.250 0.375 0.500 0.625
Campaniforme
Forma de UCampaniforme asimétrica -
Campaniforme asimétrica +
S
MoxCAP
−=
0>CAP
0=CAP 0<CAP
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 20
( )3
3
SN
nxx
CAFii∑ −
=
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 21
( )3
4
4
−−
=∑
SN
nxx
CCFii
Interpretación:
CCF>0 ApuntadaCCF=0 Apuntamiento normalCCF<0 Aplastada
Xi ni
0 15
1 26
2 19
3 22
4 18
100
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 22
xi ni xini xi2ni
0 15 0 0 -2,02 -123,6361
1 26 26 26 -1,02 -27,5914
2 19 38 76 -0,02 -0,0002
3 22 66 198 0,98 20,7062
4 18 72 288 1,98 139,7231
100 202 588 -0,1 9,2016
leve As.0381.03415.1
1002016.9
7603.03415.1
102.2
3415.17996.102.2100
58802.2
100
202
3
22
+===−=
==−===
CAFCAP
SSx
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 23
∑
≤≤≤
ini
K21
x de reparto el estudiamos
xxx
:son variablela de valorescuyos,individuos N Dados
L
:extremas posiciones dosExisten
kk xxx ==== −121x
buciónequidistri o mínima Desiguadad 1.
L
00x
máxima dDesigualda 2.
121 ≠==== − kk xxx L
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 24
� Índice de Gini� Curva de Lorenz� P90/P10
xini
x1n1
x2n2
xini
xknk
∑xini
Qi
Q1=q1
Q2=q1+q2
Qi=q1+q2+…+qi
Qk=q1+q2+…+qk=1
Pi
P1=p1
P2=p1+p2
Pi=p1+p2+…+pi
Pk=p1+p2+…+pk=1
pi
p1=n1/Np2=n2/N
pi=ni/N
pk=nk/N1
qi
q1=x1n1/∑xini
q2=x2n2/∑xini
q3=x3n3/∑xini
qk=xknk/∑xini
1
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 25
Salario (103 €)
ni xi pi xini qi Pi Qi
0.5-2.52.5-4.54.5-6.56.5-8.5
19227250
1.53.55.57.5
0.380.440.140.04
28.577.038.5
15159
0.17920.48430.24210.0943
1
0.380.820.96
1
0.17920.66350.9056
1
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0 0,2 0,4 0,6 0,8 1
Frecuencias (Pi)
Mas
as (Q
i)
aIG
QPQPIG iiii
2
11
=
−= ∑∑ ++
Curva de LorenzÍndice de Gini
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 26
0=IG 1=IG
Desigualdad bajaDesigualdad bajaDesigualdad bajaDesigualdad baja Desigualdad altaDesigualdad altaDesigualdad altaDesigualdad alta
0
0,2
0,4
0,6
0,8
1
0 0,2 0,4 0,6 0,8 1
Fr ec ue nc i as ( P i )
Equidistribución
0%
20%
40%
60%
80%
100%
0% 20% 40% 60% 80% 100%
Fr ec ue nc ia s ( P i )
Desigualdad máxima
0%
20%
40%
60%
80%
100%
0% 20% 40% 60% 80% 100%
Fr e cuenc ias ( P i )
0%
20%
40%
60%
80%
100%
0% 20% 40% 60% 80% 100%
Fr ec ue nc ia s ( P i )
0≈IG 1≈IG
Salario (103 €)
ni xi pi xini qi Pi Qi PiQi+1 Pi+1Qi
0.5-2.52.5-4.54.5-6.56.5-8.5
19227250
1.53.55.57.5
0.380.440.140.04
28.577.038.5
15159
0.17920.48430.24210.0943
1
0.380.820.96
1
0.17920.66350.9056
1
0.25210.74270.9600
-1.9548
0.14690,63700.9057-1.6896
2652.06896.19548.111 =−=−= ∑∑ ++ iiii QPQPIG
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 27
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0 0,2 0,4 0,6 0,8 1
Frecuencias (Pi)
Mas
as (Q
i)
� Es el cociente entre el Percentil 90 y el percentil 10� Como mínimo toma el valor 1 (equidistribución)� Cuanto mayor es mayor es la desigualdad� Ejemplo anterior de desigualdad
4983.50263.16429.5
6429.527
41455.4100
90
0263.1219
055.0100
10
45100/905100/10
10
90
1
190
1
110
==
=−+=−
+=
=−+=−
+=
==
−−
−−
PP
an
NNLP
an
NNLP
NN
ii
i
i
ii
i
i
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 28
[ ]QQ RQRQ 5.1,5.1
:intervalo del fueraestán que variablela de Valores
31 +−
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 29
Valores extremos:� Fuera del intervalo(Q1-1.5 RQ, Q3+1.5
RQ)Se marcan ○� Fuera del intervalo(Q1-3 RQ, Q3+3 RQ)Se marcan *
Indicios deasimetría
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 30
Francisco Trujillo
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 31
Cambio de origen
xi’=xi+a
Cambio de escala
xi’=bxi
Transformación lineal
xi’=bxi+a
Promedios y Posic.Media
Mediana
Moda
Percentiles
DispersiónVarianza
Desviación típica
C. Variación
AsimetríaC. A. Pearson
Me’=Me+a
Mo’=Mo+a
Pj’=Pj+a
Sx’2= Sx
2
Sx’= Sx
CAP’=CAP
Me’=bMe
Mo’=bMo
Pj’=bPj
Sx’2=b2 Sx
2
Sx’=b Sx
CAP’=CAP
Me’=bMe+a
Mo’=bMo+a
Pj’=bPj +a
Sx’2=b2 Sx
2
Sx’=b Sx
CAP’=CAP
axx +=' xbx ='
( )axSCV x
+=' CVCV ='
axbx +='
( )axSCV x
+='
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 32
x
ii S
xxz
−=
11
02 ===
zz SS
z
€10*5.0€10*2.2
€10*2€10*3.244
44
====
BB
AA
Sx
Sx
Se hace un estudio sobre la renta trimestral de los ciudadanos de 2 países distintos ( a y B), con los siguientes resultados:
Un habitante de A tiene una renta anual de 2.5*104 € y uno de B de 2.3*104 € ¿Cuál de ellos se encuentra en mejor posición relativa?
ESTADÍSTICA DESCRIPTIVA
Pilar López Delgado 33
B de habitante elMejor 2.05.0
2.23.2
1.02
3.25.2
=−→
=−→
B
A