Tema 1 Descripción de datos:
Estadística descriptiva unidimensionalEstadística descriptiva
Objetivos: Ordenar, clasificar, resumir grandes conjuntos de datos de modo que puedan ser fácilmente interpretablesDefiniciones básicas:
Población: Conjunto de unidades objeto de estudioIndividuo: Cada uno de los elementos de la poblaciónCaracterísticas o variables: Propiedades observadas sobre los elementos de la población
Tema 1 Descripción de datos:
Estadística descriptiva unidimensionalLas características o variables se clasifican en
Cualitativas: Sus modalidades no se expresan numéricamente (atributos)Cuantitativas: sus modalidades se expresan numéricamente. Se clasifican a su vez en
Discretas: Entre dos valores consecutivos existe siempre un salto.Continuas: Entre dos valores dados puede tomar (al menos teóricamente) una infinidad, es decir, todos los comprendidos en un intervalo.
Tema 1 Descripción de datos:
Estadística descriptiva unidimensionalEjemplo
Población: Clase formada por los alumnos de 1º de Relaciones LaboralesIndividuo: Alumno Variables Cualitativas
Sexo. Modalidades: hombre, mujerZona de residencia. Modalidades: Granada capital, Albolote, Maracena, …Procedencia estudios. Modalidades: BUP, FP, OtrosRepetidor. Modalidades: Si, No.
Tema 1 Descripción de datos:
Estadística descriptiva unidimensionalEjemplo (Continuación)
Variables CuantitativasDiscretas
Número de hermanos. Modalidades: 0, 1, 2, 3,…Número de asignaturas aprobadas en el primer
cuatrimestre. Modalidades: 0, 1, 2, 3,
ContinuasTiempo diario empleado en estudio. Modalidades: cualquier valor entre 0 y 24 horas.Peso. Modalidades: Admitiendo que nadie pesa menos de 40 kilos ni más de 100, cualquier valor entre 40 y 100.
Tema 1 Descripción de datos:
Estadística descriptiva unidimensional
Organización representación y ordenación de los datos
Tablas estadísticasRepresentaciones gráficas
Síntesis numéricaMedidas de posición centralOtras medidas de posición: CuantilesMedidas de dispersión
Tema 1 Descripción de datos:
Estadística descriptiva unidimensional
Tablas estadísticas para representar las distribuciones de frecuenciasDistribución de frecuencias: Caso discreto. Conjunto de valores xi i=1, …,k, de la variable X con sus frecuencias correspondientes
Frecuencia Absoluta ni de la modalidad xi es el número de individuos en la población que presentan dicha modalidad.Frecuencia Relativa fi de la modalidad xi es la proporción de la población que presenta dicha modalidad
Tema 1 Descripción de datos:
Estadística descriptiva unidimensional
Frecuencia Absoluta Acumulada Ni de la modalidad o valor xi es el número de individuos en la población que presentan dicha modalidad o alguna otra inferior.Frecuencia Relativa Acumulada Fi de la modalidad o valor xi es la proporción de la población que presenta dicha modalidad o alguna otra inferior
Tema 1 Descripción de datos:
Estadística descriptiva unidimensionalEjemplo de distribución de frecuencias:
Edad nº alumnos
18 27
19 20
20 12
21 6
25 1
Nombre de variable (X) Frecuencias absolutas (ni)
La frecuencia absoluta correspondiente al valor 18 años es igual a 27; la correspondiente a 19 años es 20; etc.
661...2027
...1
1
=+++=
=++= ∑=
N
nnnNk
iik
El total de Alumnos en la población (N) esla suma de todas las frecuencias absolutas. ¡Claro!
¿Sabrías decir qué vale n3 en el ejemplo?
¿Sabrías decir qué vale k en el ejemplo?
Si no puedes responder, no entiendes la notación. Lee detenidamente y, si es preciso, repasa.
Tema 1 Descripción de datos:
Estadística descriptiva unidimensionalEjemplo de distribución de frecuencias:
Edad nº alumnos
X1=18 n1=27
X2=19 n2=20
X3=20 n3=12
X4=21 n4=6
X5=25 n5=1
Nombre de variable (X) Frecuencias absolutas (ni)
¿Sabes ya qué es una distribución de frecuencias?
∑=
=
=k
ii
ii
nN
kinx
1
,...,1)},{(
Observa que cada xi (valor de la variable X)lleva asociado un ni (frecuencia absoluta)
La distribución de frecuencias de la variablediscreta X es el conjunto de valores de dichavariable con sus correspondientes frecuenciastales que la suma de todas ellas es N (total deelementos de la población en estudio).
Si no tienes claro esto, no siguas. Lee detenidamente y repasa todo lo anterior.
Tema 1 Descripción de datos:
Estadística descriptiva unidimensional
Ejemplo de distribución de frecuencias:
Edad nº alumnos Nº Acumulado Cálculo18 27 27 27
19 20 47 27+20=47
20 12 59 27+20+12=59
21 6 65 27+20+12+6=65
25 1 66 27+20+12+6+1=66
Vamos a completar un poco más el ejemplo. Determinamos también las frecuencias absolutas acumuladas.
Por ejemplo, N3 acumula los nidesde la fila 1 hasta la fila 3
¿Cómo se hace?¡Acumulando!
¡Qué fácil!
Pregunta: ¿Puedes decir cómo se interpreta el valor 59 de la columna en rojo?
Respuesta: 59 es el Número de alumnos en la población que tienen 20 años o menos
Si no sabes calcular e interpretar las frecuencias absolutas acumuladas no sigas que es peor. Repasa.
Tema 1 Descripción de datos:
Estadística descriptiva unidimensionalEjemplo de distribución de frecuencias:
Edad nº alumnos proporción Cálculo
18 27 0,409 27/66=0,409
19 20 0,303 20/66=0,303
20 12 0,182 12/66=0,182
21 6 0,091 6/66=0,091
25 1 0,015 1/66=0,015
Completemos un poco más el ejemplo. Vamos a determinar también las frecuencias relativas fi.
Por ejemplo, f3 se obtiene dividiendo n3entre N (que vale en el ejemplo 66)
¿Cómo se hace?¡Dividiendo las frecuenciasabsolutas entre el total N!
182,066123
3 ===Nnf
Pregunta: ¿Sabes cómo se interpreta el valor 0,091 de la columna en rojo?
Respuesta: 0,091 es la proporción de alumnos en la población estudiada que tiene21 años. Dicho de otro modo, el 9,1% de la población tiene 21 años.
Pregunta (¡para nota!): ¿qué vale la suma de todas las frecuencias relativas en cualquier distribución de frecuencias?
Si no sabes calcular e interpretar las frecuencias relativas, REPASA
Tema 1 Descripción de datos:
Estadística descriptiva unidimensionalEjemplo de distribución de frecuencias:
Edad nº alumnos proporción Nº AcumuladoProporción
Acumul Cálculo
18 27 0,409 27 0,409
0,712
0,894
0,985
1,000
27/66=0,409
19 20 0,303 47 47/66=0,712
20 12 0,182 59 59/66=0,894
21 6 0,091 65 65/66=0,985
25 1 0,015 66 66/66=1,000
Vamos a determinar también las frecuencias relativas acumuladas (Fi).
¿recuerdas cómo se obtienen las frecuenciasabsolutas acumuladas? Las relativas acumuladasse obtienen acumulando lasrelativas.También se obtienen dividiendolas absolutas acumuladas entre N
Pregunta: ¿Sabrías indicar los dos modos de cálculo de la frecuencia relativa acumulada para xi, con la notación que estamos usando?
Respuesta:
NNF
ffffF
ii
i
jjii
=
=+++= ∑=1
21 ... Acumulando
Dividiendo la Absoluta acumulada entre N
Tema 1 Descripción de datos:
Estadística descriptiva unidimensional
Ejemplo: Un último repaso
Términos básicosVariable Absoluta Relativa Absol. Acum Relat. Acum.
X ni fi Ni Fi
Edad nº alumnos proporción Nº Acumulado Propor. Acum
18 27 0,409 27 0,409
19 20 0,303 47 0,712
20 12 0,182 59 0,894
21 6 0,091 65 0,985
25 1 0,015 66 1,000
66 1
N
Notación
El último valor Acumulado es 1
El último valor Acumulado es N
La suma de lasFrecuencias relativas es 1La suma de las
Frecuencias absolutas es N
Tema 1 Descripción de datos:
Estadística descriptiva unidimensional
Distribución de frecuencias de variable con modalidades expresadas en intervalosCuando la variable es de naturaleza continua, al observarla sobre la población objeto de estudio, nos encontramos con un gran número de valores distintosPara organizar y resumir estos datos conviene expresarlos en intervalos. Esto evita que las tablas de frecuencias construidas no sean demasiado largas y con frecuencias bajas.
Tema 1
TABLA de frecuencias: Caso continuo.Distribución de frecuencias de variable con modalidades expresadas en intervalosEsquema de la distribución de frecuencias Observa que el esquema es similar al de valores de variable discreta. Las interpretaciones de las frecuencias, también.
X nie0-e1 n1
e1-e2 n2
e2-e3 n3
… …
… …ei-1-ei ni
ek-1-ek nk
La tabla muestra k intervaloscon sus correspondientes frecuencias
∑=
=
=k
ii
ii
nN
kinI
1
,...,1)},{(
Distribución de frecuencias:
Intervaloi-ésimo Ii Frecuencia
i-ésima
Tema 1
Veamos algunos términos y conceptos asociados a las modalidades intervaloEl intervalo i-ésimo Ii=ei-1-ei viene dado por los extremos inferior, ei-1,y superior ei
La amplitud del intervalo que notamos ai es la diferencia de los extremos: ai = ei – ei-1
La marca de clase es centro del intervalo:
X nie0-e1 n1
e1-e2 n2
e2-e3 n3
… …
… …ei-1-ei ni
ek-1-ek nk
21 ii
ieec +
= −
Por convenio, se asume que el intervalo es abiertoen el extremo inferior y cerrado en el superior
ii exe ≤<−1
Es decir, la variable toma valores mayoresal extremo inferior y menores o iguales al superior
Tema 1 Descripción de datos:
Estadística descriptiva unidimensional
Ejemplo: Distribución de frecuencias de variable con modalidadesexpresadas en intervalos
Variable Frec. Absoluta
X ni
Tiempo(minutos)
nº deopositores
18-20 30
20-22 42
22-26 26
26-30 15
30-40 10
La tabla siguiente muestra el tiempo empleadopor un grupo de opositores en realizar un test
Observa que las modalidades de la variable X(tiempo) se expresan en intervalos
Por ejemplo, el intervalo primero, 18-20, tiene una Amplitud igual a 2 y marca de clase 19
El último intervalo, 30-40, tiene amplitud igual a 10 y marca de clase 35
Tema 1 Descripción de datos:
Estadística descriptiva unidimensionalEjemplo: Distribución de frecuencias de variable con modalidadesexpresadas en intervalosVamos a añadir columnas con las frecuencias ya estudiadas
Variable Absoluta Absol.Acum proporción Propor.Acum
X ni
nº deopositores
3042261510
Fi
Tiempo(minutos)
fiNinº de
opositores Acumulado
307298
Proporción deopositores Acumulada
18-20
113
Proporción deopositores
0,2440,3410,2110,122
0,24420-22 0,58522-26 0,79726-30
123 0,0810,919
30-40 1
12342341,0 =
123113919,0 =
Interpreta las frecuencias de la fila 2
Hay 42 opositores que emplean un tiempo superior a 20 e inferior o igual a 22 minutos, o sea, el 34,1% del total de opositores.Hay 72 opositores que emplean 22 minutos o menos. Dicho de otro modo, el 58,5% deltotal de opositores emplea hasta un máximo de 22 minutos.
Tema 1 Descripción de datos:
Estadística descriptiva unidimensionalEjemplo: Distribución de frecuencias de variable con modalidadesexpresadas en intervalosVamos a añadir columnas con la amplitud y marcas de clase
Recuerda las fórmulas:
21 ii
ieec +
= −Marca declase
Amplitud
1−−= iii eea
X frecuencia AmplitudMarca de
claseTiempo
(minutos)nº de
opositores
3042261510
18-20ciai
224
20-22
4
19212428
22-2626-30
10 3530-40
20222 −=
2302628 +
=
Tema 1 Descripción de datos:
Estadística descriptiva unidimensional
Representaciones GráficasPermiten dar una idea visual de la composición de los datos. La forma que presente la distribución de frecuencias representada en un gráfico, nos descubre aspectos y propiedades generales relativas a la población estudiada. Son un complemento importante a las tablas de frecuencias.
Tema 1 Descripción de datos:
Estadística descriptiva unidimensional
Tipos de gráficosPara variables cualitativas
Gráfico de barrasGráfico de sectores
Para variables cuantitativasPara distribuciones discretas (valores sin agrupar)
Diagrama de barrasCurva acumulativaGráfico Caja con bigotes
Para distribuciones continuas (valores agrupados)HistogramaCurva acumulativa
Tema 1 Descripción de datos:
Estadística descriptiva unidimensional
Variables cualitativasGráfico de barras
Calificaciónes en Estadística Grupo A
0
10
20
30
40
50
60
susp
enso
aprob
ado
notab
leso
bresa
liente
matr. H
onor
Calificaciones
Calificaciones nº de alumnos
suspenso 20
aprobado 54
notable 27
sobresaliente 10
matr. Honor 1
112
¿Cómo se hace el gráfico?
En un eje horizontal se colocan las modalidades (suspenso, aprobado, …,matr.hornor) y se trazan barras cuya longitud sea igual o proporcional a las frecuencias
Tema 1 Descripción de datos:
Estadística descriptiva unidimensional
Variables cualitativasGráfico de barras
Calificaciones nº de alumnos
suspenso 0,18
aprobado 0,48
notable 0,24
sobresaliente 0,09
matr. Honor 0,01
1
Calificaciónes en Estadística Grupo A
0,00
0,10
0,20
0,30
0,40
0,50
0,60
susp
enso
aprob
ado
notab
leso
bresa
liente
matr. H
onor
Calificaciones
¿Cómo se hace el gráfico?En un eje horizontal se colocan las modalidades (suspenso, aprobado, …,matr.hornor) y se trazan barras cuya longitud sea igual o proporcional a las frecuencias
Observa que ahora hemos usado las frecuencias relativas. El efecto visual del gráficoes el mismo. !Es indiferente usar frecuencias absolutas o relativas!
Tema 1 Descripción de datos:
Estadística descriptiva unidimensional
Variables cualitativasGráfico de sectores
Calificaciónes en Estadística Grupo A
suspenso18%
aprobado48%
notable24%
sobresaliente9%
matr. Honor1%
suspensoaprobadonotablesobresalientematr. Honor
Calificaciones nº de alumnos
suspenso 0,18
aprobado 0,48
notable 0,24
sobresaliente 0,09
matr. Honor 0,01
1
¿Cómo se hace el gráfico?
En un círculo se colocan las modalidades (suspenso, aprobado, …,matr.hornor) formando sectores cuya amplitud sea igual o proporcional a las frecuencias correspondientes
ii
ii
i fNn
nNππααπ 222
==⇒=
Tema 1 Descripción de datos:
Estadística descriptiva unidimensional
Variables cuantitativas discretas (valores sin agrupar)
Diagrama de barras
Calificaciones nº de alumnos
1 1
3 5
4 7
5 15
6 10
7 3
8 2
10 1
44
¿Cómo se hace el gráfico?
Calificaciónes en Estadística Grupo A
0
2
4
6
8
10
12
14
16
1 2 3 4 5 6 7 8 9 10
Calificaciones
En un eje horizontal se colocan las modalidades (respetando la distancia entre ellas) y se trazan barras cuya longitud sea igual o proporcional a las frecuencias
Tema 1 Descripción de datos:
Estadística descriptiva unidimensional
Variables cuantitativas discretas (valores sin agrupar)Definición de función de distribución o acumulativafunción de distribución o acumulativa
La función de distribución asociada a una variable estadística X que notaremos con F viene dada por:
Donde F(x) es la proporción de elementos en la población que presenta valores inferiores o iguales a x)(
:xFx
RRF→→
Ejemplo: La tabla siguiente muestra las calificaciones de un grupo de alumnos
Calificacionesnº de alumnos
Frec. Abs. Acum.
Frec. Relat.Acum
1 1 1 0,023
3 5 6 0,136
4 7 13 0,295
5 15 28 0,636
6 10 38 0,864
7 3 41 0,932
8 2 43 0,97
Por, ejemplo, según la variable Calificacionesde la tabla podemos afirmar que F(0)=0
F(0,5) = 0; F(1)=1/44=0,023; F(4,5)=13/44=0,295; F(10)=44/44=1; F(20)=44/44=1, etc.
7
10 1 44 1
Pregunta: ¿Qué representa F(2)?Respuesta: Simplemente la proporción de alumnos en la población que tienen 2 o menospuntos de calificación. Mira la tabla y compruebaque esa proporción es justamente 0,023, por lo que F(2)=0,023
Tema 1 Descripción de datos: Estadística descriptiva unidimensional
Variables cuantitativas discretas (valores sin agrupar)Definición de Curva acumulativaCurva acumulativa:
Es la representación gráfica de la función acumulativa
¿Cómo se hace el gráfico?En un eje horizontal se colocan las modalidades (calificaciones), respetando la distancia entre ellasy en eje vertical las frecuencias acumuladas. Se colocan los puntos (xi, Fi) en el plano, se trazansegmentos horizontales, cuyas ordenadas respondan a la definición de F(x). Observa que entre dosmodalidades consecutivas de la variable [xi, xi+1), la función F permanece constante e igual a Fi
(segmento horizontal). La función dará un salto justo en xi+1 que valdrá Fi+1.
Calificacionesnº de alumnos
Frec. Abs. Acum.
Frec. Relat.Acum
1 1 1 0,023
3 5 6 0,136
4 7 13 0,295
5 15 28 0,636
6 10 38 0,864
7 3 41 0,932
8 2 43 0,977
10 1 44 1
Curva acumulativa
0,023
0,136
0,295
0,636
0,8640,932
0,977 1
0,000
0,200
0,400
0,600
0,800
1,000
1,200
0 2 4 6 8 10 12
CalificacionesFr
ecue
ncia
Rel
ativ
a Ac
umul
ada
Por ejemplo, observa que para cualquier valor x (abscisa) del intervalo [1,3) el valor de F(x) (ordenada) es 0,023. Ídem para cualquier x de [7,8) el valor F(x) es 0,932
Tema 1 Descripción de datos: Estadística descriptiva unidimensional
Variables cuantitativas discretas (valores sin agrupar)Curva acumulativaCurva acumulativa:
Un modo visual equivalente se obtiene usando en el eje de ordenadas las frecuencias absolutas acumuladas. Esto sólo supone un cambio de escala en eje Y. Ahora las ordenadas son N por F(x).
Calificacionesnº de alumnos
Frec. Abs.Acum.
1 1 1
3 5 6
4 7 13
5 15 28
6 10 38
7 3 41
8 2 43
10 1 44
Curva acumulativa
1
6
13
28
3841
43 44
0
5
10
15
20
25
30
35
40
45
50
0 2 4 6 8 10 12
Calificaciones
Frec
uenc
ias
abso
luta
s ac
umul
adas
¿Cómo se hace el gráfico?En un eje horizontal se colocan las modalidades (calificaciones), respetando la distancia entre ellasy en eje vertical las frecuencias acumuladas. Se colocan los puntos (xi, Ni) en el plano. Como antes,en los intervalos [xi, xi+1) la curva es constante e igual a N por Fi, es decir, Ni
Dejamos que termines tú el gráfico del ejemplo, ¡ya casi está hecho!
Tema 1 Descripción de datos: Estadística descriptiva unidimensional
Distribuciones continuas (valores agrupados)Histograma
Con la distribución con modalidades expresadas en intervalos puede construirse el histograma, que consiste en representar en el eje horizontal los extremos de los intervalos y trazar sobre cada intervalo un rectángulo cuyo área sea igual o propor-cional a la frecuencia que le corresponde.
Para construir un rectángulo asociado al intervalo Ii de un área determinada nidebemos conocer base y altura. La base viene dada por la amplitud del intervalo ai = ei – ei-1. La altura, que notamos con hi es el cociente entre el área (ni) y la base (ai)
i
ii
iii
iii
anh
eea
eeI
=
−= −
−
1
1, extremos de intervalo
Tema 1 Descripción de datos: Estadística descriptiva unidimensional
Ejemplo de HistogramaPrimero determinamos las alturas y amplitudes
i
ii
iii
iii
anh
eea
eeI
=
−= −
−
1
1 , extremos de intervalo
SALARIO nºTRABAJADORES amplitud altura
1000-1200 20 200 0,1
1200-1560 18 360 0,05
1560-2040 48 480 0,1
2040-2400 18 360 0,05
2400-2700 6 300 0,02
Observa que estas fórmulas indicanque las áreas de los rectángulos son
Base x altura = ni
Pregunta: Cómo se ha obtenido la amplitud y altura para la fila 2
Respuesta: amplitud=360=1560-1200; altura=0,05=18/360
Tema 1 Descripción de datos: Estadística descriptiva unidimensional
Ejemplo de Histogramahi
SALARIO nºTRAB amplitud altura
1000-1200 20 200 0,1
1200-1560 18 360 0,05
1560-2040 48 480 0,1
2040-2400 18 360 0,05
2400-2700 6 300 0,02
20
18
48
186
Salario
1560
1200
1000
2040
2400
2700
0,1
0,05
0,02
Observa que la suma de las áreas los rectángulos del histograma es precisamente N = total trabajadores
Pregunta: ¿Variará el efecto visual o proporcionalidad del gráfico si usamos frecuenciasrelativas, en vez de absolutas, para obtener las alturas del gráfico? ¿qué vale en este caso el área total del histograma?
Respuesta: No varía, dado que todas las alturas se mantendrán proporcionales. El área vale 1.
i
i
i
ii a
Nnafh /==
Tema 1 Descripción de datos: Estadística descriptiva unidimensional
Ejemplo de Curva acumulativa
En el eje de abscisas se colocan los extremos de los intervalos. En el plano se colocan lospuntos de coordenadas (ei, Fi) o equivalentemente los puntos (ei, Ni). Luego se unen dichospuntos con segmentos.
¿Cómo se hace?
Curva acumulativa
0
20
38
86
104110
0
20
40
60
80
100
120
0 500 1000 1500 2000 2500 3000
Salarios
Frec
. Abs
ol. A
cum
. (Ni
)
SALARIO nº TRABAJ Ni
1000-1200 20 20
1200-1560 18 38
1560-2040 48 86
2040-2400 18 104
2400-2700 6 110
Observa que a diferencia del caso discreto, aquí no sabemos qué vale F(x) para un valor x dentro de los intervalos. Sólo sabemos lo que vale en los extremos superiores, para valores inferiores o iguales a e0 y para valores más altos que el extremo superior del último intervalo.
Tema 1 Descripción de datos: Estadística descriptiva unidimensional
Medidas de posición centralSon medidas resumen de los datos cuyos
valores se sitúan aproximadamente en el centro de la distribución
Entre los más usados están la Mediana, Media, Moda
Tema 1 Descripción de datos: Estadística descriptiva unidimensional
MedianaEs la solución de la ecuación F(x)=0,5Idea intuitiva: Supuestos ordenados los datos de menor a mayor, la mediana es un
valor que divide a la población en dos partes iguales. (50% por debajo y 50% por encima)Caso discreto (Recuerda que la función acumulativa presenta saltos en cada xi)
A) Si existe un xi tal que F(xi)=0,5 se toma como mediana el valor (xi+xi+1)/2B) Si existe un xi tal que F(xi-1)<0,5 y F(xi)>0,5, se toma como mediana xi
X Fi
X1=20 0,3
X2=25 0,5
X3=30 0,7
X4=50 1
A)
X Fi
X1=90 0,3
X2=93 0,4
X3=97 0,7
X4=98 1
B)
5,272
3025=
+=Me 97=Me
Tema 1 Descripción de datos: Estadística descriptiva unidimensional
MedianaEs la solución de la ecuación F(x)=0,5
Caso continuoA) Si existe un Ii tal que F(ei)=0,5 se toma como mediana el valor ei
B) Si existe un Ii tal que F(ei-1)<0,5 y F(ei)>0,5, se interpola con la fórmula:
ii
ii a
fFeMe 1
12/1 −
−−
+=i
i
ii a
nNNeMe 1
12/ −
−−
+=O equivalentemente:
A)B)X Fi
I1=20-25 0,3
I2=25-30 0,5
I3=30-50 0,7
I4=50-55 1
X Fi fi
I1=90-93 0,3
0,4
0,7
1
0,3
I2=93-97 0,4- 0,3=0,1
I3=97-99 0,7- 0,4=0,3
I4=99-100 1- 0,7=0,3
ii
ii a
fFeMe 1
12/1 −
−−
+=
Aplicamos la fórmula que usa frecuencias relativas
970,3 99-97=2
0,4
67,9723,0
4,05,097 =−
+=Me30=Me
Tema 1 Descripción de datos: Estadística descriptiva unidimensional
ModaCaso discreto: valor o valores de la variable con máxima frecuencia.
Ejemplos:
X Fi
20 0,3
25 0,5
30 0,7
50 1
X ni
90 3
93 4
97 7
98 1
X Fi fi
20 0,3
0,5
0,7
1
0,3
25 0,5-0,3=0,2
30 0,7-0,5=0,2
50 1-0,7=0,3
La distribución presenta dosfrecuencias máximas. Tienedos modas: 20 y 50
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Mo=97
Tema 1 Descripción de datos: Estadística descriptiva unidimensional
ModaCaso continuoCaso continuo: valor o valores de la variable con máxima densidad de frecuencia. Un intervalo modal es aquel que presenta mayor altura o densidad o densidad de frecuencia.
iiiii
iii a
hhhhhheMo
)()( 11
11
+−
−− −+−
−+= donde Ii es el intervalo de máxima
densidad hi (altura del histograma)
Ejemplo: Obtenga mediana y moda en la distribución de los salarios
SALARIOnºTRABAJ
1000-1200 20
1200-1560 18
1560-2040 48
2040-2400 18
2400-2700 6
Nota: Para la moda necesitamos amplitudes y alturasPara la mediana necesitamos frecuencias acumuladasy amplitud del intervalo mediano
iiiii
iii a
hhhhhheMo
)()( 11
11
+−
−− −+−
−+=
ii
ii a
nNNeMe 1
12/ −
−−
+=
SALARIO nº TRABAJ Ni amplitud altura
1000-1200 20 20
38
86
104
110
200 0,1
1200-1560 18 360 0,05
1560-2040 48 480 0,1
2040-2400 18 360 0,05
2400-2700 6 300 0,02
173048048
38551560 =−
+=Me
Tema 1 Descripción de datos: Estadística descriptiva unidimensional
Moda:i
iiii
iii a
hhhhhheMo
)()( 11
11
+−
−− −+−
−+=
Observa que hay dos intervalos de altura máxima igual a 0,1. Calculamos su valor para el primer intervalo y dejamos el otro para ti.
SALARIO nº TRABAJ Ni amplitud altura
1000-1200 20 20
38
86
104
110
200 0,1
1200-1560 18 360 0,05
1560-2040 48 480 0,1
2040-2400 18 360 0,05
2400-2700 6 300 0,02
33,1133200)05,01,0()01,0(
01,01000 =−+−
−+=Mo
Pregunta: ¿Cómo se interpreta el valor de la mediana 1730?Respuesta: El 50% de los trabajadores tienen salarios menores o iguales a 1730
Tema 1 Descripción de datos: Estadística descriptiva unidimensional
MediaCaso discreto
N
nxX
k
iii∑
== 1 ∑=
=k
iii fxX
1O equivalentemente:
•Caso continuo: Es exactamente igual, usando como valores de xi las marcas de clase de los intervalos (ci)
∑=
=k
iii fcX
1
Ejemplo: Obtenga la media de X en la distribución siguiente:
X Fi
20 0,3
25 0,5
30 0,7
50 1
Nota: observa que la distribución viene dada en frecuencias relativas acumuladas. Es preciso previamente obtener las frecuencias relativas sin acumular.
X Fi fi
0,3 0,3
0,2
0,2
0,3
0,5
0,7
1
Xi*fi
20 6=20*0,3
25 5=25*0,2
30 6=30*0,2
50 15=50*0,3
32156561
=+++==∑=
k
iii fxX
Tema 1 Descripción de datos: Estadística descriptiva unidimensional
MediaCaso continuoEjemplo: Obtenga la media salarial en la distribución siguiente
SALARIO nº TRABAJ
1000-1200 20
1200-1560 18
1560-2040 48
2040-2400 18
2400-2700 6
N
nxX
k
iii∑
== 1
Se necesita calcular previamente el total de trabajadores (N), las marcas de clase (ci) y los productos ci*ni.
SALARIO nº TRABAJ ci ci*ni
1000-1200 20 1100 22000
1200-1560 18 1380 24840
1560-2040 48 1800 86400
2040-2400 18 2220 39960
2400-2700 6 2550 15300
110 188500
64,1713110
15300...2200001 =++
==∑=
N
nxX
k
iii
Tema 1 Descripción de datos: Estadística descriptiva unidimensional
Otras medidas de posición: CuantilesSon medidas resumen de los datos cuyos valores dividen a la
población en partes iguales.Dado un valor alfa comprendido entre 0 y 1, se denomina cuantil de
orden alfa a la solución de la ecuación F(x)=alfa, siendo F la función acumulativa.
Entre los más usados están los Cuartiles, los Deciles y los Percentiles, los cuales dividen a la población en 4, 10 y 100 partes iguales, respectivamente.Cuartiles:
primer cuartil, Q1, de orden 0,25
75,0)3(75,04/35,0)2(5,04/225,0)1(25,04/1
=========
QFQFQF
ααα
segundo cuartil, Q2, de orden 0, 5
tercer cuartil, Q3, de orden 0,75
Q325% 25% 25% 25%Q1 Q2
Tema 1 Descripción de datos: Estadística descriptiva unidimensional
Otras medidas de posición: Deciles y Percentiles
10iF(Di)9 ..., 2, 1,i 10/ === iα decil , Di, de orden i/10
De modo similar se definen los percentiles de órdenes
100iF(Pi)99 ..., 2, 1,i 100/ === iα Percentil , Pi, de orden i/100
Cálculo de un cuantil de orden alfa
Caso discreto (Recuerda que la función acumulativa presenta saltos en cada xi)A) Si existe un xi tal que F(xi)=alfa se toma como cuantil el valor (xi+xi+1)/2B) Si existe un xi tal que F(xi-1)<alfa y F(xi)>alfa, se toma como cuantil xi
Caso continuoA) Si existe un Ii tal que F(ei)=alfa se toma como cuantil el valor eiB) Si existe un Ii tal que F(ei-1)<alfa y F(ei)>alfa, se interpola con la fórmula:
ii
ii a
nNNeC 1
1−
−−⋅
+=α
αO equivalentemente i
i
ii a
fFeC 1
1−
−−
+=α
α
Tema 1
Medidas de dispersiónSon medidas resumen de los datos cuyos
valores indican la mayor o menor variabilidad de los valores de la variable. Algunas de estas medidas como la varianza, desviación típica, etc., miden esta variabilidad respecto alguna medida de tendencia central como la media.
Entre los más usados están la Varianza, desviación típica, Recorrido o rango,
recorrido intercuartílico, Coeficiente de variación de Pearson.
Tema 1
VarianzaEs la media de las desviaciones al cuadrado de los valores de la variable respecto a su media
N
nXxXV
k
iii∑
=
−== 1
2
2)(
)( σ∑=
−==k
iii fXxXV
1
22 )()( σO Equivalente
2
1
2)( XfxXVk
iii −=∑
=2
1
2
)( XNnxXV
k
i
ii −=∑=
O Equivalente
Desviación típica
Es la raíz cuadrada de la varianza
N
nXxk
iii∑
=
−= 1
2)(σ
Tema 1
Rango o RecorridoR = es la diferencia entre el máximo y mínimo valores
de la variableRecorrido intercuartílicoRIQ=es la diferencia entre el tercer y primer cuartilRIQ = Q3-Q1Coeficiente de variación de PearsonEs el cociente entre la desviación típica y la media
XCVP σ
=
Nota: La ventaja de CVP es que es una medida de dispersión relativa ypermite efectuar comparaciones entre poblaciones. Se dirá que una variablees más o menos dispersa en una población u otra según sea mayor o menor el correspondiente coeficiente de variación de Pearson.
Tema 1
EjemploLa distribución de la edad de un grupo de escolares en un centro es la siguiente
EdadAños
N º escolares
567810
1207580601
Vamos a calcular la varianza, desviacióntípica, Recorrido, RIQ y CVP
R = 10-5=5 años
XCVP σ
=
Tema 1Ejemplo (Continuación)Para el cálculo de media, varianza, desviación típica y coeficiente de variación de Pearson necesitamos las columnas añadidas a la tabla original
Edad N º escolares xi*ni xi^2*ni
5 120 600 3000
6 75 450 2700
7 80 560 3920
8 60 480 3840
10 1 10 100
336 2100 13560
138,1295,1 ==σ
25,633621001 ===
∑=
N
nxX
k
iii
295,125,6336
13560)( 22
1
2
=−=−=∑=
XNnxXV
k
i
ii
182,025,6
138,1===
XCVP σ
Tema 1Ejemplo (Continuación)Para el cálculo del recorrido intercuartílico necesitamos el primer y tercer cuartiles. Las columnas de frecuencias acumuladas nos permite realizar el cálculo
25,0)1(25,0 =→= QFα
Edad N ºescolares
Ni Fi
5 120 120 0,35714286
6 75 195 0,58035714
7 80 275 0,81845238
8 60 335 0,99702381
10 1 336 1
75,0)3(75,0 =→= QFα
Observa que el primer valor Fi que supera 0,25 es 0,3357 al que corresponde un valor de la edad igual a 5 años
El primer valor Fi que supera 0,75 es 0,8184 al que corresponde un valor de la edad igual a 7 años
Q1=5; Q3=7; RIQ=7-5=2
Tema 1
Gráfico CajaEs una síntesis gráfica de la distribución de frecuencias propia del análisis
exploratorio de datos.Términos necesarios para su construcción:
Fronteras interioresFrontera interior inferior f1=Q1-1,5RIQFrontera interior superior f2=Q3+1,5RIQ
Fronteras exterioresFrontera exterior inferior F1=Q1-3RIQFrontera exterior superior F2=Q3+3RIQ
Valores adyacentes:Valor adyacente inferior VAI=valor en la distribución más próximo por exceso a la frontera interior inferior.Valor adyacente superior VAS=valor en la distribución más próximo por defecto a la frontera interior superio
Valores anómalosMedios
Inferiores: valores de la distribución entre F1 y f1.Superiores: valores de la distribución entre f2 y F2
extremosInferiores: valores de la distribución menores a F1Superiores: valores de la distribución mayores a F2
Tema 1
EjemploLa distribución de la edad de un grupo de escolares en un centro es la siguiente
EdadAños
N º escolares
567812
1207580601
Vamos a calcular el gráfico Caja.
R IQ=2; Q1= 5; Q3=7; Me=6
Factor escala= 1,5 RIQ= 3
f1=5-3=2 F1=5-6=-1 VAI=5
f2=7+3=10 F2=7+6=13 VAS=8
No hay valores anómalos inferiores (ni medios, ni extremos). Hay un valor anómalo medio (12)
5 6 7 8 12
Tema 1
Índice de GINIEs una medida de concentración muy utilizada con variables de tipo económico, tales
como salarios, ingresos, gastos, etc. Permite conocer el grado de igualdad que existe en el reparto del total de una variable.
X n xn Ni Qi Fi qi
x1 n1 X1 n1 N1 Q1 F1 q1
x2 n2 X2 n2 N2 Q2 F2 q2
… … … … … … …
i ni Xi ni Ni Qi Fi qi
… … … … … … …
xk nk Xk nk Nk=N Qk=Total Fk=1 qk=1
N Total
Tema 1Índice de GINI
Cálculos necesarios:
∑
∑
=
=== k
jjj
i
jjj
ii
nx
nx
TotalQq
1
1∑=
=+++=i
jjjiii nxnxnxnxQ
12211 ...
( )
∑
∑−
=
−
=
−= 1
1
1
1k
ii
k
iii
GINI
F
qFI
Donde Fi = frecuencia relativa acumulada y Qi y qi son los valores de las cantidades absolutas y relativas acumuladas.
Tema 1Índice de GINI: EJEMPLO
SALARIO nº TRABAJ ci ci*ni Ni Qi Fi qi Fi - qi
1000-1200 20 1100 22000 20 22000 0,182 0,117
0,248
0,707
0,919
1
0,065
1200-1560 18 1380 24840 38 46840 0,345 0,097
1560-2040 48 1800 86400 86 133240 0,782 0,075
2040-2400 18 2220 39960 104 173200 0,945 0,027
2400-2700 6 2550 15300 110 188500 1
( )117,0
945,0...345,0182,0027,0...097,0065,0
1
1
1
1 =++++++
=−
=
∑
∑−
=
−
=k
ii
k
iii
GINI
F
qFI
Tema 1
Curva de Lorenz
0
0,2
0,4
0,6
0,8
1
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Fi
qi
Curva de LorenzRepresentación gráfica de los puntos (Fi, qi)
(vea tabla anterior)
(0,182, 0,117)(0,345, 0,248)
Tema 1ANEXO teórico:
Comportamiento de la media frente a transformaciones lineales
Si se añade una constante A a los valores de una variable X, la nueva variable, Y=X+A, presenta una media igual a la de X más la constante A.
Si se multiplican los valores de una variable X por una constante B, la nueva variable Y=BX presenta una media igual a la de X por la constante B
En resumen:
Dada la variable X de media
XLa variable Y=BX+A tiene media igual a
AXBY +=
Tema 1ANEXO teórico:
Comportamiento de la varianza frente a transformaciones lineales
Si se añade una constante A a los valores de una variable X, la nueva variable, Y=X+A, presenta una varianza igual a la de X.
Si se multiplican los valores de una variable X por una constante B, la nueva variable Y=BX presenta una varianza igual a la de X por la constante B al cuadrado
En resumen:
Dada la variable X de varianza V(X)
La variable Y=BX+A tiene varianza igual a
)()( 2 XVBYV =
Tema 1ANEXO teórico:
Tipificación o estandarizaciónDada una variable X, se denomina tipificación a la transformación lineal consistente en restar la media y dividir por la desviación típica La nueva variable generada se denomina variable estandarizada o tipificadaGeneralmente se nota con la letra Z. Su media y desviación típica son respectivamente 0 y 1.
σXXZ −
=
Aplicando lo visto para esta transformación lineal
1;0 == ZZ σ