capitulo ii - weebly...con n observaciones, y una vez ordenados los datos en orden ascendente, es...
TRANSCRIPT
CAPITULO II
Medidas estadísticas
Objetivo
Calcular las medidas posición, de tendencia central, de
dispersión y de forma.
Contenido
Introducción
Medidas de posición
Medidas de tendencia central
Medidas de dispersión
Medidas de forma
Ejercicios
*
*
*
*
*
*
Estadística – Mtro. Ccs. Tomás Cahuich 42
2.1 INTRODUCCIÓN
2.1.1 Generalidades
Hasta este momento hemos visto como construir tablas y representar gráficamente un conjunto
de datos, pero estas técnicas no son suficientes para hacer comparaciones entre distintas
distribuciones de frecuencia. Para ellos es necesario definir una seria de números, a los que
llamaremos medidas descriptivas, y serán muy útiles cuando se trata de comparar distintas
situaciones o comportamientos de misma variable. En una población o muestra, las
características principales que resumen las medidas descriptivas son cuatro:
Medidas de posición
Medidas de tendencia central
Medidas de dispersión
Medidas de forma
Estas medidas descriptivas se muestran a continuación en un mapa conceptual y su respectiva
representación visual.
(a) Esquema general de las medidas descriptivas. (b) Representación gráfica de las medidas descriptivas
Medidas de
Tendencia central
Medidas de
Dispersión
Medidas de
Forma
Varianza
Sesgo
Curtosis Cuartiles
Deciles
Percentiles
Rango intercuartílico
Rango Moda
Mediana
Media
Desviación Estándar
Medidas descriptivas
Medidas de
Posición
Cuantiles
Estadística – Mtro. Ccs. Tomás Cahuich 43
2.2 MEDIDAS DE POSICIÓN
2.2.1 Introducción
Dentro del conjunto de medidas estadísticas, ocupan un lugar prioritario las denominadas
medidas de posición, debido, fundamentalmente, a que son las más utilizadas en nuestro
lenguaje diario. Las medidas de posición nos proporcionan un valor en torno al cual se
distribuyen las observaciones. Existen dos tipos de medidas de posición, las centrales y las no
centrales. Estas medidas no centrales son las que estudiaremos en esta sección, los cuantiles.
2.2.2 Los cuantiles
Los cuantiles es una medida de posición y se caracterizan porque dividen a la distribución en
partes iguales. Son tres los cuantiles que básicamente se utilizan: cuartiles, deciles y percentiles.
2.2.2.1 Los cuantiles en distribuciones no agrupadas
Cuartiles
Son tres valores de la variable que dividen a la distribución en cuatro partes, iguales, cada una
con el 25 % de las observaciones. La forma de determinar estos tres cuartiles en una distribución
con n observaciones, y una vez ordenados los datos en orden ascendente, es como sigue:
Primer cuartil Q1, es el valor de la variable que deja a su izquierda el primer 25 % de las
observaciones. Esto es, es el valor que ocupa el lugar n/4.
Segundo cuartil Q2, es el valor de la variable que deja a su izquierda el 50 % de las
observaciones; es el valor que ocupa el lugar 2n/4.
Tercer cuartil Q3, es el valor de la variable que deja a su izquierda el 75 % de las
observaciones; es el valor que ocupa el lugar 3n/4.
Para determinar los cuartiles, generalmente se calculan las frecuencias acumuladas y se busca
el dato que ocupa el lugar n/4 si es Q1, o 2n/4 si es Q2, o 3n/4 si es Q3.
Deciles
Son los nueve datos de la distribución que la dividen en diez partes iguales. Así, tendremos que:
El primer decil D1, es el valor de la variable que ocupa el lugar n/10.
El segundo decil D2, es el valor que ocupa el lugar 2n/10… y así sucesivamente, hasta el
noveno, que es el valor que ocupa el lugar 9n/10.
Percentiles
Estadística – Mtro. Ccs. Tomás Cahuich 44
Análogamente a las definiciones anteriores, los percentiles son aquellos valores de la
distribución que la dividen en cien partes iguales. Los noventa y nueve percentiles se
determinan de forma similar; así:
El primer percentil P1, es el valor de la variable que ocupa el lugar n/100.
El segundo es el valor que ocupa el lugar 2n/100…, y así sucesivamente, hasta llegar al
noventa y nueve percentil que es el valor de la variable que ocupa el lugar 99n/100.
2.2.2.2 Los cuantiles en distribuciones agrupadas en intervalos
Cuando por la naturaleza del fenómeno nos encontramos con una distribución agrupada en
intervalos, el cálculo de los cuantiles se determina de la siguiente manera:
Ci/q = Linf +
f
fnq
i
Ai 1
donde
Linf = Límite inferior del intervalo donde se encuentre la mediana.
f = La frecuencia acumulada hasta el intervalo anterior al del cuantil.
f =La frecuencia del intervalo donde se encuentra el cuantil.
A = Amplitud del intervalo.
n = Total de datos.
q = 4 con i = 1,2, 3 si son cuartiles
q = 10 con i = 1,2,.. 9 si son deciles
q = 100 con i = 1,2,… 99 si son percentiles.
2.2.3 Ejemplos
2.2.3.1 Datos no agrupados
Recuperando los datos de los tiempos que se llevaron en resolver un examen los 80 alumnos de
una universidad, encontrar (a) el segundo cuartil, (b) el noveno decil y (c) el percentil 80.
Solución: Los datos son los siguientes:
26 29 24 23 22 26 24 23 28 21 27 27 22 29 22 27
22 30 24 23 24 29 30 24 25 28 23 26 23 21 28 35
17 23 27 27 27 23 24 23 22 26 23 24 26 23 24 23
21 22 25 24 29 23 27 26 22 23 27 22 24 32 21 24
27 30 24 21 33 18 28 29 26 27 21 23 25 26 25 31
Lo primero que hay que hacer con estos datos es ordenarlos de menor mayor, lo cual tenemos
a continuación ordenados por columnas.
Estadística – Mtro. Ccs. Tomás Cahuich 45
17 21 22 22 23 23 24 24 24 25 26 27 27 28 29 30
18 21 22 23 23 23 24 24 24 26 26 27 27 28 29 31
21 21 22 23 23 23 24 24 25 26 26 27 27 28 29 32
21 22 22 23 23 23 24 24 25 26 26 27 27 29 30 33
21 22 22 23 23 23 24 24 25 26 27 27 28 29 30 35
a) Calculamos 2n/4 = 2(80/4) = 40, y observando en las columnas y buscando el dato
número 40, el cual es 24. 24 es entonces el segundo cuartil. Luego, hay un 50 % de
alumnos que terminaron la prueba por debajo de los 24 minutos.
b) Ahora, el valor buscado es, 9n/10 = 9(80/10) = 72, y observando en las columnas y
buscando el dato número 72, el cual es 29. 29 es entonces el noveno decil. Luego, hay
un 90 % de alumnos que terminaron la prueba por debajo de los 29 minutos.
c) El valor buscado es, 80n/100 = 80(80/100) = 64, y observando en las columnas y
buscando el dato número 64, el cual es 27. 27 es el percentil 80. Luego, hay un 80 % de
alumnos que terminaron la prueba por debajo de 27 minutos.
2.2.3.2 Datos agrupados en intervalos de frecuencia
En una clínica privada, se preguntó la edad de los pacientes y se tabuló la información
correspondiente, obteniéndose lo siguiente:
Edades Pacientes fa
10 – 19 10 10
20 – 29 20 30
30 – 39 25 55
40 – 49 15 70
50 – 59 40 110
60 – 69 50 160
70 – 79 40 200
200
Determínese: (a) El segundo cuartil, (b) el noveno decil y (c) el percentil 80
Solución
a) Calculamos 2n/4 = 2(200/4) = 100, y observando la columna de frecuencias
acumuladas, nos damos cuenta de que el intervalo en el que se encuentra esa frecuencia
es el 50 - 59; así:
5.5740
7010010504/2
Q años
Luego, hay un 50 % de pacientes con edad inferior a 57 años y medio.
b) Ahora, le frecuencia buscada es, 9n/10 = 9(200/10) = 180, luego, el noveno decil es el
siguiente:
Estadística – Mtro. Ccs. Tomás Cahuich 46
7540
160180107010/9
Q años
Por tanto, el 90 % de los pacientes tienen edades inferiores a 75 años.
c) Como la frecuencia buscada es, 80n/100 = 80(80/100) = 160. El percentil 80 será:
7050
1101601060100/80
Q
Luego, el 80 % de los pacientes tienen edades inferiores a 70 años.
2.3 MEDIDAS DE TENDENCIA CENTRAL
2.3.1 Introducción
En esta sección presentaremos varias medidas que definen el “centro” de una distribución de
frecuencias. Estas medidas muestran cuán típicos son los valores de una variable dentro de un
conjunto de datos, e incluso cuán factible es su ocurrencia, se observa una tendencia en los datos
a agruparse alrededor de un punto central y no en un sentido geométrico, sino en términos de
acumulación.
En resumen, cualquier medida que pretenda representar “el centro” de la distribución o el punto
de acumulación típico de los datos, será una medida de tendencia central. Los más usados son,
la moda, la mediana y la media aritmética.
2.3.2 Moda (Mo)
Se define a la moda como el dato que se presenta con mayor frecuencia en una distribución.
Se utiliza mayormente cuando trabajamos con datos cualitativos o datos cuantitativos discretos.
La moda no es tan útil en datos cuantitativos continuos, porque si los datos son verdaderamente
continuos esperaríamos pocos valores repetidos, si los hay.
La moda no es tan afectada por los valores extremos; es decir, la moda se puede utilizar para
distribuciones considerablemente dispersas. Si una distribución tiene una moda, se llama
unimodal, si tiene dos, es bimodal, Si tiene tres, trimodal, y así sucesivamente. Cuando esto
ocurre, la moda es un indicador de la presencia de una variable que no se ha considerado, de la
presencia de cierta tendencia o polarizaciones en las variables cualitativas.
Estadística – Mtro. Ccs. Tomás Cahuich 47
¿Cómo obtener la moda? Se obtiene dependiendo de cómo tengamos los datos. En la siguiente
tabla se indica cuál es el proceso.
DATOS NO AGRUPADOS DATOS AGRUPADOS EN INTERVALOS DE UNA TF
Por inspección.
Solamente es ver cual es el de mayor
frecuencia
Linf +
11
1
ii
i
ff
fA
Donde Linf = Límite inferior del intervalo modal.
fi+1 = Frecuencia del intervalo inmediatamente superior al modal.
fi-1 = Frecuencia del intervalo inmediatamente anterior al modal.
A = Amplitud del Intervalo.
2.3.3 Mediana (Me)
Es el valor que ocupa el lugar central de un conjunto de valores observados de la variable
ordenados ya sea en forma creciente o decreciente, esto es, el que deja a un lado y a otro el
mismo número de observaciones.
Se puede aplicar no sólo a variables cuantitativas, sino también a las cualitativas de escala
ordinal. Si la variable es cualitativa nominal, no tiene ningún sentido intentar calcular la
mediana, ya que tales escalas no tienen ningún orden. Cuando las distribuciones son asimétricas,
según si la cola más larga está a la derecha o a la izquierda, la mediana es una mejor medida de
la tendencia central. Debido a que la mediana depende tan solo del ordenamiento de los datos,
su valor no resulta afectado por aquellos números que se alejen considerablemente del resto de
los datos. La mediana depende exclusivamente del orden de los datos, por lo que podemos
asegurar que es calculable y además es única.
¿Cómo obtener la mediana? Se obtiene dependiendo de cómo tengamos los datos. En la
siguiente tabla se indica cuál es el proceso.
DATOS NO AGRUPADOS DATOS AGRUPADOS EN
INTERVALOS DE UNA TF
Si n es impar Si n es par
Linf +
i
i
f
fn
A1
2
Se ordenan los datos de menor a
mayor, o viceversa; se calcula el
subíndice (n+1)/2; en los datos
ordenados, se busca el dato X(n+1)/2,
es decir, aquel cuyo subíndice
corresponda al subíndice
calculado.
Se ordenan los datos de menor a
mayor o viceversa; se toman los
datos centrales con subíndices
centrales n/2 y n/2+1, se suman
Xn/2 y Xn/2+1 y se dividen entre dos.
donde Linf = Límite inferior del intervalo donde se encuentre la mediana.
n = Es el total de datos.
1 i
f = La suma de las frecuencias anteriores al intervalo de la mediana.
fi =La frecuencia del intervalo de la mediana.
L = Amplitud del intervalo.
Estadística – Mtro. Ccs. Tomás Cahuich 48
2.3.4 Media aritmética ( x )
La mayor parte de las veces se refiere al promedio y se simboliza con una x , cuando se refiere
a una muestra y , cuando se trata de la media de la población. La media es la suma de todos
los datos entre el total de datos.
Debido a que la media, se calcula utilizando operaciones aritméticas, asumimos que los datos
son cuantitativos. Si la variable es cualitativa, no tiene sentido, en general, intentar calcular
medias de tales variables, porque no se pueden operar aritméticamente los valores de una
variable cualitativa. La media depende exclusivamente de los valores de una muestra, por lo que
podemos asegurar que todo conjunto de datos, tiene una media calculable y además es única.
¿Cómo obtener la media? Se obtiene dependiendo de cómo tengamos los datos. En la siguiente
tabla se indica cuál es el proceso.
DATOS NO AGRUPADOS DATOS AGRUPADOS EN TF
n
x
x
n
i
i 1
n
fx
x
n
j
jj
1
))((
donde x = Símbolo de la media.
n = Es el total de los datos, tanto en no agrupados como agrupados.
n
i
ix1
= La suma de todos los datos.
n
j
jj fx1
))(( = La suma de todas las multiplicaciones de cada punto medio del intervalo
por su frecuencia.
2.3.5 Ejemplos
2.3.5.1 Datos no agrupados
Tomando los mismos datos de los tiempos que se llevaron en resolver un examen los 80 alumnos
de una universidad, encontrar (a) la moda, (b) la mediana y (c) la media aritmética.
Solución:
Los datos son los siguientes:
26 29 24 23 22 26 24 23 28 21 27 27 22 29 22 27
22 30 24 23 24 29 30 24 25 28 23 26 23 21 28 35
17 23 27 27 27 23 24 23 22 26 23 24 26 23 24 23
21 22 25 24 29 23 27 26 22 23 27 22 24 32 21 24
27 30 24 21 33 18 28 29 26 27 21 23 25 26 25 31
Estadística – Mtro. Ccs. Tomás Cahuich 49
Lo primero que hay que hacer con estos datos es ordenarlos de menor mayor, lo cual tenemos
a continuación ordenados por columnas.
17 21 22 22 23 23 24 24 24 25 26 27 27 28 29 30
18 21 22 23 23 23 24 24 24 26 26 27 27 28 29 31
21 21 22 23 23 23 24 24 25 26 26 27 27 28 29 32
21 22 22 23 23 23 24 24 25 26 26 27 27 29 30 33
21 22 22 23 23 23 24 24 25 26 27 27 28 29 30 35
a) La moda es la de mayor frecuencia y en este caso por inspección vemos que el dato que
más se repite es 23. Por lo tanto la moda es 23.
b) En este caso, el total de valores es 80, que es un número par, por lo tanto debemos
encontrar los valores Xn/2 y Xn/2+1. Xn/2 = 24 y Xn/2+1 = 24, por lo tanto la mediana es:
Mediana = 242
2424
c) Para encontrar la media aritmética, no es necesario ordenar los datos, simplemente hay
que sumar todos los datos y dividirlo entre el total de datos.
80
35333231)30(3)29(5)28()27(10)26(8)25(4)24(12)23(14)22(8)21(618171
n
x
x
n
i
i
04.2580
20031
n
x
x
n
i
i
El valor de la media es entonces 25.04.
2.3.5.2 Datos agrupados
Ejemplo 1: Tenemos a continuación las estaturas de un curso de 600 alumnos y se distribuyeron
de la siguiente tabla:
Estaturas Alumnos
1.50 – 1.54 80
1.55 – 1.59 100
1.60 – 1.64 200
1.65 – 1.69 150
1.70 – 1.74 70
600
Determínese la estatura modal.
Estadística – Mtro. Ccs. Tomás Cahuich 50
Solución
Lo primero será determinar el intervalo modal, que es aquel que tiene la mayor frecuencia
absoluta; en el ejemplo, el intervalo modal es el 1.60 – 1.64. Las frecuencias absolutas
inmediatamente anterior y posterior son 100 y 150, respectivamente; luego la estatura modal es:
Moda = Mo = Linf +
11
1
ii
i
ff
fA = 1.60 +
100150
15005.0 1.63
Ejemplo 2: De la misma tabla del ejemplo anterior, encontrar la mediana de las estaturas.
Solución
Lo primero que hay que hacer es la columna de frecuencias acumuladas.
Estaturas Alumnos fa
1.50 – 1.54 80 80
1.55 – 1.59 100 180
1.60 – 1.64 200 380
1.65 – 1.69 150 530
1.70 – 1.74 70 600
600
Una vez calculadas las frecuencias acumuladas, y como n/2 = 300, entonces el intervalo
mediano es el tercero, cuyo extremo inferior es 1.60 y su amplitud, 0.05. Luego, la estatura
mediana es:
Mediana = Me = 1.60 + 0.05 63.1200
180300
Ejemplo 3: A partir de la información de la siguiente tabla, sobre las estaturas de 100 alumnos,
determínese la estatura media de éstos:
Estaturas Alumnos
1.50 – 1.54 10
1.55 – 1.59 20
1.60 – 1.64 30
1.65 – 1.69 32
1.70 – 1.74 8
100
Solución
Al ser una distribución agrupada en intervalos, la fórmula que habrá de aplicarse es:
n
fx
x
n
j
jj
1
))((
Estadística – Mtro. Ccs. Tomás Cahuich 51
Para determinar la estatura media, lo primero que se debe hacer es calcular los puntos medios
de los intervalos. A continuación, formamos una cuarta columna de la multiplicación de los
puntos medios de clase por la frecuencia del intervalo, cuya suma dividida entre el total
reobservaciones proporciona la estatura media.
Estaturas Alumnos Puntos medio Frecuencia por punto medio
1.50 – 1.54 10 1.52 15.20
1.55 – 1.59 20 1.57 31.40
1.60 – 1.64 30 1.62 48.60
1.65 – 1.69 32 1.67 53.44
1.70 – 1.74 8 1.72 13.76
100 162.40
Por tanto, la estatura media del grupo es:
624.1100
40.162x
2.3.6 ¿Cuál medida de tendencia central es la mejor?
Solo queda hacer referencia a los criterios para elegir una u otra como representación de la
puntuación general de una variable. En general, preferiremos la media, primero porque se va a
usar en cálculos posteriores con mucha frecuencia y segundo porque es la más estable. Es decir,
de una muestra a otra varía menos que la mediana o la moda, esta más cerca la media de la
población de lo que están la mediana y la moda de estos valores calculados en la población.
Elegiremos la mediana como medida de tendencia central cuando la distribución sea muy
sesgada, cuando tenga valores muy extremos, ya que, en estos casos, la media se desplaza hacia
las puntuaciones extremas y no así la mediana. La media se ve afectada por todos los valores de
la variable. En el caso de encontrarnos ante una variable ordinal también elegiríamos la mediana
como medida de tendencia central. También, en el caso de tener una distribución de frecuencias
con intervalos de clase abiertos, es decir cuando el intervalo inferior o el superior carecen de
algún límite, por tanto nos resulta imposible calcular la media y tendríamos que calcular la
mediana.
Es aconsejable la moda en el caso en que la variable sea nominal y entonces cualquier operación
aritmética con los números que representan los valores de la variable está fuera de lugar. El otro
caso en que elegiremos la moda se produce cuando la mediana pertenezca a un intervalo abierto.
Para finalizar diremos que en algunos casos los tres índices de tendencia central son muy
parecidos. Si la distribución es simétrica y unimodal los tres coinciden. Cuanto más asimétrica
es una distribución más se alejan, la media se desplaza hacia la cola larga de la distribución,
siempre que estemos ante distribuciones unimodales.
Estadística – Mtro. Ccs. Tomás Cahuich 52
En cualquier caso, si las tres son muy diferentes se puede hacer referencia a más de uno de ellos
para que el lector posea más información. Se resume más información en la siguiente tabla:
Característica Moda Mediana Media
Más confiable (Para distribuciones normales y muchas otras empíricas) Menos confiable Requiere solo de escalas nominales Requiere solo observaciones clasificadas Punto debajo del cual y arriba del cual cae la mitad de observaciones “Centro de gravedad” de una distribución Influye en ella el valor especifico de cada observación Será igual en una distribución simétrica Será igual en una distribución normal Tendrá el valor más grande en una distribución sesgada positivamente Tendrá el valor más grande en una distribución sesgada negativamente Su valor no es ni el más grande ni el más pequeño en distribuciones asimétricas Es en sí mejor que otras operaciones aritméticas Es la más ampliamente utilizada en métodos estadísticos avanzados Puede estimarse más rápidamente en histogramas o polígonos de frecuencia Mejor para variables continuas para fines descriptivos Es igual a P50 y Q2
Tabla 3.1 Características de la moda, mediana y media
2.4 MEDIDAS DE DISPERSIÓN
2.4.1 Introducción
La variabilidad es una característica muy importante de un conjunto de datos, porque
proporciona información adicional que permite juzgar la confiabilidad de nuestra medida de
tendencia central, ya que si los datos se encuentran muy dispersos, entonces la variabilidad que
existe entre ellos será muy grande; sin embargo, si son un conjunto estrecho, la variabilidad será
muy pequeña, y la medida tendrá una mayor exactitud al ser tomada como medida de tendencia
central.
También permite hacer comparaciones entre diferentes muestras o poblaciones y distinguir
conjuntos de datos que presenten amplias o estrechas variaciones.
Las medidas de variación más usadas son el rango, la varianza y la desviación estándar. Éstas
se desarrollarán a continuación.
2.4.2 Recorrido o Rango (Ra)
Es la medida de variación más simple y se obtiene con la diferencia que existe entre el dato
mayor del conjunto con el dato menor del mismo. Desafortunadamente, esta medida no es muy
Estadística – Mtro. Ccs. Tomás Cahuich 53
satisfactoria, ya que no describe otras características de la distribución. Puede ser que un
conjunto de datos tenga el mismo rango que otro y sean muy diferentes entre sí.
Para encontrar el rango, solamente se busca el dato mayor y menor del conjunto de datos y se
realiza su diferencia y ese es el valor del rango.
Ejemplo
Determinar el rango para las calificaciones de estadística de dos grupos distintos de alumnos del
mismo curso son:
GRUPO A GRUPO B
Calificaciones Alumnos Calificaciones Alumnos
30 5 20 15
40 8 30 2
50 15 50 3
60 6 60 1
70 6 70 9
40 80 10
40
Solución
Como en el grupo A la mayor calificación es 70 y la menor es 30, el rango es: 70 – 30 = 40. En
el grupo B, el valor mayor es 80 y el menor 20; luego el rango es: 80 – 20 = 60. Por tanto, ya
sabemos que, a partir de esta medida de dispersión, que en el grupo B la media aritmética es
menos representativa, porque las calificaciones están muy dispersas.
Desafortunadamente, esta medida, que es la más sencilla, presenta una desventaja importante,
que se deriva del hecho de que en su cálculo sólo intervienen dos valores de la variable. El
ejemplo siguiente lo pone de manifiesto. Supongamos que en el ejemplo anterior, las
calificaciones del grupo A son las mismas, pero las del grupo B ahora son:
GRUPO B
Calificaciones Alumnos
40 30
80 10
40
En esta situación, nos encontraríamos con que los dos grupos tienen la misma media e igual
rango, y, sin embargo, la dispersión de los dos grupos es distinta.
2.4.3 Recorrido o rango intercuartílico (Ri)
Es una medida de dispersión absoluta que nos indica la mitad de la longitud del intervalo en el
que están el 50 por 100 de los valores centrales. Su expresión es:
Estadística – Mtro. Ccs. Tomás Cahuich 54
Ri = Q3 – Q1
Donde: Ri = Rango intercuartílico.
Q3 = Es el tercer cuartil.
Q1 = Es el primer cuartil.
Su interpretación es muy sencilla: Si Ri es pequeño, siempre teniendo en cuenta las medidas en
que viene dada la variable, será indicativo de poca dispersión. Y, a la inversa, si Ri es grande,
expresará gran dispersión. Esta medida de dispersión adolece de la misma limitación que el
rango, y es que solo utiliza dos valores de la variable, ignorando el resto. Este inconveniente
pone de manifiesto la necesidad de introducir otras medidas de dispersión en las que intervengan
todos los valores de la variable.
Ejemplo
La distribución de edades de las personas que visitan una piscina municipal es:
Edades Frecuencia F. Acumulada
10 – 19 15 15
20 – 29 25 40
30 – 39 12 52
40 – 49 8 60
50 – 59 12 72
72
Determínese la dispersión o variabilidad de la variable de edad, a partir del rango intercuartílico.
Solución
Como n/4 = 72/4 = 18, y como 3n/4 = 3(72/4) = 54, entonces,
2.2125
151810201
Q y 5.42
8
525410403
Q
Entonces:
𝑅𝑖 = 𝑄3 − 𝑄1 = 42.5 − 21.2 = 21.3
2.4.4 Varianza y Desviación estándar
Dos medidas de dispersión que tienen en cuenta cómo se distribuyen todas las observaciones en
los datos, son la varianza y su raíz cuadrada, la desviación estándar.
Estadística – Mtro. Ccs. Tomás Cahuich 55
La varianza de una muestra mide el promedio del cuadrado de las diferencias entre cada
observación y su media.
La varianza mide la mayor o menor dispersión de los valores de la variable respecto a la
media aritmética.
Cuanto mayor sea la varianza mayor dispersión existirá y por tanto menor
representatividad tendrá la media aritmética.
La varianza se expresa en las mismas unidades que la variable analizada, pero elevadas
al cuadrado.
La desviación estándar de una muestra es sólo la raíz cuadrada positiva de la varianza.
La varianza y la desviación estándar son siempre, mayores o iguales que cero.
Cuando la desviación estándar es cero, no hay dispersión. Esto sólo podrá ocurrir si todos
los datos son iguales.
¿Cómo obtengo la varianza y la desviación estándar? Se obtienen dependiendo de cómo
tengamos los datos y de si estamos hablando de la población o de la muestra. En la siguiente
tabla se indica cuál es el proceso.
DATOS NO AGRUPADOS
MUESTRA POBLACIÓN
1
1
2
2
n
xx
s
n
i
i
N
xN
i
i
1
2
2
DATOS AGRUPADOS EN TF
1
2
11
2
2
nn
fxfxn
s
n
i
ii
n
i
ii
2
2
11
2
2
N
fxfxN
N
i
ii
N
i
ii
Donde x = Media muestral.
= Media poblacional
n = Es el total de datos de la muestra.
N = Es el total de datos de la población.
n
i
i xx1
2)( = La suma de todas las desviaciones al cuadrado en la muestra.
N
i
i ux1
2)( = La suma de todas las desviaciones al cuadrado en la población.
n
i
ii fx1
2)( = La suma de todas las multiplicaciones de cada punto medio del intervalo al
cuadrado, por su frecuencia.
n
i
ii fx1
)( = La suma de todas las multiplicaciones de cada punto medio del intervalo por
su frecuencia.
Estadística – Mtro. Ccs. Tomás Cahuich 56
N
i
ii fx1
2)( = La suma de todas las multiplicaciones de cada punto medio del intervalo al
cuadrado, por su frecuencia.
N
i
ii fx1
)( = La suma de todas las multiplicaciones de cada punto medio del intervalo por
su frecuencia.
Ejemplo
Determínese la varianza y la desviación estándar para la siguiente distribución de frecuencias,
correspondiente a la clasificación de los 130 supermercados de la ciudad según el número de
empleados.
Intervalos Supermercados
0 – 9 20
10 – 19 45
20 – 29 32
30 – 39 25
40 – 49 8
130
Solución
Formemos las columnas correspondientes: xi, xifi, xi2, xi
2fi.
Intervalos f xi xifi xi
2 xi2fi
0 – 9 20 4.5 90 20.25 405
10 – 19 45 14.5 652.5 210.25 9461.25
20 – 29 32 24.5 784 600.25 19208
30 – 39 25 34.5 862.5 1190.25 29756.3
40 – 49 8 44.5 356 1980.25 15842
130 2745 74672.6
Por tanto, la media es:
1154.21130
2745x empleados
Y la varianza:
545.12816900
172415
16900
75350259707440
130
27456.746721302
2
2
2
11
2
2
N
fxfxNN
i
ii
N
i
ii
Este valor esta en empleados al cuadrado. Por último, la desviación estándar es:
113378.11545.1282 S empleados
Estadística – Mtro. Ccs. Tomás Cahuich 57
2.5 MEDIDAS DE FORMA
2.5.1 Introducción
Una tercera propiedad importante de un conjunto de datos es su forma, esto es, la manera en que
se distribuyen los datos. Esto permite cuantificar la forma de la distribución a partir de dos tipos
de medidas:
De asimetría.
De apuntamiento o curtosis.
2.5.2 Medidas de asimetría
Una distribución de datos puede ser simétrico o no. Si la distribución de los datos no es
simétrica, se le denomina asimétrica o sesgada. Aunque hay diferentes índices o coeficientes
de asimetría, los más utilizados son el de Fisher y el de Pearson.
Coeficiente de asimetría de Fisher
Es el más utilizado y mide la simetría con respecto a la media aritmética. Su expresión es:
3
1
3 )()(1
S
fxxn
S
n
i
ii
f
donde:
Sf = Coeficiente de asimetría de Fisher.
S = Desviación típica.
n = Número de observaciones.
n
i
ii fxx1
3 )()( = Es la suma de desviaciones respecto a la media, al cubo, multiplicadas
por las frecuencias.
La interpretación es la siguiente:
Si Sf = 0, entonces la distribución es simétrica o sin sesgo.
Si Sf > 0, entonces la distribución es asimétrica o sesgada a la derecha o positivo.
Si Sf < 0, entonces la distribución es asimétrica o sesgada izquierda o negativo.
Coeficiente de asimetría de Pearson
Esta es menos confiable que la anterior y se basa solo en la comparación de la media y la moda
y se aplica para distribuciones de forma de campana, moderadamente asimétrica y unimodal.
Pearson propuso el siguiente coeficiente:
Estadística – Mtro. Ccs. Tomás Cahuich 58
S
MoxS p
donde:
Sp = Coeficiente de asimetría de Pearson.
S = Desviación estándar.
Mo = Moda
La interpretación es la siguiente:
Si Sp = 0, entonces la distribución es simétrica o sin sesgo.
Si Sp > 0, entonces la distribución es asimétrica a la derecha o sesgada a la derecha.
Si Sp < 0, entonces la distribución es asimétrica a la izquierda o sesgada a la izquierda.
Gráficamente la asimetría se presenta de la siguiente forma:
Ejemplo
Se han clasificado las empresas de una ciudad por el número de empleados, obteniéndose la
siguiente información:
Intervalos f (Número de empleados)
5 – 14 8
15 – 24 10
25 – 34 12
35 – 44 14
45 – 54 6
50
Determínese el grado de simetría de la distribución a partir de los dos coeficientes estudiados.
Solución
Cómo las fórmulas de los coeficientes de Pearson y Fisher son, respectivamente:
S
MoxS p
y
3
1
3 )()(1
S
fxxn
S
n
i
ii
f
Necesitaremos formar las siguientes columnas:
Estadística – Mtro. Ccs. Tomás Cahuich 59
Puntos medios de la clase;
Los productos xifi;
xxi ;
2xxf ii ;
3xxf ii ;
Y las frecuencias acumuladas fac.
Intervalos xi fi xifi fac xxi 2xxi 2xxf ii 3xxi 3xxf ii
5 – 14 9.5 8 76 8 - 20 400 3200 - 8000 - 64000
15 – 24 19.5 10 195 18 - 10 100 1000 - 1000 - 10000
25 – 34 29.5 12 354 30 0 0 0 0 0
35 – 44 39.5 14 553 44 10 100 1400 1000 14000
45 – 54 49.5 6 297 50 20 400 2400 8000 48000
50 1475 8000 - 12000
Luego:
29.550
1475x
3.38126
61035
oM
16050
80002 S
6.12160 S
Como para que el coeficiente de Pearson tenga interpretación válida necesitamos que la variable
se distribuya de forma de campana, moderadamente asimétrica y unimodal (esto último y lo
hemos verificado), es preciso realizar la representación gráfica de la distribución.
Luego,
S
MoxS p
= 66.0
6.12
3.3830
pS
Y el de Fisher:
810
1214
6
0
5
10
15
1 2 3 4 5
Empleados
Nú
mero
de e
mp
resas
Estadística – Mtro. Ccs. Tomás Cahuich 60
3
1
3 )()(1
S
fxxn
S
n
i
ii
f
= 128.087.860
)12000)(50/1(
fS
En este ejemplo, los valores de los coeficientes indican que se trata de una distribución
ligeramente asimétrica o sesgada a la izquierda.
2.5.3 Medidas de apuntamiento o curtosis
Miden el mayor o menor apuntamiento central de una distribución con respecto a la distribución
normal. Estas medidas se aplican a distribuciones unimodales, simétricas o ligeramente
asimétricas, y tratan de analizar que ocurre en la zona central de la distribución. En este sentido,
la mayor o menor concentración de frecuencias en torno a la media y en la zona central de la
distribución dará lugar a una distribución más o menos apuntada, distinguiéndose entre:
Leptocúrticas: Distribuciones más apuntadas que la normal.
Mesocúrticas: Distribuciones con apuntamiento normal.
Platicúrticas: Distribuciones menos apuntadas que la normal.
Leptocúrtica Mesocúrtica Platicúrtica
Para medir el mayor apuntamiento, se pueden utilizar diferentes coeficientes, pero merece
destacarse, por ser el más utilizado, el de Fisher. El coeficiente de apuntamiento de Fisher se
define como:
3
)()(1
4
1
4
S
fxxn
A
n
i
ii
f
donde:
Af = Coeficiente de apuntamiento de Fisher.
S = Desviación típica.
n = Número de observaciones.
Estadística – Mtro. Ccs. Tomás Cahuich 61
n
i
ii fxx1
4 )()( = Es la suma de desviaciones respecto a la media, elevadas a la cuarta
potencia, ponderadas por las frecuencias.
La interpretación es la siguiente:
Si Af > 0, entonces la distribución es leptocúrtica.
Si Af = 0, entonces la distribución es mesocúrtica.
Si Af < 0, entonces la distribución es platicúrtica.
Ejemplo
Para estudiar el apuntamiento o curtosis nos puede servir la distribución del ejemplo anterior
donde se estudio el sesgo, al ser una distribución ligeramente asimétrica y unimodal. Retomando
los datos del ejemplo anterior, y añadiendo las columnas siguientes, tendremos,
Intervalos xi fi xxi 4xxi 4xxf ii
5 – 14 10 8 - 20 160000 1280000
15 – 24 20 10 - 10 10000 100000
25 – 34 30 12 0 0 0
35 – 44 40 14 10 10000 140000
45 – 54 50 6 20 160000 960000
50 2480000
Tomando los resultados del ejemplo anterior. Entonces tenemos que,
03.137.25204
496003
)6.12(
)2480000)(50/1(3
)()(1
44
1
4
S
fxxn
A
n
i
ii
f
El valor obtenido para el coeficiente de apuntamiento indica que se trata de una distribución
ligeramente platicúrtica, esto es, algo menos apuntado que la normal.
2.6 EJERCICIOS
1. Completa el siguiente párrafo.
Tres medidas comúnmente usadas de _____________________ son la media, la moda y la
____________. Por lo general los valores se concentran alrededor del valor que ocurre con
mayor frecuencia, la ________. El punto medio que separa la distribución en dos partes de
igual tamaño es la ______________. La medida de tendencia central más segura, estable o
confiable tiende a ser la ______________. La _____________ es sensible al valor de cada
dato de la distribución; esto no ocurre en la _________ o la ___________. En una
distribución acampanada o mesocúrtica, la moda, la mediana y la media tienen el mismo
Estadística – Mtro. Ccs. Tomás Cahuich 62
___________. Una prueba puede ser tan difícil que hay muchos valores ______________ y
pocos extremadamente _______________. Tal distribución se describirá como sesgada
____________. En distribuciones asimétricas, la ______________ con frecuencia es la
medida descriptiva preferida de tendencia central. En una prueba muy fácil, la ___________
será mayor que la _____________, pero menor que la ______________. Si se encontrará
que la media CI en un grupo fuera 110 y la mediana 100, la distribución probablemente
estaría sesgada __________. Si un grupo tuviera una media de 89.3 y una mediana de 90.1,
el sesgo sería ____________. Si este grupo se combinara con un grupo talentoso, la forma
de la distribución de los valores de CI compuestos probablemente sería ____________. Si
pudiera desarrollarse una prueba de modo que cada valor se obtuviera con igual frecuencia,
la forma de la distribución sería ____________ y _____________.
2. Responde las siguientes preguntas con: rango, varianza y desviación estándar.
a) ¿Cuál es menos confiable?
b) ¿En cuál influye considerablemente el tamaño de la muestra?
c) ¿Cuál es más fácil de calcular?
d) Si se encuentra que la varianza es de 100, ¿cuál es la desviación estándar?
3. Cuál medida de tendencia central:
a) ¿Sería más apropiada para datos nominales?
b) ¿Queda mejor con el término “valor medio”?
c) ¿Sería sensible al valor numérico de cada dato?
d) ¿Se esperaría que fuera menor en una distribución sesgada hacia la izquierda?
4. Las preguntas 4 – 8 se refieren al siguiente arreglo de observaciones:
0, 0, 0, 1, 1, 2, 4, 7, 11
a) ¿Cuál es el valor numérico de la moda?
b) ¿Cuál es el valor numérico de la mediana?
c) ¿Cuál es el valor numérico de: X , n y la media?
d) Describa la forma de la distribución.
5. Responde las siguientes preguntas.
a) ¿Cuál medida de tendencia central se preferirá con variables categóricas como grupo
étnico o estado civil?
b) ¿Cuál es el término que menos concuerda con los otros?
a) X b) P50 c) Q2 d) Mediana
c) ¿Cuál es la opción que menos concuerda con las otras?
a) Moda b) Mediana c) el valor más popular d) el valor más frecuente
d) Si la mayoría de los estudiantes de este grupo de estadística han leído y estudiado este
capítulo tan cuidadosamente que saben las respuestas a casi todas las preguntas de estos
ejercicios, la distribución de calificación de la prueba probablemente sería
a) Normalmente distribuida b) sesgada hacia la izquierda c) sesgada hacia la derecha
Estadística – Mtro. Ccs. Tomás Cahuich 63
6. Se aplicó la misma prueba de ortografía a una muestra aleatoria de estudiantes de tres escuelas
diferentes y el resultado para cada escuela, cuando se graficó, se aproximó a una curva con
forma de campana. El resumen de resultados fue como sigue:
Escuela A Escuela B Escuela C
X 40 50 50
S 5 10 20
N 10 100 50
¿Cuál escuela parecería
a) ser más homogénea?
b) tener más estudiantes con calificaciones arriba de 75?
c) tener el mayor rango?
d) tener la menor calificación promedio de ortografía?
7. En un grupo de sexto grado con 36 estudiantes, se administra un técnica sociométrica de
“adivina quien” para evaluar el grado de relaciones positivas entre ellos para cada estudiante.
Los valores para los 36 estudiantes fueron:
22 3 12 2 0 7 1 9 1 28 5 2
2 2 33 4 8 13 2 3 1 28 10 14
22 1 4 15 1 52 5 8 3 11 17 1
a) ¿Cuál es el rango?
b) Calcule la media, la mediana y la moda.
c) Compare la distancia de Q1 (Cuartil 1) a Q2 (Cuartil 2), con la distancia de Q2 (Cuartil
2) a Q3 (Cuartil 3). El patrón sugiere asimetría hacia la ______________.
d) ¿Cuál es la varianza y la desviación estándar?
8. Una muestra aleatoria de seis estudiantes destacados fue seleccionada y se les aplicó un
examen de memoria. Los datos se listan abajo. Para esos datos, calcule a) la mediana, b) la
moda, c) el rango, d) los grados de libertad, e) la media, f) la varianza de la muestra y la g)
desviación estándar.
6 9 5 4 7 5
9. De la siguiente tabla de frecuencia, calcule la moda, mediana, media, varianza y desviación
estándar. La tabla de frecuencia que se da describe las velocidades a las que iban los conductores
multados por la policía de la ciudad de Monterrey. Estos conductores viajaban a través de una
zona con límite de velocidad de 30 km/hora sobre Garza Sada, que pasa por el Tecnológico de
Monterrey.
Velocidad Frecuencia
42 – 45 7
46 – 49 10
50 – 53 25
54 – 57 7
58 – 61 1