capitulo ii - weebly...con n observaciones, y una vez ordenados los datos en orden ascendente, es...

CAPITULO II

Medidas estadísticas

Objetivo

Calcular las medidas posición, de tendencia central, de

dispersión y de forma.

Contenido

Introducción

Medidas de posición

Medidas de tendencia central

Medidas de dispersión

Medidas de forma

Ejercicios

*

*

*

*

*

*

Estadística – Mtro. Ccs. Tomás Cahuich 42

2.1 INTRODUCCIÓN

2.1.1 Generalidades

Hasta este momento hemos visto como construir tablas y representar gráficamente un conjunto

de datos, pero estas técnicas no son suficientes para hacer comparaciones entre distintas

distribuciones de frecuencia. Para ellos es necesario definir una seria de números, a los que

llamaremos medidas descriptivas, y serán muy útiles cuando se trata de comparar distintas

situaciones o comportamientos de misma variable. En una población o muestra, las

características principales que resumen las medidas descriptivas son cuatro:

Medidas de posición

Medidas de tendencia central

Medidas de dispersión

Medidas de forma

Estas medidas descriptivas se muestran a continuación en un mapa conceptual y su respectiva

representación visual.

(a) Esquema general de las medidas descriptivas. (b) Representación gráfica de las medidas descriptivas

Medidas de

Tendencia central

Medidas de

Dispersión

Medidas de

Forma

Varianza

Sesgo

Curtosis Cuartiles

Deciles

Percentiles

Rango intercuartílico

Rango Moda

Mediana

Media

Desviación Estándar

Medidas descriptivas

Medidas de

Posición

Cuantiles


2.2 MEDIDAS DE POSICIÓN

2.2.1 Introducción

Dentro del conjunto de medidas estadísticas, ocupan un lugar prioritario las denominadas

medidas de posición, debido, fundamentalmente, a que son las más utilizadas en nuestro

lenguaje diario. Las medidas de posición nos proporcionan un valor en torno al cual se

distribuyen las observaciones. Existen dos tipos de medidas de posición, las centrales y las no

centrales. Estas medidas no centrales son las que estudiaremos en esta sección, los cuantiles.

2.2.2 Los cuantiles

Los cuantiles es una medida de posición y se caracterizan porque dividen a la distribución en

partes iguales. Son tres los cuantiles que básicamente se utilizan: cuartiles, deciles y percentiles.

2.2.2.1 Los cuantiles en distribuciones no agrupadas

Cuartiles

Son tres valores de la variable que dividen a la distribución en cuatro partes, iguales, cada una

con el 25 % de las observaciones. La forma de determinar estos tres cuartiles en una distribución

con n observaciones, y una vez ordenados los datos en orden ascendente, es como sigue:

Primer cuartil Q1, es el valor de la variable que deja a su izquierda el primer 25 % de las

observaciones. Esto es, es el valor que ocupa el lugar n/4.

Segundo cuartil Q2, es el valor de la variable que deja a su izquierda el 50 % de las

observaciones; es el valor que ocupa el lugar 2n/4.

Tercer cuartil Q3, es el valor de la variable que deja a su izquierda el 75 % de las

observaciones; es el valor que ocupa el lugar 3n/4.

Para determinar los cuartiles, generalmente se calculan las frecuencias acumuladas y se busca

el dato que ocupa el lugar n/4 si es Q1, o 2n/4 si es Q2, o 3n/4 si es Q3.

Deciles

Son los nueve datos de la distribución que la dividen en diez partes iguales. Así, tendremos que:

El primer decil D1, es el valor de la variable que ocupa el lugar n/10.

El segundo decil D2, es el valor que ocupa el lugar 2n/10… y así sucesivamente, hasta el

noveno, que es el valor que ocupa el lugar 9n/10.

Percentiles


Análogamente a las definiciones anteriores, los percentiles son aquellos valores de la

distribución que la dividen en cien partes iguales. Los noventa y nueve percentiles se

determinan de forma similar; así:

El primer percentil P1, es el valor de la variable que ocupa el lugar n/100.

El segundo es el valor que ocupa el lugar 2n/100…, y así sucesivamente, hasta llegar al

noventa y nueve percentil que es el valor de la variable que ocupa el lugar 99n/100.

2.2.2.2 Los cuantiles en distribuciones agrupadas en intervalos

Cuando por la naturaleza del fenómeno nos encontramos con una distribución agrupada en

intervalos, el cálculo de los cuantiles se determina de la siguiente manera:

Ci/q = Linf +

f

fnq

i

Ai 1

donde

Linf = Límite inferior del intervalo donde se encuentre la mediana.

f = La frecuencia acumulada hasta el intervalo anterior al del cuantil.

f =La frecuencia del intervalo donde se encuentra el cuantil.

A = Amplitud del intervalo.

n = Total de datos.

q = 4 con i = 1,2, 3 si son cuartiles

q = 10 con i = 1,2,.. 9 si son deciles

q = 100 con i = 1,2,… 99 si son percentiles.

2.2.3 Ejemplos

2.2.3.1 Datos no agrupados

Recuperando los datos de los tiempos que se llevaron en resolver un examen los 80 alumnos de

una universidad, encontrar (a) el segundo cuartil, (b) el noveno decil y (c) el percentil 80.

Solución: Los datos son los siguientes:

26 29 24 23 22 26 24 23 28 21 27 27 22 29 22 27

22 30 24 23 24 29 30 24 25 28 23 26 23 21 28 35

17 23 27 27 27 23 24 23 22 26 23 24 26 23 24 23

21 22 25 24 29 23 27 26 22 23 27 22 24 32 21 24

27 30 24 21 33 18 28 29 26 27 21 23 25 26 25 31

Lo primero que hay que hacer con estos datos es ordenarlos de menor mayor, lo cual tenemos

a continuación ordenados por columnas.


17 21 22 22 23 23 24 24 24 25 26 27 27 28 29 30

18 21 22 23 23 23 24 24 24 26 26 27 27 28 29 31

21 21 22 23 23 23 24 24 25 26 26 27 27 28 29 32

21 22 22 23 23 23 24 24 25 26 26 27 27 29 30 33

21 22 22 23 23 23 24 24 25 26 27 27 28 29 30 35

a) Calculamos 2n/4 = 2(80/4) = 40, y observando en las columnas y buscando el dato

número 40, el cual es 24. 24 es entonces el segundo cuartil. Luego, hay un 50 % de

alumnos que terminaron la prueba por debajo de los 24 minutos.

b) Ahora, el valor buscado es, 9n/10 = 9(80/10) = 72, y observando en las columnas y

buscando el dato número 72, el cual es 29. 29 es entonces el noveno decil. Luego, hay

un 90 % de alumnos que terminaron la prueba por debajo de los 29 minutos.

c) El valor buscado es, 80n/100 = 80(80/100) = 64, y observando en las columnas y

buscando el dato número 64, el cual es 27. 27 es el percentil 80. Luego, hay un 80 % de

alumnos que terminaron la prueba por debajo de 27 minutos.

2.2.3.2 Datos agrupados en intervalos de frecuencia

En una clínica privada, se preguntó la edad de los pacientes y se tabuló la información

correspondiente, obteniéndose lo siguiente:

Edades Pacientes fa

10 – 19 10 10

20 – 29 20 30

30 – 39 25 55

40 – 49 15 70

50 – 59 40 110

60 – 69 50 160

70 – 79 40 200

200

Determínese: (a) El segundo cuartil, (b) el noveno decil y (c) el percentil 80

Solución

a) Calculamos 2n/4 = 2(200/4) = 100, y observando la columna de frecuencias

acumuladas, nos damos cuenta de que el intervalo en el que se encuentra esa frecuencia

es el 50 - 59; así:

5.5740

7010010504/2

Q años

Luego, hay un 50 % de pacientes con edad inferior a 57 años y medio.

b) Ahora, le frecuencia buscada es, 9n/10 = 9(200/10) = 180, luego, el noveno decil es el

siguiente:


7540

160180107010/9

Q años

Por tanto, el 90 % de los pacientes tienen edades inferiores a 75 años.

c) Como la frecuencia buscada es, 80n/100 = 80(80/100) = 160. El percentil 80 será:

7050

1101601060100/80

Q

Luego, el 80 % de los pacientes tienen edades inferiores a 70 años.

2.3 MEDIDAS DE TENDENCIA CENTRAL

2.3.1 Introducción

En esta sección presentaremos varias medidas que definen el “centro” de una distribución de

frecuencias. Estas medidas muestran cuán típicos son los valores de una variable dentro de un

conjunto de datos, e incluso cuán factible es su ocurrencia, se observa una tendencia en los datos

a agruparse alrededor de un punto central y no en un sentido geométrico, sino en términos de

acumulación.

En resumen, cualquier medida que pretenda representar “el centro” de la distribución o el punto

de acumulación típico de los datos, será una medida de tendencia central. Los más usados son,

la moda, la mediana y la media aritmética.

2.3.2 Moda (Mo)

Se define a la moda como el dato que se presenta con mayor frecuencia en una distribución.

Se utiliza mayormente cuando trabajamos con datos cualitativos o datos cuantitativos discretos.

La moda no es tan útil en datos cuantitativos continuos, porque si los datos son verdaderamente

continuos esperaríamos pocos valores repetidos, si los hay.

La moda no es tan afectada por los valores extremos; es decir, la moda se puede utilizar para

distribuciones considerablemente dispersas. Si una distribución tiene una moda, se llama

unimodal, si tiene dos, es bimodal, Si tiene tres, trimodal, y así sucesivamente. Cuando esto

ocurre, la moda es un indicador de la presencia de una variable que no se ha considerado, de la

presencia de cierta tendencia o polarizaciones en las variables cualitativas.


¿Cómo obtener la moda? Se obtiene dependiendo de cómo tengamos los datos. En la siguiente

tabla se indica cuál es el proceso.

DATOS NO AGRUPADOS DATOS AGRUPADOS EN INTERVALOS DE UNA TF

Por inspección.

Solamente es ver cual es el de mayor

frecuencia

Linf +

11

1

ii

i

ff

fA

Donde Linf = Límite inferior del intervalo modal.

fi+1 = Frecuencia del intervalo inmediatamente superior al modal.

fi-1 = Frecuencia del intervalo inmediatamente anterior al modal.

A = Amplitud del Intervalo.

2.3.3 Mediana (Me)

Es el valor que ocupa el lugar central de un conjunto de valores observados de la variable

ordenados ya sea en forma creciente o decreciente, esto es, el que deja a un lado y a otro el

mismo número de observaciones.

Se puede aplicar no sólo a variables cuantitativas, sino también a las cualitativas de escala

ordinal. Si la variable es cualitativa nominal, no tiene ningún sentido intentar calcular la

mediana, ya que tales escalas no tienen ningún orden. Cuando las distribuciones son asimétricas,

según si la cola más larga está a la derecha o a la izquierda, la mediana es una mejor medida de

la tendencia central. Debido a que la mediana depende tan solo del ordenamiento de los datos,

su valor no resulta afectado por aquellos números que se alejen considerablemente del resto de

los datos. La mediana depende exclusivamente del orden de los datos, por lo que podemos

asegurar que es calculable y además es única.

¿Cómo obtener la mediana? Se obtiene dependiendo de cómo tengamos los datos. En la

siguiente tabla se indica cuál es el proceso.

DATOS NO AGRUPADOS DATOS AGRUPADOS EN

INTERVALOS DE UNA TF

Si n es impar Si n es par

Linf +

i

i

f

fn

A1

2

Se ordenan los datos de menor a

mayor, o viceversa; se calcula el

subíndice (n+1)/2; en los datos

ordenados, se busca el dato X(n+1)/2,

es decir, aquel cuyo subíndice

corresponda al subíndice

calculado.

Se ordenan los datos de menor a

mayor o viceversa; se toman los

datos centrales con subíndices

centrales n/2 y n/2+1, se suman

Xn/2 y Xn/2+1 y se dividen entre dos.

donde Linf = Límite inferior del intervalo donde se encuentre la mediana.

n = Es el total de datos.

1 i

f = La suma de las frecuencias anteriores al intervalo de la mediana.

fi =La frecuencia del intervalo de la mediana.

L = Amplitud del intervalo.


2.3.4 Media aritmética ( x )

La mayor parte de las veces se refiere al promedio y se simboliza con una x , cuando se refiere

a una muestra y , cuando se trata de la media de la población. La media es la suma de todos

los datos entre el total de datos.

Debido a que la media, se calcula utilizando operaciones aritméticas, asumimos que los datos

son cuantitativos. Si la variable es cualitativa, no tiene sentido, en general, intentar calcular

medias de tales variables, porque no se pueden operar aritméticamente los valores de una

variable cualitativa. La media depende exclusivamente de los valores de una muestra, por lo que

podemos asegurar que todo conjunto de datos, tiene una media calculable y además es única.

¿Cómo obtener la media? Se obtiene dependiendo de cómo tengamos los datos. En la siguiente


DATOS NO AGRUPADOS DATOS AGRUPADOS EN TF

n

x

x

n

i

i 1

n

fx

x

n

j

jj

1

))((

donde x = Símbolo de la media.

n = Es el total de los datos, tanto en no agrupados como agrupados.

n

i

ix1

= La suma de todos los datos.

n

j

jj fx1

))(( = La suma de todas las multiplicaciones de cada punto medio del intervalo

por su frecuencia.

2.3.5 Ejemplos

2.3.5.1 Datos no agrupados

Tomando los mismos datos de los tiempos que se llevaron en resolver un examen los 80 alumnos

de una universidad, encontrar (a) la moda, (b) la mediana y (c) la media aritmética.

Solución:

Los datos son los siguientes:

26 29 24 23 22 26 24 23 28 21 27 27 22 29 22 27

22 30 24 23 24 29 30 24 25 28 23 26 23 21 28 35

17 23 27 27 27 23 24 23 22 26 23 24 26 23 24 23

21 22 25 24 29 23 27 26 22 23 27 22 24 32 21 24

27 30 24 21 33 18 28 29 26 27 21 23 25 26 25 31


Lo primero que hay que hacer con estos datos es ordenarlos de menor mayor, lo cual tenemos

a continuación ordenados por columnas.

17 21 22 22 23 23 24 24 24 25 26 27 27 28 29 30

18 21 22 23 23 23 24 24 24 26 26 27 27 28 29 31

21 21 22 23 23 23 24 24 25 26 26 27 27 28 29 32

21 22 22 23 23 23 24 24 25 26 26 27 27 29 30 33

21 22 22 23 23 23 24 24 25 26 27 27 28 29 30 35

a) La moda es la de mayor frecuencia y en este caso por inspección vemos que el dato que

más se repite es 23. Por lo tanto la moda es 23.

b) En este caso, el total de valores es 80, que es un número par, por lo tanto debemos

encontrar los valores Xn/2 y Xn/2+1. Xn/2 = 24 y Xn/2+1 = 24, por lo tanto la mediana es:

Mediana = 242

2424

c) Para encontrar la media aritmética, no es necesario ordenar los datos, simplemente hay

que sumar todos los datos y dividirlo entre el total de datos.

80

35333231)30(3)29(5)28()27(10)26(8)25(4)24(12)23(14)22(8)21(618171

n

x

x

n

i

i

04.2580

20031

n

x

x

n

i

i

El valor de la media es entonces 25.04.

2.3.5.2 Datos agrupados

Ejemplo 1: Tenemos a continuación las estaturas de un curso de 600 alumnos y se distribuyeron

de la siguiente tabla:

Estaturas Alumnos

1.50 – 1.54 80

1.55 – 1.59 100

1.60 – 1.64 200

1.65 – 1.69 150

1.70 – 1.74 70

600

Determínese la estatura modal.


Solución

Lo primero será determinar el intervalo modal, que es aquel que tiene la mayor frecuencia

absoluta; en el ejemplo, el intervalo modal es el 1.60 – 1.64. Las frecuencias absolutas

inmediatamente anterior y posterior son 100 y 150, respectivamente; luego la estatura modal es:

Moda = Mo = Linf +

11

1

ii

i

ff

fA = 1.60 +

100150

15005.0 1.63

Ejemplo 2: De la misma tabla del ejemplo anterior, encontrar la mediana de las estaturas.

Solución

Lo primero que hay que hacer es la columna de frecuencias acumuladas.

Estaturas Alumnos fa

1.50 – 1.54 80 80

1.55 – 1.59 100 180

1.60 – 1.64 200 380

1.65 – 1.69 150 530

1.70 – 1.74 70 600

600

Una vez calculadas las frecuencias acumuladas, y como n/2 = 300, entonces el intervalo

mediano es el tercero, cuyo extremo inferior es 1.60 y su amplitud, 0.05. Luego, la estatura

mediana es:

Mediana = Me = 1.60 + 0.05 63.1200

180300

Ejemplo 3: A partir de la información de la siguiente tabla, sobre las estaturas de 100 alumnos,

determínese la estatura media de éstos:

Estaturas Alumnos

1.50 – 1.54 10

1.55 – 1.59 20

1.60 – 1.64 30

1.65 – 1.69 32

1.70 – 1.74 8

100

Solución

Al ser una distribución agrupada en intervalos, la fórmula que habrá de aplicarse es:

n

fx

x

n

j

jj

1

))((


Para determinar la estatura media, lo primero que se debe hacer es calcular los puntos medios

de los intervalos. A continuación, formamos una cuarta columna de la multiplicación de los

puntos medios de clase por la frecuencia del intervalo, cuya suma dividida entre el total

reobservaciones proporciona la estatura media.

Estaturas Alumnos Puntos medio Frecuencia por punto medio

1.50 – 1.54 10 1.52 15.20

1.55 – 1.59 20 1.57 31.40

1.60 – 1.64 30 1.62 48.60

1.65 – 1.69 32 1.67 53.44

1.70 – 1.74 8 1.72 13.76

100 162.40

Por tanto, la estatura media del grupo es:

624.1100

40.162x

2.3.6 ¿Cuál medida de tendencia central es la mejor?

Solo queda hacer referencia a los criterios para elegir una u otra como representación de la

puntuación general de una variable. En general, preferiremos la media, primero porque se va a

usar en cálculos posteriores con mucha frecuencia y segundo porque es la más estable. Es decir,

de una muestra a otra varía menos que la mediana o la moda, esta más cerca la media de la

población de lo que están la mediana y la moda de estos valores calculados en la población.

Elegiremos la mediana como medida de tendencia central cuando la distribución sea muy

sesgada, cuando tenga valores muy extremos, ya que, en estos casos, la media se desplaza hacia

las puntuaciones extremas y no así la mediana. La media se ve afectada por todos los valores de

la variable. En el caso de encontrarnos ante una variable ordinal también elegiríamos la mediana

como medida de tendencia central. También, en el caso de tener una distribución de frecuencias

con intervalos de clase abiertos, es decir cuando el intervalo inferior o el superior carecen de

algún límite, por tanto nos resulta imposible calcular la media y tendríamos que calcular la

mediana.

Es aconsejable la moda en el caso en que la variable sea nominal y entonces cualquier operación

aritmética con los números que representan los valores de la variable está fuera de lugar. El otro

caso en que elegiremos la moda se produce cuando la mediana pertenezca a un intervalo abierto.

Para finalizar diremos que en algunos casos los tres índices de tendencia central son muy

parecidos. Si la distribución es simétrica y unimodal los tres coinciden. Cuanto más asimétrica

es una distribución más se alejan, la media se desplaza hacia la cola larga de la distribución,

siempre que estemos ante distribuciones unimodales.


En cualquier caso, si las tres son muy diferentes se puede hacer referencia a más de uno de ellos

para que el lector posea más información. Se resume más información en la siguiente tabla:

Característica Moda Mediana Media

Más confiable (Para distribuciones normales y muchas otras empíricas) Menos confiable Requiere solo de escalas nominales Requiere solo observaciones clasificadas Punto debajo del cual y arriba del cual cae la mitad de observaciones “Centro de gravedad” de una distribución Influye en ella el valor especifico de cada observación Será igual en una distribución simétrica Será igual en una distribución normal Tendrá el valor más grande en una distribución sesgada positivamente Tendrá el valor más grande en una distribución sesgada negativamente Su valor no es ni el más grande ni el más pequeño en distribuciones asimétricas Es en sí mejor que otras operaciones aritméticas Es la más ampliamente utilizada en métodos estadísticos avanzados Puede estimarse más rápidamente en histogramas o polígonos de frecuencia Mejor para variables continuas para fines descriptivos Es igual a P50 y Q2

Tabla 3.1 Características de la moda, mediana y media

2.4 MEDIDAS DE DISPERSIÓN

2.4.1 Introducción

La variabilidad es una característica muy importante de un conjunto de datos, porque

proporciona información adicional que permite juzgar la confiabilidad de nuestra medida de

tendencia central, ya que si los datos se encuentran muy dispersos, entonces la variabilidad que

existe entre ellos será muy grande; sin embargo, si son un conjunto estrecho, la variabilidad será

muy pequeña, y la medida tendrá una mayor exactitud al ser tomada como medida de tendencia

central.

También permite hacer comparaciones entre diferentes muestras o poblaciones y distinguir

conjuntos de datos que presenten amplias o estrechas variaciones.

Las medidas de variación más usadas son el rango, la varianza y la desviación estándar. Éstas

se desarrollarán a continuación.

2.4.2 Recorrido o Rango (Ra)

Es la medida de variación más simple y se obtiene con la diferencia que existe entre el dato

mayor del conjunto con el dato menor del mismo. Desafortunadamente, esta medida no es muy


satisfactoria, ya que no describe otras características de la distribución. Puede ser que un

conjunto de datos tenga el mismo rango que otro y sean muy diferentes entre sí.

Para encontrar el rango, solamente se busca el dato mayor y menor del conjunto de datos y se

realiza su diferencia y ese es el valor del rango.

Ejemplo

Determinar el rango para las calificaciones de estadística de dos grupos distintos de alumnos del

mismo curso son:

GRUPO A GRUPO B

Calificaciones Alumnos Calificaciones Alumnos

30 5 20 15

40 8 30 2

50 15 50 3

60 6 60 1

70 6 70 9

40 80 10

40

Solución

Como en el grupo A la mayor calificación es 70 y la menor es 30, el rango es: 70 – 30 = 40. En

el grupo B, el valor mayor es 80 y el menor 20; luego el rango es: 80 – 20 = 60. Por tanto, ya

sabemos que, a partir de esta medida de dispersión, que en el grupo B la media aritmética es

menos representativa, porque las calificaciones están muy dispersas.

Desafortunadamente, esta medida, que es la más sencilla, presenta una desventaja importante,

que se deriva del hecho de que en su cálculo sólo intervienen dos valores de la variable. El

ejemplo siguiente lo pone de manifiesto. Supongamos que en el ejemplo anterior, las

calificaciones del grupo A son las mismas, pero las del grupo B ahora son:

GRUPO B

Calificaciones Alumnos

40 30

80 10

40

En esta situación, nos encontraríamos con que los dos grupos tienen la misma media e igual

rango, y, sin embargo, la dispersión de los dos grupos es distinta.

2.4.3 Recorrido o rango intercuartílico (Ri)

Es una medida de dispersión absoluta que nos indica la mitad de la longitud del intervalo en el

que están el 50 por 100 de los valores centrales. Su expresión es:


Ri = Q3 – Q1

Donde: Ri = Rango intercuartílico.

Q3 = Es el tercer cuartil.

Q1 = Es el primer cuartil.

Su interpretación es muy sencilla: Si Ri es pequeño, siempre teniendo en cuenta las medidas en

que viene dada la variable, será indicativo de poca dispersión. Y, a la inversa, si Ri es grande,

expresará gran dispersión. Esta medida de dispersión adolece de la misma limitación que el

rango, y es que solo utiliza dos valores de la variable, ignorando el resto. Este inconveniente

pone de manifiesto la necesidad de introducir otras medidas de dispersión en las que intervengan

todos los valores de la variable.

Ejemplo

La distribución de edades de las personas que visitan una piscina municipal es:

Edades Frecuencia F. Acumulada

10 – 19 15 15

20 – 29 25 40

30 – 39 12 52

40 – 49 8 60

50 – 59 12 72

72

Determínese la dispersión o variabilidad de la variable de edad, a partir del rango intercuartílico.

Solución

Como n/4 = 72/4 = 18, y como 3n/4 = 3(72/4) = 54, entonces,

2.2125

151810201

Q y 5.42

8

525410403

Q

Entonces:

𝑅𝑖 = 𝑄3 − 𝑄1 = 42.5 − 21.2 = 21.3

2.4.4 Varianza y Desviación estándar

Dos medidas de dispersión que tienen en cuenta cómo se distribuyen todas las observaciones en

los datos, son la varianza y su raíz cuadrada, la desviación estándar.


La varianza de una muestra mide el promedio del cuadrado de las diferencias entre cada

observación y su media.

La varianza mide la mayor o menor dispersión de los valores de la variable respecto a la

media aritmética.

Cuanto mayor sea la varianza mayor dispersión existirá y por tanto menor

representatividad tendrá la media aritmética.

La varianza se expresa en las mismas unidades que la variable analizada, pero elevadas

al cuadrado.

La desviación estándar de una muestra es sólo la raíz cuadrada positiva de la varianza.

La varianza y la desviación estándar son siempre, mayores o iguales que cero.

Cuando la desviación estándar es cero, no hay dispersión. Esto sólo podrá ocurrir si todos

los datos son iguales.

¿Cómo obtengo la varianza y la desviación estándar? Se obtienen dependiendo de cómo

tengamos los datos y de si estamos hablando de la población o de la muestra. En la siguiente


DATOS NO AGRUPADOS

MUESTRA POBLACIÓN

1

1

2

2

n

xx

s

n

i

i

N

xN

i

i

1

2

2

DATOS AGRUPADOS EN TF

1

2

11

2

2

nn

fxfxn

s

n

i

ii

n

i

ii

2

2

11

2

2

N

fxfxN

N

i

ii

N

i

ii

Donde x = Media muestral.

= Media poblacional

n = Es el total de datos de la muestra.

N = Es el total de datos de la población.

n

i

i xx1

2)( = La suma de todas las desviaciones al cuadrado en la muestra.

N

i

i ux1

2)( = La suma de todas las desviaciones al cuadrado en la población.

n

i

ii fx1

2)( = La suma de todas las multiplicaciones de cada punto medio del intervalo al

cuadrado, por su frecuencia.

n

i

ii fx1

)( = La suma de todas las multiplicaciones de cada punto medio del intervalo por

su frecuencia.


N

i

ii fx1

2)( = La suma de todas las multiplicaciones de cada punto medio del intervalo al

cuadrado, por su frecuencia.

N

i

ii fx1

)( = La suma de todas las multiplicaciones de cada punto medio del intervalo por

su frecuencia.

Ejemplo

Determínese la varianza y la desviación estándar para la siguiente distribución de frecuencias,

correspondiente a la clasificación de los 130 supermercados de la ciudad según el número de

empleados.

Intervalos Supermercados

0 – 9 20

10 – 19 45

20 – 29 32

30 – 39 25

40 – 49 8

130

Solución

Formemos las columnas correspondientes: xi, xifi, xi2, xi

2fi.

Intervalos f xi xifi xi

2 xi2fi

0 – 9 20 4.5 90 20.25 405

10 – 19 45 14.5 652.5 210.25 9461.25

20 – 29 32 24.5 784 600.25 19208

30 – 39 25 34.5 862.5 1190.25 29756.3

40 – 49 8 44.5 356 1980.25 15842

130 2745 74672.6

Por tanto, la media es:

1154.21130

2745x empleados

Y la varianza:

545.12816900

172415

16900

75350259707440

130

27456.746721302

2

2

2

11

2

2

N

fxfxNN

i

ii

N

i

ii

Este valor esta en empleados al cuadrado. Por último, la desviación estándar es:

113378.11545.1282 S empleados


2.5 MEDIDAS DE FORMA

2.5.1 Introducción

Una tercera propiedad importante de un conjunto de datos es su forma, esto es, la manera en que

se distribuyen los datos. Esto permite cuantificar la forma de la distribución a partir de dos tipos

de medidas:

De asimetría.

De apuntamiento o curtosis.

2.5.2 Medidas de asimetría

Una distribución de datos puede ser simétrico o no. Si la distribución de los datos no es

simétrica, se le denomina asimétrica o sesgada. Aunque hay diferentes índices o coeficientes

de asimetría, los más utilizados son el de Fisher y el de Pearson.

Coeficiente de asimetría de Fisher

Es el más utilizado y mide la simetría con respecto a la media aritmética. Su expresión es:

3

1

3 )()(1

S

fxxn

S

n

i

ii

f

donde:

Sf = Coeficiente de asimetría de Fisher.

S = Desviación típica.

n = Número de observaciones.

n

i

ii fxx1

3 )()( = Es la suma de desviaciones respecto a la media, al cubo, multiplicadas

por las frecuencias.

La interpretación es la siguiente:

Si Sf = 0, entonces la distribución es simétrica o sin sesgo.

Si Sf > 0, entonces la distribución es asimétrica o sesgada a la derecha o positivo.

Si Sf < 0, entonces la distribución es asimétrica o sesgada izquierda o negativo.

Coeficiente de asimetría de Pearson

Esta es menos confiable que la anterior y se basa solo en la comparación de la media y la moda

y se aplica para distribuciones de forma de campana, moderadamente asimétrica y unimodal.

Pearson propuso el siguiente coeficiente:


S

MoxS p

donde:

Sp = Coeficiente de asimetría de Pearson.

S = Desviación estándar.

Mo = Moda


Si Sp = 0, entonces la distribución es simétrica o sin sesgo.

Si Sp > 0, entonces la distribución es asimétrica a la derecha o sesgada a la derecha.

Si Sp < 0, entonces la distribución es asimétrica a la izquierda o sesgada a la izquierda.

Gráficamente la asimetría se presenta de la siguiente forma:

Ejemplo

Se han clasificado las empresas de una ciudad por el número de empleados, obteniéndose la

siguiente información:

Intervalos f (Número de empleados)

5 – 14 8

15 – 24 10

25 – 34 12

35 – 44 14

45 – 54 6

50

Determínese el grado de simetría de la distribución a partir de los dos coeficientes estudiados.

Solución

Cómo las fórmulas de los coeficientes de Pearson y Fisher son, respectivamente:

S

MoxS p

y

3

1

3 )()(1

S

fxxn

S

n

i

ii

f

Necesitaremos formar las siguientes columnas:


Puntos medios de la clase;

Los productos xifi;

xxi ;

2xxf ii ;

3xxf ii ;

Y las frecuencias acumuladas fac.

Intervalos xi fi xifi fac xxi 2xxi 2xxf ii 3xxi 3xxf ii

5 – 14 9.5 8 76 8 - 20 400 3200 - 8000 - 64000

15 – 24 19.5 10 195 18 - 10 100 1000 - 1000 - 10000

25 – 34 29.5 12 354 30 0 0 0 0 0

35 – 44 39.5 14 553 44 10 100 1400 1000 14000

45 – 54 49.5 6 297 50 20 400 2400 8000 48000

50 1475 8000 - 12000

Luego:

29.550

1475x

3.38126

61035

oM

16050

80002 S

6.12160 S

Como para que el coeficiente de Pearson tenga interpretación válida necesitamos que la variable

se distribuya de forma de campana, moderadamente asimétrica y unimodal (esto último y lo

hemos verificado), es preciso realizar la representación gráfica de la distribución.

Luego,

S

MoxS p

= 66.0

6.12

3.3830

pS

Y el de Fisher:

810

1214

6

0

5

10

15

1 2 3 4 5

Empleados

Nú

mero

de e

mp

resas


3

1

3 )()(1

S

fxxn

S

n

i

ii

f

= 128.087.860

)12000)(50/1(

fS

En este ejemplo, los valores de los coeficientes indican que se trata de una distribución

ligeramente asimétrica o sesgada a la izquierda.

2.5.3 Medidas de apuntamiento o curtosis

Miden el mayor o menor apuntamiento central de una distribución con respecto a la distribución

normal. Estas medidas se aplican a distribuciones unimodales, simétricas o ligeramente

asimétricas, y tratan de analizar que ocurre en la zona central de la distribución. En este sentido,

la mayor o menor concentración de frecuencias en torno a la media y en la zona central de la

distribución dará lugar a una distribución más o menos apuntada, distinguiéndose entre:

Leptocúrticas: Distribuciones más apuntadas que la normal.

Mesocúrticas: Distribuciones con apuntamiento normal.

Platicúrticas: Distribuciones menos apuntadas que la normal.

Leptocúrtica Mesocúrtica Platicúrtica

Para medir el mayor apuntamiento, se pueden utilizar diferentes coeficientes, pero merece

destacarse, por ser el más utilizado, el de Fisher. El coeficiente de apuntamiento de Fisher se

define como:

3

)()(1

4

1

4

S

fxxn

A

n

i

ii

f

donde:

Af = Coeficiente de apuntamiento de Fisher.

S = Desviación típica.

n = Número de observaciones.


n

i

ii fxx1

4 )()( = Es la suma de desviaciones respecto a la media, elevadas a la cuarta

potencia, ponderadas por las frecuencias.


Si Af > 0, entonces la distribución es leptocúrtica.

Si Af = 0, entonces la distribución es mesocúrtica.

Si Af < 0, entonces la distribución es platicúrtica.

Ejemplo

Para estudiar el apuntamiento o curtosis nos puede servir la distribución del ejemplo anterior

donde se estudio el sesgo, al ser una distribución ligeramente asimétrica y unimodal. Retomando

los datos del ejemplo anterior, y añadiendo las columnas siguientes, tendremos,

Intervalos xi fi xxi 4xxi 4xxf ii

5 – 14 10 8 - 20 160000 1280000

15 – 24 20 10 - 10 10000 100000

25 – 34 30 12 0 0 0

35 – 44 40 14 10 10000 140000

45 – 54 50 6 20 160000 960000

50 2480000

Tomando los resultados del ejemplo anterior. Entonces tenemos que,

03.137.25204

496003

)6.12(

)2480000)(50/1(3

)()(1

44

1

4

S

fxxn

A

n

i

ii

f

El valor obtenido para el coeficiente de apuntamiento indica que se trata de una distribución

ligeramente platicúrtica, esto es, algo menos apuntado que la normal.

2.6 EJERCICIOS

1. Completa el siguiente párrafo.

Tres medidas comúnmente usadas de _____________________ son la media, la moda y la

____________. Por lo general los valores se concentran alrededor del valor que ocurre con

mayor frecuencia, la ________. El punto medio que separa la distribución en dos partes de

igual tamaño es la ______________. La medida de tendencia central más segura, estable o

confiable tiende a ser la ______________. La _____________ es sensible al valor de cada

dato de la distribución; esto no ocurre en la _________ o la ___________. En una

distribución acampanada o mesocúrtica, la moda, la mediana y la media tienen el mismo


___________. Una prueba puede ser tan difícil que hay muchos valores ______________ y

pocos extremadamente _______________. Tal distribución se describirá como sesgada

____________. En distribuciones asimétricas, la ______________ con frecuencia es la

medida descriptiva preferida de tendencia central. En una prueba muy fácil, la ___________

será mayor que la _____________, pero menor que la ______________. Si se encontrará

que la media CI en un grupo fuera 110 y la mediana 100, la distribución probablemente

estaría sesgada __________. Si un grupo tuviera una media de 89.3 y una mediana de 90.1,

el sesgo sería ____________. Si este grupo se combinara con un grupo talentoso, la forma

de la distribución de los valores de CI compuestos probablemente sería ____________. Si

pudiera desarrollarse una prueba de modo que cada valor se obtuviera con igual frecuencia,

la forma de la distribución sería ____________ y _____________.

2. Responde las siguientes preguntas con: rango, varianza y desviación estándar.

a) ¿Cuál es menos confiable?

b) ¿En cuál influye considerablemente el tamaño de la muestra?

c) ¿Cuál es más fácil de calcular?

d) Si se encuentra que la varianza es de 100, ¿cuál es la desviación estándar?

3. Cuál medida de tendencia central:

a) ¿Sería más apropiada para datos nominales?

b) ¿Queda mejor con el término “valor medio”?

c) ¿Sería sensible al valor numérico de cada dato?

d) ¿Se esperaría que fuera menor en una distribución sesgada hacia la izquierda?

4. Las preguntas 4 – 8 se refieren al siguiente arreglo de observaciones:

0, 0, 0, 1, 1, 2, 4, 7, 11

a) ¿Cuál es el valor numérico de la moda?

b) ¿Cuál es el valor numérico de la mediana?

c) ¿Cuál es el valor numérico de: X , n y la media?

d) Describa la forma de la distribución.

5. Responde las siguientes preguntas.

a) ¿Cuál medida de tendencia central se preferirá con variables categóricas como grupo

étnico o estado civil?

b) ¿Cuál es el término que menos concuerda con los otros?

a) X b) P50 c) Q2 d) Mediana

c) ¿Cuál es la opción que menos concuerda con las otras?

a) Moda b) Mediana c) el valor más popular d) el valor más frecuente

d) Si la mayoría de los estudiantes de este grupo de estadística han leído y estudiado este

capítulo tan cuidadosamente que saben las respuestas a casi todas las preguntas de estos

ejercicios, la distribución de calificación de la prueba probablemente sería

a) Normalmente distribuida b) sesgada hacia la izquierda c) sesgada hacia la derecha


6. Se aplicó la misma prueba de ortografía a una muestra aleatoria de estudiantes de tres escuelas

diferentes y el resultado para cada escuela, cuando se graficó, se aproximó a una curva con

forma de campana. El resumen de resultados fue como sigue:

Escuela A Escuela B Escuela C

X 40 50 50

S 5 10 20

N 10 100 50

¿Cuál escuela parecería

a) ser más homogénea?

b) tener más estudiantes con calificaciones arriba de 75?

c) tener el mayor rango?

d) tener la menor calificación promedio de ortografía?

7. En un grupo de sexto grado con 36 estudiantes, se administra un técnica sociométrica de

“adivina quien” para evaluar el grado de relaciones positivas entre ellos para cada estudiante.

Los valores para los 36 estudiantes fueron:

22 3 12 2 0 7 1 9 1 28 5 2

2 2 33 4 8 13 2 3 1 28 10 14

22 1 4 15 1 52 5 8 3 11 17 1

a) ¿Cuál es el rango?

b) Calcule la media, la mediana y la moda.

c) Compare la distancia de Q1 (Cuartil 1) a Q2 (Cuartil 2), con la distancia de Q2 (Cuartil

2) a Q3 (Cuartil 3). El patrón sugiere asimetría hacia la ______________.

d) ¿Cuál es la varianza y la desviación estándar?

8. Una muestra aleatoria de seis estudiantes destacados fue seleccionada y se les aplicó un

examen de memoria. Los datos se listan abajo. Para esos datos, calcule a) la mediana, b) la

moda, c) el rango, d) los grados de libertad, e) la media, f) la varianza de la muestra y la g)

desviación estándar.

6 9 5 4 7 5

9. De la siguiente tabla de frecuencia, calcule la moda, mediana, media, varianza y desviación

estándar. La tabla de frecuencia que se da describe las velocidades a las que iban los conductores

multados por la policía de la ciudad de Monterrey. Estos conductores viajaban a través de una

zona con límite de velocidad de 30 km/hora sobre Garza Sada, que pasa por el Tecnológico de

Monterrey.

Velocidad Frecuencia

42 – 45 7

46 – 49 10

50 – 53 25

54 – 57 7

58 – 61 1


10. La distribución por edades de los empleados de una fábrica de alimentos preparados es como

sigue.

Edades Frecuencia

15 – 30 10

30 – 45 30

45 – 60 25

60 – 75 9

¿Se trata de una distribución leptocúrtica o platicúrtica?

capitulo ii - weebly...con n observaciones, y una vez ordenados los datos en orden ascendente, es...

Documents