estadísticas elemental tema 3: describir, explorar, y comparar … · 1.97 0.71 2.22 4.54 0.80...
TRANSCRIPT
3.1 - 1
Estadísticas ElementalTema 3: Describir, Explorar, y
Comparar Data
(parte 2) Medidas de dispersión
3.1 - 2
Medidas de dispersión
• La variación entre los valores de un conjunto de datos se conoce como dispersión
• Hay varias medidas de dispersión, entre ellas el rango, la varianza y la desviación estándar.
• Estas medidas indican hasta qué punto las observaciones individuales de un conjunto de datos se dispersan o son "repartidos" alrededor de la media.
3-2© 2010 Pearson Prentice Hall. All rights reserved
3.1 - 3
Se presentan datos que describen el tiempo de espera
(en minutos) en una fila, de una muestra aleatoria
simple de 30 clientes, en dos restaurantes de comida
rápida durante la hora del almuerzo.
Para cada muestra, responda a las siguientes
preguntas.
a) ¿Cuál es la media y la mediana del tiempo de
espera?
b) Construya un histograma de los tiempos de espera
de cada restaurante.
c) ¿Cuál conjunto aparenta estar más disperso? ¿En
cuál fila preferirías esperar? ¿Por qué?
3-3© 2010 Pearson Prentice Hall. All rights reserved
Exploración
3.1 - 4
1.50 0.79 1.01 1.66 0.94 0.67
2.53 1.20 1.46 0.89 0.95 0.90
1.88 2.94 1.40 1.33 1.20 0.84
3.99 1.90 1.00 1.54 0.99 0.35
0.90 1.23 0.92 1.09 1.72 2.00
3.50 0.00 0.38 0.43 1.82 3.04
0.00 0.26 0.14 0.60 2.33 2.54
1.97 0.71 2.22 4.54 0.80 0.50
0.00 0.28 0.44 1.38 0.92 1.17
3.08 2.75 0.36 3.10 2.19 0.23
Tiempo de espera en Wendy’s
Tiempo de espera en McDonald’s
3-4
3.1 - 5
.
3-5
a) ¿Cuál es la media y la mediana del tiempo de espera en
cada caso?
Tiempo – Wendy’s Tiempo – McDonald’s
(a) La media de tiempo de espera en cada fila es de 1.39
minutos.
3.1 - 63-6
b) Construya un histograma de los tiempos de espera de
cada restaurante.
Tiempo – Wendy’s Tiempo – McDonald’s
3.1 - 7
• Desviación estándar muestral para Wendy’s: 0.726 minutos
• Desviación estándar muestral para McDonald’s: 1.243 minutos
3-7
¿En cuál fila preferirías esperar? ¿Por qué?
EJEMPLO Comparar desviación estándar de
dos conjuntos (cont.)
c) ¿Cuál conjunto aparenta estar más disperso?
3.1 - 8
El rango (o amplitud), R, de una variable es
la diferencia entre el valor máximo y mínimo
de los datos.
Es decir:
Rango = R = Valor máximo – Valor mínimo
3-8© 2010 Pearson Prentice Hall. All rights reserved
Medidas de dispersión (cont.)
NOTA: El rango es muy sensible a los valores extremos; por lo tanto, no es tan útil como otras medidas de variación.
3.1 - 9
EJEMPLO Determinar el rango de un conjunto de
datos
Los siguientes datos representan los tiempos de viaje (en
minutos) hacia el trabajo para siete empleados de una
empresa de desarrollo para la Web.
23, 36, 23, 18, 5, 26, 43
Determinar el rango.
3-9© 2010 Pearson Prentice Hall. All rights reserved
3.1 - 10
La varianza poblacional de una variable es la suma de
desviaciones cuadráticas de la población alrededor de la
media poblacional, 𝜇, dividida entre el número de
observaciones en la población, N.
3-10
Medidas de dispersión (cont.)
La varianza poblacional se representa simbólicamente
por una letra minúscula del alfabeto griego, sigma, σ2
Nota: Cuando utilices la fórmula anterior, no debes redondear hasta el
último cómputo. Utilice tantos decimales como lo permite tu calculadora
para evitar errores redondea.
3.1 - 11
EJEMPLO Calcular la varianza poblacional
mediante fórmula
Los siguientes datos representan los tiempos de viaje (en
minutos) hacia el trabajo para siete empleados de una empresa
de desarrollo para la Web.
23, 36, 23, 18, 5, 26, 43
Calcular la varianza poblacional para estos datos usando
Solución:
• Como la fórmula usa las desviaciones de los datos de la
media, necesitamos 𝒍𝒂 𝒎𝒆𝒅𝒊𝒂 𝒑𝒐𝒃𝒍𝒂𝒄𝒊𝒐𝒏𝒂𝒍
17424.85714
7
3-11© 2010 Pearson Prentice Hall. All rights reserved
𝜇 = 𝑥𝑖𝑁
3.1 - 12
xi μ xi – μ (xi – μ)2
23 24.85714
36 24.85714
23 24.85714
18 24.85714
5 24.85714
26 24.85714
43 24.85714
3-12© 2010 Pearson Prentice Hall. All rights reserved
EJEMPLO Calcular la varianza poblacional
mediante fórmula (cont)
• Calculemos las desviaciones y sus cuadrados
3.1 - 13
La varianza muestral está relacionada con el tamaño
de la diferencia entre cada observación y la media
aritmética del conjunto de datos.
Su fórmula propone calcular la suma de los cuadrados
de las desviaciones de las observaciones alrededor de
la media muestral y la dividirla entre n – 1.
La varianza muestral se denota s2 .
3-13© 2010 Pearson Prentice Hall. All rights reserved
Varianza muestral
3.1 - 14
Nota: Siempre que un estadístico sobreestima o subestima
consistentemente a un parámetro, el estadístico se conoce como
sesgado.
Para obtener una estimación sin sesgo de la varianza
poblacional, dividimos la suma de las desviaciones cuadradas
alrededor de la media entre n - 1.
3-14© 2010 Pearson Prentice Hall. All rights reserved
3.1 - 15
EJEMPLO calcular la varianza muestral
Supongamos que hemos obtenido una muestra
aleatoria simple de los datos sobre tiempo de traslado
de los empleados del ejemplo anterior: 5, 36, 26.
Calcular la varianza muestral del tiempo de traslado.
3-15© 2010 Pearson Prentice Hall. All rights reserved
Solución:
3.1 - 16
Interpretando la varianza
• En el ejemplo anterior el cálculo que se obtiene implica que en promedio, las observaciones se desvían de la media por 250.3 min2 .
• Estas unidades no son fáciles de entender.
• La varianza no tiene la misma magnitud que las observaciones.
• Debemos tener cuidado de no comparar las varianzas de conjuntos de medidas distintas.
• Es propia de las medidas de intervalo o razón.
• Siempre es mayor que cero.
Copyright © 2010, 2007, 2004 Pearson Education, Inc. All Rights Reserved.
3.1 - 17
La desviación estándar poblacional se denota .
Se obtiene tomando la raíz cuadrada de la varianza
poblacional, de manera que
La desviación estándar muestral se denota s .
Se obtiene tomando la raíz cuadrada de la varianza
muestral, de manera que
2s s
3-17© 2010 Pearson Prentice Hall. All rights reserved
Desviación estándar
3.1 - 18
EJEMPLO Calcular la desviación estándar
poblacional
Los siguientes datos representan los tiempos de traslado (en
minutos) hacia el trabajo para siete empleados de una empresa de
desarrollo para la Web.
23, 36, 23, 18, 5, 26, 43
Calcular la desviación estándar de la población.
De un cálculo anterior tenemos que σ2 = = 129.0 minutes2.
Por lo tanto,
2 902.857111.4 minutes
7
3-18© 2010 Pearson Prentice Hall. All rights reserved
3.1 - 19
EJEMPLO Calcular la desviación estándar
muestral
Use este resultado para determinar la desviación estándar
muestral.
3-19© 2010 Pearson Prentice Hall. All rights reserved
Para la muestra aleatoria simple de los datos sobre
tiempo de traslado : 5, 36, 26, se calculó que la
varianza muestral es
𝑠2 = 250.333 minutos2
3.1 - 20
Propiedades de la Desviación
Estándar La desviación estándar es una medida de
variación de los valores alrededor de la
media.
El valor de la desviación estándar , s , es
usualmente positivo.
El valor de la desviación estándar , s , puede
aumentar dramáticamente si el conjunto
incluye valores extremos.
Las unidades de la desviación estándar ,s,
son las mismas que las unidades de los
valores de los datos originales.
3.1 - 21Copyright © 2010, 2007, 2004 Pearson Education, Inc. All Rights Reserved.
La regla de la amplitud o del
rango
Se basa en el principio de que para
muchos conjuntos de datos,
aproximadamente 95% de las
observaciones se encuentran dentro
de dos desviaciones estándares de la
media.
3.1 - 22
La regla de la amplitud o del
rango para valores “típicos”
Los datos “típicos” de un conjunto de datos son
los que encuentran en el intervalo cerrado
[valor “típico” Mínimo, valor “típico” Máximo]
valor “típico” Mínimo = (media) – 2 (deviación estándar)
valor “típico” Máximo = (media) + 2 (deviación estándar)
3.1 - 23
Ejemplo
A continuación se presenta una muestra aleatoria simple de puntuaciones de crédito.
714, 751, 664, 789, 818, 779,
698, 836, 753, 834, 693, 802
Basado en las estadísticas de una variable que se presentan, ¿es una puntuación de 500 un dato atípico?
3.1 - 24Copyright © 2010, 2007, 2004 Pearson Education, Inc. All Rights Reserved.
La regla de la amplitud o del rango
para estimar la Deviación
Estándar s
Podemos estimar la desviación
estándar de un conjunto de datos con
donde
rango = (valor máximo) – (valor mínimo )
rango
4s
3.1 - 25Copyright © 2010, 2007, 2004 Pearson Education, Inc. All Rights Reserved.
z Score (valor estándarizado)
identifica el número de desviacionesestándares al cual se encuentra un valor por debajo o por encima de la media de un conjunto
Z score (valor Z)
3.1 - 26Copyright © 2010, 2007, 2004 Pearson Education, Inc. All Rights Reserved.
Para una muestra Para una población
x – µz =
Se redondean valores z a 2 lugares
decimales
Medidas de posición: z Score
z =x – x
s
3.1 - 27Copyright © 2010, 2007, 2004 Pearson Education, Inc. All Rights Reserved.
Interpretación de valores Z
Siempre que una observación es menor que la
media, la puntuación z correspondiente es
negativo.
Valores ordinarios: –2 ≤ z score ≤ 2
Valores atípicos: z score < –2 ó z score > 2
3.1 - 28
Ejemplo
• Determine cuál medida es más extrema en un hombre : una altura de 76.2 in. o un peso de 237.1 lb.
• Compare estos dos valores determinando el valor z que corresponde a cada uno, si sabemos lo siguiente sobre los conjuntos a los cuales pertenecen los datos:
– Altura promedio de un hombre: 68.34 in
– Desviación estándar de las alturas: 3.02 in
– Peso promedio de un hombre: 172.55 lb.
– Desviación estándar de los pesos: 26.33 lb.
• Nota: Las alturas y los pesos se miden en diferentes escalas con diferentes unidades de medida, pero podemos estandarizar los valores de los datos mediante la conversión a puntuaciones z.