estadistica i, unidad 2
DESCRIPTION
esadistica unidad 2TRANSCRIPT
-
Tema(s) a desarrollar Repaso general medidas descriptivas
Subtemas 1. Introduccin
1.1 Variable discreta
1.2 Variable continua
2. Estadsticos de tendencia central
2.1. La media
2.2. La mediana.
2.3. La moda
2.4. Relacin entre media, mediana y moda
3. Estadsticos de posicin
3.1. Percentiles
3.2. Deciles
3.3. Cuartiles
4. Medidas de variabilidad o dispersin
4.1. Rango
4.2. Rango Intercuartilico
4.3. Varianza
4.4. Desviacin tpica o estndar
4.5. Coeficiente de variacin
4.6. Diagrama de Tukey
5. Asimetra y apuntamiento
5.1. Estadsticos de asimetra
5.2. Estadsticos de apuntamiento Contenido complementario Taller sobre la Unidad
No. de semanas que se le dedicarn a esta unidad 3 Semanas
1
Unidad N 2 Estadstica descriptiva
-
2
1. Introduccin
1.1 Variable discreta
1.2 Variable continua
-
3
2. Estadsticos de centralizacin Son medidas que buscan posiciones (valores) con respecto a los cuales los datos
muestran tendencia a agruparse.
2.1 Media (mean) Es la media aritmtica (promedio) de los valores de una variable. Suma de los valores dividido por el tamao muestral.
Media de 2,2,3,7 es (2+2+3+7)/4=3,5
Conveniente cuando los datos se concentran simtricamente con respecto a ese valor. Muy sensible a valores extremos.
Centro de gravedad de los datos
-
Tema 2: Estadsticos 4
2. Estadsticos de centralizacin Son medidas que buscan posiciones (valores) con respecto a los cuales los datos
muestran tendencia a agruparse.
2.2 Mediana (median) Es un valor que divide a las observaciones en dos grupos con el mismo nmero de individuos (percentil 50).
Mediana de 1,2,4,5,6,6,8 es 5
Si el nmero de datos es par, se elige la media de los dos datos centrales.
Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
Es conveniente cuando los datos son asimtricos. No es sensible a valores extremos. Mediana de 1,2,4,5,6,6,800 es 5. La media es 117,7!
Altura mediana
-
2.3 Moda (mode) Es cualquier valor de la variable que pose una frecuencia mayor que su anterior y posterior (valor de la variable que mas se repite).
Ventajas:
No requiere clculos.
Puede usarse para datos tanto cuantitativos como cualitativos.
Fcil de interpretar.
No se ve influenciada por valores extremos.
Desventajas:
Para conjuntos pequeos de datos su valor no tiene casi utilidad, si es que de hecho existe.
No utiliza toda la informacin disponible.
No siempre existe, si los datos no se repiten.
En ocasiones, el azar hace que una sola observacin sea no representativa se el
valor ms frecuente del conjunto de datos.
Difcil de interpretar si los datos tiene 3 o ms modas.
-
Relacin entre la media, la mediana y la moda
Cuando los datos son sesgados es mejor emplear la Md
-
7
3. Estadsticos de posicin
CUANTILES
Se define el cuantil de orden a como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada a.
Casos particulares son los percentiles, deciles, cuartiles quintiles,...
3.1 PERCENTILES
Percentil Pk: de orden k = cuantil de orden k/100 El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85%.
3.2 DECILES Dividen a la muestra en 10 grupos con frecuencias similares.
-
8
3. Estadsticos de posicin
3.3 CUARTILES Dividen a la muestra en 4 grupos con frecuencias
Similares.
Q1: Primer cuartil = Percentil 25 = Cuantil 0,25
Q2: Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana
Q3: Tercer cuartil = Percentil 75 = cuantil 0,75
-
Tema(s) a desarrollar Repaso general medidas descriptivas
Subtemas 1. Introduccin
1.1 Variable discreta
1.2 Variable continua
2. Estadsticos de tendencia central
2.1. La media
2.2. La mediana.
2.3. La moda
2.4. Relacin entre media, mediana y moda
3. Estadsticos de posicin
3.1. Percentiles
3.2. Deciles
3.3. Cuartiles
4. Meidas de variabilidad o dispersin
4.1. Rango
4.2. Rango Intercuartilico
4.3. Varianza
4.4. Desviacin tpica o estndar
4.5. Coeficiente de variacin 4.6. Diagrama de Tukey
5. Asimetra y apuntamiento
5.1. Estadsticos de asimetra
5.2. Estadsticos de apuntamiento Contenido complementario Taller sobre la Unidad
No. de semanas que se le dedicarn a esta unidad 3 Semanas
9
Donde estamos:
Unidad N 2 Estadstica descriptiva
-
4. Estadisticos de dispersin, variacin o
variabilidad.
Son importantes debido a que dos muestras de
observaciones con el mismo valor central pueden tener una
variabilidad muy distinta. Rango, Rango intercuartilico,
Varianza, Desviacin tpica, coefiente de variacin.
-
Tema 2: Estadsticos 11
Variabilidad o dispersin
Los estudiantes de Estadstica de la UCO reciben diferentes calificaciones en la asignatura (variabilidad). A qu puede deberse?
Diferencias individuales en el conocimiento de la materia.
Podra haber otras razones (fuentes de variabilidad)?
Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de conocimiento. Las notas seran las mismas en todos?
Seguramente No.
Dormir poco el da del examen, el croissant estaba envenenado... Diferencias individuales en la habilidad para hacer un examen.
El examen no es una medida perfecta del conocimiento.
Variabilidad por error de medida.
En alguna pregunta difcil, se duda entre varias opciones, y al azar se elige la mala Variabilidad por azar, aleatoriedad.
-
Miden el grado de dispersin (variabilidad) de los datos, independientemente de su causa.
4.1 Amplitud o Rango (range): Diferencia entre observacines extremas.
2,1,4,3,8,4. El rango es 8-1=7
Es muy sensible a los valores extremos.
No proporciona una medida de variabilidad de las observaciones con respecto al centro de la distribucin.
4.2 Rango intercuartlico (interquartile range):
Es la distancia entre primer y tercer cuartil.
Rango intercuartlico = P75 - P25
Parecida al rango, pero eliminando las observaciones ms extremas inferiores y superiores.
No es tan sensible a valores extremos.
Tema 2: Estadsticos 12
150 160 170 180 190
0.0
00
.01
0.0
20
.03
0.0
40
.05
150 160 170 180 190
25% 25% 25% 25%
Mn. P25 P50 P75 Mx.
Rango intercuartlico
Rango
Medidas de dispersin
-
13
4.3 Varianza S2 (Variance): Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media.
Si la varianza de un conjunto de observaciones es grande se dice que los Datos tiene una mayor variabilidad que un conjunto de datos que tenga un varianza menor.
Sus unidades son el cuadrado de las de la variable. De interpretacin difcil para un principiante. Siempre es mayor o igual a cero y menor que infinito.
Ventajas:
Es til cuando se compara la variabilidad de dos o ms conjuntos de datos.
Utiliza toda la informacin disponible.
Desventajas:
No proporciona ayuda inmediata cuando se estudia la dispersin de un solo conjunto de datos.
Difcil de interpretar por tener sus unidades elevadas al cuadrado.
Es sensible a valores extremos (alejados de la media).
-
Tema 2: Estadsticos 14
4.4 Desviacin tpica (standard deviation) Es la raz cuadrada de la varianza
Tiene las misma dimensionalidad (unidades) que la variable. Versin esttica de la varianza.
Ventajas:
Esta expresada en las mismas
unidades que la variable en estudio.
Utiliza todas las observaciones en su
clculo.
Fcil de interpretar.
Desventajas:
No tiene.
2SS
-
Tema 2: Estadsticos 15
4.5 Coeficiente de variacin (Pearson)
Es la razn entre la desviacin tpica y la media.
Mide la desviacin tpica en forma de qu tamao tiene con respecto a la media
Tambin se la denomina variabilidad relativa.
Es frecuente mostrarla en porcentajes Si la media es 80 y la desviacin tpica 20 entonces CV=20/80=0,25=25% (variabilidad relativa)
Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables. Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan ms
dispersin en peso que en altura.
No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente
Por ejemplo 0C 0F
x
SCV
-
4.5 Coeficiente de variacin (Pearson)
Ventajas:
Es la nica MD que permite comparar el nivel de
dispersin de dos muestras de variables diferentes.
Emplea toda la informacin disponible en su clculo.
Fcil de calcular.
Desventaja:
Ninguna significativa
x
SCV
-
Tema 2: Estadsticos 17
4.6 Diagramas de Tukey
Resumen con 5 nmeros: Mnimo, cuartiles y mximo.
Suelen dar una buena idea de la distribucin.
La zona central, caja, contiene al 50% central de las observaciones. Su tamao se llama rango
intercuartlico (R.I.)
Es costumbre que los bigotes, no lleguen hasta los extremos, sino hasta las observaciones que se separan de la caja en no ms de 1,5 R.I. Ms all de esa distancia se
consideran anmalas, y as se marcan.
Diagrama de cajas de Tukey: Resumen en 5 nmeros
Velocidad (Km/h) de 200 vehculos en ciudad
de
nsid
ad
40 45 50 55 60 65
0.0
00
.02
0.0
40
.06
0.0
8
40 45 50 55 60 65
Mn. P25 P50 P75 Mx.
Diagrama de cajas de Tukey: Resumen en 5 nmeros
Velocidad (Km/h) de 200 vehculos en autova
de
nsid
ad
80 90 100 110 120 130 140
0.0
00
.01
0.0
20
.03
0.0
4
80 90 100 110 120 130 140
Mn. P25 P50 P75 Mx.
-
Las discrepancias entre las medidas de centralizacin son indicacin de asimetra.
5. Estadsticos de Forma: Asimetra y Apuntamiento
-
Estadsticos de Forma: Estadsticos para detectar
asimetra y apuntamiento.
Son medidas numricas que permiten determinar la
forma que tiene la curva de los datos, por lo tanto,
sirven para corroborar lo que los grficos muestran.
Medidas de forma
-Asimetra
-Kurtosis o apuntamiento
Coeficiente de Pearson
Coeficiente de Fisher
-
5.1 Estadsticos de Forma: Asimetra
Coeficiente de Asimetra de Pearson:
Fcil de calcular e interpretar.
Clculo:
s
MdXASP
3
Si AP > 0, la distribucin es asimtrica positiva o a la derecha.
Si AP = 0, la distribucin es simtrica. Si AP < 0, la distribucin es asimtrica negativa o a la izquierda.
-
21
Estadsticos para detectar asimetra
Coeficiente de Asimetra de Pearson:
x
8 10 12 14 16 18 20
0.0
00.0
50.1
00.1
50.2
0
8 10 12 14 16 18 20
x s
78 %
x
-2 -1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
0.5
-2 -1 0 1 2 3
x s
66 %
x
0 2 4 6 8 10 12 14
0.0
00.0
50.1
00.1
50.2
0
0 2 4 6 8 10 12 14
x s
78 %
Si AP < 0, la distribucin es asimtrica negativa o a la izquierda. Si AP = 0, la distribucin es simtrica. Si AP > 0, la distribucin es asimtrica positiva o a la derecha.
-
Coeficiente de Asimetra de Fisher:
No es de fcil clculo, pero si su interpretacin.
3
1
3
ns
fxM
ASF
k
i
ii
Interpretacin:
ASF
= 0, Simtrica
> 0, Asimtrica Positiva
< 0, Asimtrica Negativa
Estadsticos de Forma: Asimetra
-
5.2 Estadsticos de Forma: Kurtosis o apuntamiento
Miden si los valores de la distribucin estn ms o menos
concentrados alrededor de los valores medios de la muestra (zona
central de la distribucin).
Se definen tres tipos de distribucin segn su grado de Kurtosis
Leptocrtica: grado de concentracin elevado. curtosis > 0
Mesocrtica: grado de concentracin medio alrededor de los
valores centrales de la variable. curtosis = 0
Platicrtica: grado de concentracin reducido. curtosis < 0
-
En el curso sern de especial inters las mesocrticas
y simtricas (parecidas a la normal). 24
Platicrtica (aplanada): curtosis < 0
Mesocrtica (como la normal): curtosis = 0
Leptocrtica (apuntada): curtosis > 0
Aplanada
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.5
1.0
1.5
2.0
0.0 0.2 0.4 0.6 0.8 1.0
x s
57 %
Apuntada como la normal
-3 -2 -1 0 1 2 3
0.0
0.1
0.2
0.3
-3 -2 -1 0 1 2 3
x s
68 %
Apuntada
-2 -1 0 1 2
0.0
0.2
0.4
0.6
0.8
-2 -1 0 1 2
x s
82 %
3
3
4
1
4
4
1
4
ns
fXM
CK
ns
Xx
CK
k
i
ii
n
i
i
Datos No Agrupados
Datos Agrupados
Estadsticos de Forma: Kurtosis o apuntamiento (pc)
-
25
Un brevsimo resumen sobre estadsticos 1. Centralizacin
Indican valores con respecto a los que los datos parecen
agruparse.
Media, mediana y moda
2. Posicin
Dividen un conjunto ordenado de datos en grupos con la
misma o diferente cantidad de individuos.
Cuantiles: percentiles, cuartiles, deciles,...
3. Dispersin
Indican la mayor o menor concentracin de los datos
con respecto a las medidas de centralizacin.
Desviacin tpica, coeficiente de variacin, rango
intercuartilico, varianza. RANGO
4. Forma
Asimetra
Apuntamiento o curtosis
-
26
Ejercicios Para Practicar (variable discreta) Ejercicios Para Practicar (variable continua)
-
Tema(s) a desarrollar Repaso general medidas descriptivas
Subtemas 1. Introduccin
1.1 Variable discreta
1.2 Variable continua
2. Estadsticos de tendencia central
2.1. La media
2.2. La mediana.
2.3. La moda
2.4. Relacin entre media, mediana y moda
3. Estadsticos de posicin
3.1. Percentiles
3.2. Deciles
3.4. Cuartiles
4. Medidas de variabilidad o dispersin
4.1. Rango
4.2. Rango Intercuartilico
4.3. Varianza
4.4. Desviacin tpica o estndar
4.5. Coeficiente de variacin 4.6. Diagrama de Tukey
5. Asimetra y apuntamiento
5.1. Estadsticos de asimetra
5.2. Estadsticos de apuntamiento Contenido complementario Taller sobre la Unidad
No. de semanas que se le dedicarn a esta unidad 3 Semanas
27
Lo que vimos: Unidad N 2 Estadstica descriptiva