estadística descriptiva para una variable conceptos básicos. tipos de variables organización de...
TRANSCRIPT
Estadística Descriptiva para una variable
Conceptos básicos. Tipos de variables
Organización de datos. Tablas de frecuencias
Descripciones gráficas de los datos
Descripciones Numéricas
Ejercicios
Conceptos Básicos
• Sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de
• deducir las leyes que rigen esos fenómenos,
• y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones.
La ESTADISTICA es la ciencia que se ocupa de la
Descrip
tiva
Probabilidad
Inferencia
Conceptos Básicos Población: es el conjunto sobre el que estamos
interesados en obtener conclusiones (hacer inferencia). Normalmente es demasiado grande para poder
abarcarlo.
Individuo: Cada uno de los elementos que componen la población estadística en estudio. Es un ser observable que no tiene por qué ser una persona, puede ser un objeto, un ser vivo, etc…
Muestra: es un subconjunto de la población al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones) Debería ser “representativo” Esta formado por miembros “seleccionados” de la
población (individuos, unidades experimentales).
Conceptos BásicosCaracteres o variables: Cualquier cualidad o propiedad inherente al individuo. Una característica observable que varía entre los diferentes individuos de una población. La información que disponemos de cada individuo es resumida en variables, que representamos normalmente por las últimas letras mayúsculas X, Y, Z,…En los individuos de la población española, de uno a otro es variable:
El grupo sanguíneo {A, B, AB, O} Var. Cualitativa
Su nivel de felicidad “declarado” {Deprimido, Ni fu ni fa, Muy Feliz} Var. Ordinal
El número de hijos {0,1,2,3,...} Var. Numérica discreta
La altura {1’62 ; 1’74; ...} Var. Numérica continua
Podemos distinguir los siguientes tipos de variables:
Conceptos Básicos Cualitativas
Si sus valores no se pueden asociar naturalmente a un número (no se pueden hacer operaciones algebraicas con ellos)
Nominales: Si sus valores no se pueden ordenar Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No)
Ordinales: Si sus valores se pueden ordenar Mejoría a un tratamiento, Grado de satisfacción, Intensidad del
dolor
Cuantitativas o NuméricasSi sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos)
Discretas: Si toma valores enteros Número de hijos, Número de cigarrillos que fuma
Continuas: Si entre dos valores, son posibles infinitos valores intermedios. Altura, Presión intraocular, Dosis de medicamento administrado
Conceptos Básicos Es buena idea codificar las variables como números para poder procesarlas con
facilidad en un ordenador. Es conveniente asignar “etiquetas” a los valores de las variables para recordar qué
significan los códigos numéricos. Sexo (Cualit: Códigos arbitrarios)
1 = Hombre 2 = Mujer Raza (Cualit: Códigos arbitrarios)
1 = Blanca 2 = Negra,... Felicidad Ordinal: Respetar un orden al
codificar. 1 = Muy feliz 2 = Bastante feliz 3 = No demasiado feliz
Se pueden asignar códigos a respuestas especiales como
0 = No sabe 9 = No contesta Estas situaciones deberán ser tenidas en
cuenta en el análisis. Datos perdidos (‘missing data’)
Conceptos Básicos
Aunque se codifiquen como números, debemos recordar siempre el verdadero tipo de las variables y su significado cuando vayamos a usar programas de cálculo estadístico.
No todo está permitido con cualquier tipo de variable.
Conceptos BásicosModalidades o valores de las variables: Cada uno de los posibles valores que puede tomar una variable y se representan con las letras minúsculas x1, x2, …, xn.
Ejemplo: La variable cualitativa estado civil puede tomar los valores o modalidades: casado, soltero o viudo. La variable cuantitativa edad puede tomar las modalidades o valores: 10 años, 12 años, 15 años, etc…
Las modalidades pueden agruparse en clases (intervalos) Edad (Menos de 20 años, de 20 a 50 años, más de 50 años)
Las modalidades/clases deben forman un sistema exhaustivo y excluyente: Exhaustivo: No podemos olvidar ningún posible valor de la variable
Mal: ¿Cuál es su color del pelo: (Rubio, Moreno)?
Excluyente: Nadie puede presentar dos valores simultáneos de la variable Mal: De los siguientes, qué le gusta: (deporte, cine)
Organización de los datosAntes de trabajar con cualquier conjunto de datos obtenidos de un experimento debemos organizarlos.
0
1
2
3
4
5
6
7
Hombre Mujer
Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información. Las dos exponen ordenadamente la información recogida en una muestra.
Género Frec.
Hombre 4
Mujer 6
Organización de los datos
Variable Frecuencias absolutas Frecuencias relativas
(Valor) SimpleAcumulad
aSimple
Acumulada
x1 n1 N1= n1 f1 = n1 / N F1= f1
x2 n2
N2= n1 + n2
f2 = n2 / N F2= f1 + f2
... ... ... ... ...
xn-1 nn-1
Nn-1= n1 + n2 + ...+ nn-1
fn-1 = nn-1 / N
Fn-1= f1 + f2 +… + f
n-1
xn nn
Nn = n = N
fn = nn / N Fn = f =1
La tabla de frecuencias es la representación estructurada, en forma de tabla, de toda la información que se ha recogido sobre la variable que se estudia. Exponen la información recogida en la muestra, de forma que no se pierda nada de información (o poca).
Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad Frecuencias relativas (porcentajes): Idem, pero dividido por el total Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y numéricas y
son muy útiles para calcular cuantiles (ver más adelante) ¿Qué porcentaje de individuos tiene menos de 3 hijos? Sol: 83,8 ¿Entre 4 y 6 hijos? Sol 2ª: 97,3% - 83,8% = 13,5%
Número de hijos
419 27,6 27,8 27,8
255 16,8 16,9 44,7
375 24,7 24,9 69,5
215 14,2 14,2 83,8
127 8,4 8,4 92,2
54 3,6 3,6 95,8
24 1,6 1,6 97,3
23 1,5 1,5 98,9
17 1,1 1,1 100,0
1509 99,5 100,0
8 ,5
1517 100,0
0
1
2
3
4
5
6
7
Ocho o más
Total
Válidos
No contestaPerdidos
Total
Frecuencia PorcentajePorcentaje
válidoPorcentajeacumulado
Organización de los datos
Número de hijos
419 27,8 27,8
255 16,9 44,7
375 24,9 69,5
215 14,2 83,8
127 8,4 92,2
54 3,6 95,8
24 1,6 97,3
23 1,5 98,9
17 1,1 100,0
1509 100,0
0
1
2
3
4
5
6
7
Ocho+
Total
Frec.Porcent.(válido)
Porcent.acum.
Ejemplo
¿Cuántos individuos tienen menos de 2 hijos?
frec. indiv. sin hijos + frec. indiv. con 1 hijo = 419 + 255= 674 individuos
¿Qué porcentaje de individuos tiene 6 hijos o menos?
97,3%
¿Qué cantidad de hijos es tal que al menos el 50% de la población tiene una cantidad inferior o igual?
2 hijos
≥50%
Descripciones gráficas
Datos de un carácter cualitativo
Diagramas de barras Alturas proporcionales a las frecuencias (abs. o rel.) Se pueden aplicar también a variables discretas
Diagramas de sectores (tartas, polares) No usarlo con variables ordinales. El área de cada sector es proporcional a su frecuencia
(abs. o rel.)
Pictogramas Fáciles de entender. El área de cada modalidad debe ser proporcional a la
frecuencia.
Descripciones gráficas
Datos, sin agrupar, de un carácter cuantitativo
Diagrama de barras Diagrama de frecuencias acumuladas
Nº de hijos (Xi) 0 1 2 3 4
Nº de familias (ni) 5 6 8 4 2
Ii ni fi Ni Fi
7'5 - 9 3 0'088 3 0'088
9 – 10'5 8 0'236 11 0'324
10'5 - 12 10 0'294 21 0'618
12 - 13'5 10 0'294 31 0'912
13'5 - 15 1 0'029 32 0'941
15 - 16'5 2 0'059 34 1
Descripciones gráficas
Datos, agrupados, de un carácter cuantitativo
Histogramas Polígono de frecuencias acumuladas
Descripciones Numéricas Posición
Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos.
Percentiles, cuartiles, deciles,... Centralización
Indican valores con respecto a los que los datos parecen agruparse. Media, mediana y moda
Dispersión Indican la mayor o menor concentración de los datos con respecto a las
medidas de centralización. Desviación típica, coeficiente de variación, rango, varianza
Forma Asimetría Apuntamiento o curtosis
Descripciones Numéricas
Medidas de posición
Cuartiles: Sea q un número real tal que 0 q 4. El cuartil q (cq) es un valor del recorrido de las observaciones tal que el q/4 de las observaciones son menores o iguales que cq.. El cuartil 2 es la mediana
Deciles: Sea q un número real tal que 0 q 10. El decil q (dq) es un valor del recorrido de las observaciones tal que el q/10 de las observaciones son menores o iguales que dq.. El decil 5 es la mediana.
Percentiles: Sea q un número real tal que 0 q 100. El percentil q (pq) es un valor del recorrido de las observaciones tal que el q % de las observaciones son menores o iguales que pq. El percentil 50 es la mediana.
El 5% de los recién nacidos tiene un peso demasiado bajo. ¿Qué peso se considera “demasiado bajo”?
Percentil 5 o cuantil 0,05
Percentil 5 del peso
Peso al nacer (Kg) de 100 niños
frecu
enci
a
1 2 3 4 5
05
1015
2025Medidas de posición (EJEMPLO)
Descripciones Numéricas
¿Qué peso es superado sólo por el 25% de los individuos? Percentil 75 o tercer cuartil
Percentil 75 del peso
Peso (Kg) de 100 deportistas
frecu
enci
a
50 55 60 65 70 75 80 85
05
1015
2025
30
Descripciones NuméricasMedidas de posición (EJEMPLO)
El colesterol se distribuye simétricamente en la población. Supongamos que se consideran patológicos los valores extremos. El 90% de los individuos son normales ¿Entre qué valores se encuentran los individuos normales?
Percentiles 5 y 95
Colesterol en 100 personas
frecu
enci
a
180 200 220 240 260
05
1015
20
Descripciones NuméricasMedidas de posición (EJEMPLO)
Descripciones Numéricas
Medidas de centralización
Media Es la media aritmética (promedio) de los valores de una variable. Suma de los valores dividido por el tamaño muestral.
Media de 2,2,3,7 es (2+2+3+7)/4=3,5 Conveniente cuando los datos se concentran simétricamente con
respecto a ese valor. Muy sensible a valores extremos. Centro de gravedad de los datos
Mediana Es el valor de la variable que divide a las observaciones en dos grupos con el mismo número de individuos (percentil 50). Si el número de datos es par, se elige el primer valor de la variable que cubra el 50%.
Mediana de 1,2,4,5,6,6,8 es 5 Es conveniente cuando los datos son asimétricos. No es sensible a
valores extremos. Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7!
Moda Es el/los valor/es donde la distribución de frecuencia alcanza un máximo.
Altura mediana
Descripciones Numéricas
Descripciones Numéricas
Medidas de centralización Media
Media Aritmética
Moda: Es el valor que más se repite en la muestra
Mediana : Datos sin agrupar Datos agrupados
Me = x[N/2] + 1 Me = xj
N
nx
x iii
Descripciones Numéricasxi ni Ni
0 3 3
1 2 5
2 2 7
7
ordenamos los valores en orden creciente
0 0 0 1 1 2 2
el 1 será el valor que cumple la definición de mediana.
Ejemplo:La distribución de frecuencias acumuladas del ejemplo del número de hijos era
Nº de hijos (xi) 0 1 2 3 4
Frec. Acumuladas (Ni) 5 11 19 23 25
y como es n/2=12'5 y 11 < 12'5 < 19, en consecuencia la mediana será Me= 2.
Descripciones NuméricasDatos Agrupados: Las gráficas siguientes, correspondientes a polígonos de frecuencias absolutas acumuladas, nos plantea dos situaciones diferentes a considerar:
El más sencillo, el de la derecha, en el que existe una frecuencia absoluta acumulada Nj tal que n/2 = Nj, la mediana es Me = xj.
Si la situación es como la que se representa en la figura de la izquierda, en la que Nj-l < n/2 < Nj entonces, la mediana, está en el intervalo [xj-1, xj), es decir entre xj-1 y xj, tomándose en ese caso, por razonamientos de proporcionalidad, como mediana el valor
Descripciones NuméricasEjemplo:La distribución de frecuencias del ejemplo de los niveles de colinesterasa es:
Intervalo Ii 7'5-9 9-10'5 10'5-12 12-13'5 13'5-15 15-16'5
Frecuencia ni 3 8 10 10 1 2
FrecuenciaAcumulada
Ni 3 11 21 31 32 34
Al ser n/2 = 17 y estar 11 < 17 < 21 la mediana estará en el intervalo [10'5 , 12), y aplicando la fórmula anterior, será
Descripciones Numéricas
Medidas de dispersión
Conjunto 1: 10 20 30 40 50 media = 30, mediana = 30, moda = no existe
Conjunto 2: 10 30 30 30 50 media = 30, mediana = 30, moda = 30
Conjunto 3: 30 30 30 30 30 media = 30, mediana = 30, moda = 30
A la vista de estas medidas podríamos llegar a la conclusión equivocada de que los tres conjuntos de datos son muy similares. Sin embargo, si dibujamos los histogramas:
vemos claramente la diferencia entre los tres conjuntos: en el primero, la dispersión de los datos es total, en el tercero es la máxima concentración y el segundo es una situación intermedia.
Descripciones NuméricasMedidas de dispersión
Miden el grado de dispersión (variabilidad) de los datos, independientemente de su causa.
Amplitud o Rango: Diferencia entre observaciónes extremas.
2,1,4,3,8,4. El rango es 8-1=7 Es muy sensible a los valores extremos.
Rango intercuartílico: Es la distancia entre primer y tercer cuartil.
Rango intercuartílico = P75 - P25 Parecida al rango, pero eliminando las observaciones más extremas
inferiores y superiores. No es tan sensible a valores extremos.
150 160 170 180 190
0.0
00
.01
0.0
20
.03
0.0
40
.05
150 160 170 180 190
25% 25% 25% 25%
Mín. P25 P50 P75 Máx.
Rango intercuartílico
Rango
Descripciones Numéricas
Varianza S2: Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media.
Es sensible a valores extremos (alejados de la media). Sus unidades son el cuadrado de las de la variable. De interpretación difícil
para un principiante. La expresión es fea, pero de gran belleza ‘natural’ (físicamente). Contiene la
información geométrica relevante en muchas situaciones donde la energía interna de un sistema depende de la posición de sus partículas.
Energía de rotación (vía el coeficiente de inercia): patinadores con brazos extendidos (dispersos) o recogidos (poco dispersos)
Energía elástica: Muelles ‘estirados’ con respecto a su posición de equilibrio (dispersos) frente a muelles en posición cercana a su posición de equilibrio (poco dispersos)
Medidas de dispersión
Descripciones NuméricasMedidas de dispersión
Desviación típica: Es la raíz cuadrada de la varianza
Tiene las misma dimensionalidad (unidades) que la variable. Versión ‘estética’ de la varianza.
Cierta distribución que veremos más adelante (normal o gaussiana) quedará completamente determinada por la media y la desviación típica.
A una distancia de una desv. típica de la media hay ‘más de la mitad’.
A una distancia de dos desv. típica de la media las tendremos casi todas.
2SS
Peso recién nacidos en partos gemelares
50
40
30
20
10
0
Desv. típ. = 568,43
Media = 2023
N = 407,00
Descripciones NuméricasMedidas de dispersión
Centrado en la media y a una desv. típica de distancia hay aproximadamente el 68% de las observaciones.
A dos desviaciones típicas tenemos el 95% (aprox.)
150 160 170 180 190
0.0
00
.01
0.0
20
.03
0.0
40
.05
xs
68.5 %
150 160 170 180 190
0.0
00
.01
0.0
20
.03
0.0
40
.05
x2s
95 %
Descripciones NuméricasMedidas de dispersión
Coeficiente de variación: Es la razón entre la desviación típica y la media.
Mide la desviación típica en forma de “qué tamaño tiene con respecto a la media”
También se la denomina variabilidad relativa. Es frecuente mostrarla en porcentajes
Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25% (variabilidad relativa)
Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables.
Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso que en altura.
No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente
Por ejemplo 0ºC ≠ 0ºF Los ingenieros electrónicos hablan de la razón ‘señal/ruido’ (su inverso).
x
S
xCv
Descripciones Numéricas
Medidas de forma
Asimetría o sesgo
Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha.
En las distribuciones simétricas media y mediana coinciden. Si sólo hay una moda también coincide
La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución.
La media tiende a desplazarse hacia las valores extremos (colas).
Las discrepancias entre las medidas de centralización son indicación de asimetría.
Descripciones Numéricas
Medidas de forma
Asimetría o sesgo
g1< 0 Asimétrica Negativa
g1 = 0 Simétrica
g1 > 0 Asimétrica Positiva
Hay diferentes estadísticos que sirven para detectar asimetría. Basado en diferencia entre estadísticos de tendencia central. Basado en la diferencia entre el 1º y 2º cuartiles y 2º y 3º. Basados en desviaciones con signo al cubo con respecto a la media (coeficiente
de asimetría de Fisher). Los calculados con ordenador. Es pesado de hacer a mano
En función del signo del estadístico diremos que la asimetría es positiva o negativa.
Distribución simétrica asimetría nula.
La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribución con respecto a la distribución normal o gaussiana. Es adimensional. Platicúrtica (aplanada): curtosis < 0 Mesocúrtica (como la normal): curtosis = 0 Leptocúrtica (apuntada): curtosis > 0
En el curso serán de especial interés las mesocúrticas y simétricas (parecidas a la normal).
Descripciones Numéricas
Medidas de forma
Apuntamiento o Curtosis
g2< 0 Platicúrticag2 = 0 Mesocúrticag2 > 0 Leptocúrtica
Ejercicios
1) En una clínica infantil se han ido anotando, durante un mes, el número de metros que el niño anda, seguido y sin caerse, el primer día que comienza a caminar. Obteniéndose así la tabla adjunta:
Se pide:1. Tabla de frecuencias. 2. Diagrama de barras para frecuencias absolutas.3. Diagramas de frecuencias acumuladas (absolutas).4. Mediana, Moda y Cuartiles.5. Media aritmética.
Número de niños 2 6 10 5 10 3 2 2
Número de metros
1 2 3 4 5 6 7 8
Ejercicios
2) Se han medido los pesos y alturas de seis personas, obteniéndose los datos siguientes:
Se quiere saber:a) ¿Qué medidas están más dispersas, los pesos o las alturas?.b) ¿Cuál es el coeficiente de variación de Pearson en cada caso?.
Pesos 65 60 65 63 68 68
Alturas 1,70 1,50 1,68 1,70 1,75 1,80
Ejercicios
3) En la caja de reclutas se ha medido la altura de 110 jóvenes, obteniéndose la siguiente tabla:
Calcúlense:a) Los percentiles 21 y 87 y los deciles 3 y 9.b) Se consideran "bajos" a aquellos cuya altura esté bajo el percentil 3.
¿Cuál es la altura máxima que pueden alcanzar?c) Se consideran "altos" aquellos cuya altura está sobre el percentil 82.
¿Cuál será su altura mínima?.d) ¿En qué percentil estará un joven de altura 1,78?e) Coeficiente de asimetría de Fisher.
Altura Nº jóvenes
1,55-1,60 18
1,60-1,70 31
1,70-1,80 24
1,80-1,90 20
1,90-2,00 17