estadÍstica descriptiva de interés para la epidemiología dra. julia wärnberg dpto. medicina...
TRANSCRIPT
ESTADÍSTICA DESCRIPTIVA
de interés para la Epidemiología
Dra. Julia Wärnberg
Dpto. Medicina Preventiva y Salud PúblicaUniversidad de Málaga
Grupo de Epidemiología Nutricional, Actividad Física y Prevención de la Obesidad
CIBER de Fisiopatología de la Obesidad y NutriciónInstituto de Salud Carlos III
Dra. Julia Wärnberg
Dpto. Medicina Preventiva y Salud PúblicaUniversidad de Málaga
Grupo de Epidemiología Nutricional, Actividad Física y Prevención de la Obesidad
CIBER de Fisiopatología de la Obesidad y NutriciónInstituto de Salud Carlos III
Plantear hipótesis
Obtenerconclusiones
Recoger datosy analizarlos
Diseñar experimento
Método científico y estadística
Estadística descriptiva de interés para la epidemiología
• CONSTANTES: Nunca cambian.
• VARIABLES: Cambian entre personas o en una
misma persona a lo largo del tiempo.
Todas aquellas características que explican el proceso Salud-Enfermedad
Variables básicas en Epidemiología
•ENFERMEDADES•TRAUMATISMOS Y ACCIDENTES•FACTORES DE RIESGO•EVENTOS VITALES
•EDAD•GENERO•OCUPACION•ESTILO DE VIDA•OTRAS
CAMBIOS ENDEMICOSCAMBIOS CICLICOSCAMBIOS ESTACIONALESCAMBIOS EPIDEMICOS
•DE EXPOSICION•DE OCURRENCIA•DE REGISTRO•DE OBSERVACION
Problema de Salud
Persona
Tiempo
Lugar
Conjunto de métodos utilizados para recoger, interpretar y
analizar un conjunto de datos cuya característica esencial es la
variabilidad, de manera que podamos obtener de ellos ciertos
conocimientos
Estadística
Estadística Descriptiva: organización, presentación y síntesis de los datos de una manera lógica y científica.
Estadística Inferencial o Analítica: bases lógicas mediante las que se establecen conclusiones sobre la población en estudio a partir de los resultados obtenidos en muestras. Trabaja con los datos que le proporciona la Estadística Descriptiva.
Estadística
• Población (“population”): conjunto completo de todos los individuos o elementos que tienen una característica común, y sobre los cuales se referirán las conclusiones del estudio realizado.
• Muestra (“sample”): subconjunto de la población, a partir del cual se obtendrán resultados que se intentarán generalizar al resto. ¿Debería ser “representativo”?
• Sujetos de estudio (“subjects”): elementos que componen la población o la muestra.
Estadística: conceptos
• Variable: característica o propiedad observable que cambia o puede cambiar en un individuo o grupo de individuos, pudiendo tomar diferentes valores.
• Dato: cada uno de los valores que puede tomar la variable.
• Medir: asignar valores a la variable en estudio.
Estadística: conceptos
a) Cualitativas o categóricas: expresan cualidades, y no adoptan valores numéricos. Cuando tienen dos categorías, se denominan dicotómicas.
1.Nominales: los datos se agrupan por categorías en las cuales se está o no incluido. Se clasifica.
2.Ordinales: existe una relación de orden dentro de las categorías. Se jerarquiza.
Tipos de variables
b) Cuantitativas: son cuantificables, toman valores numéricos.
1.Discretas: sus valores son siempre números enteros. Se cuentan.
2.Continuas: la variable puede adoptar cualquier valor numérico. Se miden.
Tipos de variables
1. Número de accidentes con víctimas ocurrido en una ciudad en un día
A) Cualitativa nominal
B) Cualitativa ordinal
C) Cuantitativa discreta
D) Cuantitativa continua
C
2. Colesterol en sangre (mg/dl) D3. Grado funcional de un paciente cardiópata (I/II/III/IV)
B
4. Grupo de tratamiento con 4 fármacos distintos (A/B/C/D)
A
5. Grupo de tratamiento para perder peso (control /dieta / dieta + ejercicio / dieta + ejercicio + fármaco)
B
Ejemplos
6. Color de los ojos (marrón/negro/gris/azul/verde, etc) A
7. Número de dientes empastados C
8. Índice de masa corporal (peso en Kg dividido por la talla en metros elevada al cuadrado)
D
A) Cualitativa nominal
B) Cualitativa ordinal
C) Cuantitativa discreta
D) Cuantitativa continua
Ejemplos
Es buena idea codificar las variables como números para poder procesarlas con facilidad en un ordenador.
Es conveniente asignar “etiquetas” a los valores de las variables para recordar qué significan los códigos numéricos.– Sexo (Cualit: Códigos
arbitrarios)• 1 = Hombre• 2 = Mujer
– Raza (Cualit: Códigos arbitrarios)
• 1 = Blanca• 2 = Negra,...
– Felicidad Ordinal: Respetar un orden al codificar.
• 1 = Muy feliz• 2 = Bastante feliz• 3 = No demasiado feliz
Se pueden asignar códigos a respuestas especiales como
• 0 = No sabe• 99 = No contesta...
Estas situaciones deberán ser tenidas en cuentas en el análisis. Datos perdidos (‘missing data’)
Aunque se codifiquen como números, debemos recordar siempre el verdadero tipo de las variables y su significado cuando vayamos a usar programas de cálculo estadístico.
No todo está permitido con cualquier tipo de variable.
Presentación ordenada de datos
0
1
2
3
4
5
6
7
Hombre Mujer
Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información.
Las dos exponen ordenadamente la información recogida en una muestra.
Sexo Frec Frec. relat.porcentaje
Hombre
4 4/10=0,4 =40%
Mujer 6 6/10=0,6 =60%
Total 10
Muestra
Gráficos para variables
cualitativasDiagramas de barras
– Alturas proporcionales a las frecuencias (abs. o rel.)
– Se pueden aplicar también a variables discretas
Diagramas de sectores (tartas, polares)– No usarlo con variables
ordinales.– El área de cada sector es
proporcional a su frecuencia (abs. o rel.)
Gráficos diferenciales para variables numéricas
Diagramas barras para variables discretas
Se deja un hueco entre barras para indicar los valores que no son posibles
Histogramas para variables continuas
El área que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo.
0 1 2 3 4 5 6 7 Ocho o más
Número de hijos
100
200
300
400
Rec
uen
to
419
255
375
215
127
54
24 23 17
20 40 60 80
Edad del encuestado
50
100
150
200
250
Rec
uen
to
Valen con frecuencias absolutas o relativas.
• Parámetro: índice o valor que resume o caracteriza alguna variable de la población y se calcula a partir de la información obtenida de todos los miembros de esa población. Los parámetros, por lo tanto, son poblacionales.
• Estadísticos: los mismos índices definidos como parámetros, pero calculados, en lugar de en toda la población, en una muestra de la misma.
• Estimadores: estadísticos que toman valores próximos a los parámetros de la población de la que proceden.
Estadística: conceptos
Parámetros estadísticosMedidas de centralización, dispersión,
posición y forma
Objetivo: resumir la información que nos proporcionan los datos.
Parámetros estadísticosMedidas de centralización, dispersión,
posición y forma
Parámetros estadísticos
Centralización– Indican valores con respecto a los que los datos parecen agruparse.
• Media, mediana y moda
Dispersión– Indican la mayor o menor concentración de los
datos con respecto a las medidas de centralización.
• Desviación típica, coeficiente de variación, rango, varianza
Posición– Dividen un conjunto ordenado de datos en grupos
con la misma cantidad de individuos.• Cuantiles, percentiles, cuartiles, deciles,...
Forma– Asimetría– Apuntamiento o curtosis
Media aritmética (promedio), “mean”
Medidas de centralización
(o tendencia central)
n
xx i
Suma de los valores dividido por el tamaño muestral.Media de 2,2,3,7 es (2+2+3+7)/4=3,5
Conveniente cuando los datos se concentran simétricamente con respecto a ese valor.
Muy sensible a valores extremos.
Media aritmética
TABLA 1
PACIENTE TAS TAD
1 105 60
2 110 70
3 120 75
4 120 80
5 120 80
6 125 80
7 130 90
8 140 90
9 150 90
10 160 95
12810
1280
10
160150140130125120120120110105
x
Medidas de centralización
Observación equidistante de los extremos.
5,1222
125120
MEDIANA
TABLA 1
PACIENTE TAS TAD
1 105 60
2 110 70
3 120 75
4 120 80
5 120 80
6 125 80
7 130 90
8 140 90
9 150 90
10 160 95
Medidas de centralización: Mediana
Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos (percentil 50).
Si el número de datos es par, se elige la media de los dos datos centrales.
Es conveniente cuando los datos son asimétricos.
No es sensible a valores extremos.
Valor de la variable que se presenta con mayor frecuencia.
TABLA 1
PACIENTE TAS TAD
1 105 60
2 110 70
3 120 75
4 120 80
5 120 80
6 125 80
7 130 90
8 140 90
9 150 90
10 160 95
Medidas de centralización: Moda
Cuantiles
Valores que dividen a la variable en una serie de partes iguales: cuartiles, deciles, percentiles, etc.
Medidas de posición
Estadísticos de posición
Percentil de orden k = cuantil de orden k/100– La mediana es el percentil 50– El percentil de orden 15 deja por debajo al 15% de
las observaciones. Por encima queda el 85%
Estadísticos de posición
Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares.– Primer cuartil = Percentil 25 = Cuantil 0,25– Segundo cuartil = Percentil 50 = Cuantil 0,5 =
mediana– Tercer cuartil = Percentil 75 = cuantil 0,75
Recorrido o rango intercuartílico
13 QQRI
Ejemplos• El 5% de los recién nacidos tiene un peso demasiado
bajo. ¿Qué peso se considera “demasiado bajo”?• Percentil 5 o cuantil 0,05
Percentil 5 del peso
Peso al nacer (Kg) de 100 niños
frecu
enci
a
1 2 3 4 5
05
1015
2025
Ejemplos¿Qué peso es superado sólo por el 25% de los individuos?
• Percentil 75 o tercer cuartil
Percentil 75 del peso
Peso (Kg) de 100 deportistas
frecu
enci
a
50 55 60 65 70 75 80 85
05
1015
2025
30
EjemplosEl colesterol se distribuye simétricamente en la población.Supongamos que se consideran patológicos los valores
extremos. El 90% de los individuos son normales . ¿Entre qué valores se
encuentran los individuos normales?Percentiles 5 y 95
Colesterol en 100 personas
frecu
enci
a
180 200 220 240 260
05
1015
20
Ejemplos– ¿Entre qué valores se encuentran la mitad de los
individuos “más normales” de una población?• Entre el cuartil 1º y 3º
Percentiles 25 y 75
Altura (cm) en 100 varones
frecu
enci
a
150 160 170 180 190
05
1015
20
Desviación estándar o típica y varianza
Medidas de dispersión
1
2
2
n
xxs
1
)( 22
n
xxss
Varianza S2 (‘Variance’): Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media. Sus unidades son el cuadrado de las de la variable.
Desviación típica S (‘standard deviation’)Es la raíz cuadrada de la varianza. Tiene las misma dimensionalidad (unidades) que la variable.
Desviación estándar o típica y varianza
Medidas de dispersión
9
)128140()128130()128125()128120(3)128110()128105( 2222222 s
1,3019
2)128160(2)128150(
3,171,3012 ss
TABLA 1
PACIENTE TAS TAD
1 105 60
2 110 70
3 120 75
4 120 80
5 120 80
6 125 80
7 130 90
8 140 90
9 150 90
10 160 95
Coeficiente de variación (o variabilidad relativa)
Medidas de dispersión
100x
sCV
Es la razón entre la desviación típica y la media. Mide la desviación típica en forma de “qué tamaño tiene con respecto a la media”.
Es una cantidad adimensional (es frecuente mostrarla en porcentajes). Interesante para comparar la variabilidad de diferentes variables.
Coeficiente de variación
Medidas de dispersión
5,13100128
3,17TASCV
2,1310081
7,10TADCV
TABLA 1
PACIENTE TAS TAD
1 105 60
2 110 70
3 120 75
4 120 80
5 120 80
6 125 80
7 130 90
8 140 90
9 150 90
10 160 95