estadística iii. regresión logística. Ángela segura
DESCRIPTION
Estadística III. Regresión logística. Ángela Segura. Universidad CES.TRANSCRIPT
Ángela María Segura C.
Angela María Segura Cardona [email protected]
Docente
Medellín, marzo 12 a abril 04 de 2013
MAESTRIA EN SALUD PÚBLICA IV
ESTADÍSTICA III
Ángela María Segura C.
ANÁLISIS DE REGRESIÓN LOGÍSTICA
Ángela María Segura C.
Y(Cualitativa)
X3
X6
X4
X1
X2
X5
Londoño, JL. Notas de Clase, 2005
Ángela María Segura C.
P(Y=1) 0,50
Z 0
1
•
•
•
• •
• •
•
• •
Londoño JL. Metodología de la investigación epidemiológica, 3a. edición. Bogotá, El Manual Moderno, 2004.
( ) 1 1 Y P = =
1 + exp -(0+1X1)
Ángela María Segura C.
Ventajas que tiene la definición de la probabilidad de enfermar
por medio de la función logística
• P(Y=1) es función de múltiples factores:
– De riesgo
– De confusión
– De interacción
• Se obtienen OR’s ajustadas
Londoño JL. Metodología de la investigación epidemiológica, 3a. edición. Bogotá, El Manual Moderno, 2004.
P(Y=1)
0,50
Z
1
•
•
• • •
•
• • •
Ángela María Segura C.
Expresa(n) la probabilidad de que ocurra el hecho en cuestión como
función de cierta(s) variable(s)
Término independiente o constante
Coeficientes de regresión logística
0
i,i=1...k
( ) 1 1 Y P = = 1 + exp -(0 + 1X1)
( ) 1 1 Y P = =
1 + exp -(0 + 1X1+2X2 +....+ kXk)
Grisales H. Notas de clase
Ángela María Segura C.
Pasos para la construcción del modelo predictivo
PASO 1: SELECCIÓN PRELIMINAR DE LAS VARIABLES X QUE HAN DE SER CONSIDERADAS
Criterio: Se descartan las variables que en un análisis bivariado presentan un valor de p > 0,25. Cuantitativas: Si se tiene conocimiento de que el riesgo aumenta exponencialmente se pueden tratar como cuantitativas; de lo contrario, categorizarlas. Interacciones: Definición basada en conocimiento o hipótesis. PASO 2: CONSTRUCCIÓN DEL MODELO (método Forward,
Backward, Stepwise) Prueba: Prueba de Wald Hipótesis: Ho: La v. independiente no influye en la dependiente Ha: La v. independiente influye sobre la dependiente
Londoño JL. Metodología de la investigación epidemiológica, 3a. edición. Bogotá, El Manual Moderno, 2004.
Ángela María Segura C.
Londoño JL. Metodología de la investigación epidemiológica, 3a. edición. Bogotá, El Manual Moderno, 2004.
PASO 2: Construcción del modelo
Método de construcción
Todas las variables entran al modelo.
Es un método de selección paso a paso que inicia la modelación considerando únicamente la constante, en el primer paso entra aquella
variable que presentó mayor SCORE, siempre y cuando este sea significativo, y así sucesivamente.
Es otro método de selección de variables paso a paso, inicialmente incluye todas las variables, eliminando a continuación aquellas que no son
significativas para el modelo, usando el estadístico de Wald.
Enter
Forward
Backward
Ángela María Segura C.
Significado de los coeficientes
SIGNIFICADO DE LOS i
Xi Aumenta la Probabilidad de
ocurrencia del evento
Xi No tendría peso en el modelo
Xi Disminuye la probabilidad de
ocurrencia del evento i 0
i>0
i<0
Grisales H. Notas de clase
PASO 2: Construcción del modelo
Ángela María Segura C.
Variables artificiales
Características totales representadas
Clase social
Alta Media Baja
Alta 0 0 Media 1 0 Baja 0 1
X1 X2
Grisales H. Notas de clase
PASO 2: Construcción del modelo
Ángela María Segura C.
Londoño JL. Metodología de la investigación epidemiológica, 3a. edición. Bogotá, El Manual Moderno, 2004.
PASO 3: EVALUACIÓN DEL MODELO Prueba: Prueba de Hosmer-Lemeshow Hipótesis: Ho: Los valores observados=Los valores esperados
El modelo es perfecto Ha: Los valores observados difieren de los esperados El modelo no es adecuado
PASO 4: ANALISIS DE CORRELACIÓN (R) Y COEFICIENTE DE DETERMINACIÓN (R2)
PASO 5: ANALISIS DE RESIDUOS Normalidad, varianza constante e incorrelación
Pasos para la construcción del modelo predictivo
Ángela María Segura C.
PASO 1: SELECCIÓN PRELIMINAR DE LAS VARIABLES X QUE HAN DE SER CONSIDERADAS
Criterio: Se descartan las variables que en un análisis bivariado presentan un valor de p > 0,25. Cuantitativas: Si se tiene conocimiento de que el riesgo aumenta exponencialmente se pueden tratar como cuantitativas; de lo contrario, categorizarlas. Interacciones: Definición basada en conocimiento o hipótesis. PASO 2: CONSTRUCCIÓN DEL MODELO (método Enter) Medida de asociación: OR, RR ó RP con IC 95%
Pasos para la construcción del modelo explicativo
Ángela María Segura C.
Influencia que puede tener fumar sobre padecer enfermedad coronaria.
Y=EC 0
1 X: fumar
0
1
Chi-square df Significance
10.329 1 0.0013
65.000 63 .4069
Model chi-square
Goodness of fit
VARIABLES EN LA ECUACION
Variable SE Wald df Sg R Exp()
Fuma
Constant.
1.9972
-2.2336
.6988
.6075
8.168
13.518
1
1
0.0043
0.0002
.2836 7.3683
Grisales H. Notas de clase
Ángela María Segura C.
INFLUENCIA QUE PUEDE TENER BEBER ALCOHOL, COLESTEROL BASAL CON POSIBLE
INTERACCION DE BEBER Y COLESTEROL BASAL EN LA ENFERMEDAD CORONARIA
Chi-squere df Significance
-2 Loglikelihood
Model chi-squere
Goodness of fit
13.240
63.463
57.458
61
3
61
1.000
0.000
.6050
VARIABLES EN LA ECUACION
Variable SE Wald df Signif. R Exp()
CONSTANT -20.616 8.20 6.31 1 0.0120
BEBE -412.896 27.34 0.0228 1 .88 0.00 0.000
CB 0.0769 0.331 5.389 1 .0202 .2102 1.080
CB BY BEBE 1.6643 10.99 0.029 1 .8796 .000 5.2819
Grisales H. Notas de clase