anÁlisis de regresiÓn logÍstica - usc

24
ANÁLISIS DE REGRESIÓN LOGÍSTICA TEMA IV

Upload: others

Post on 16-Oct-2021

18 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

ANÁLISIS DE

REGRESIÓN LOGÍSTICA

TEMA IV

Page 2: ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

Modelos Multivariantes 2

Regresión Logística. En Rial, A. y Varela, J. (2008). Estadística

Práctica para la Investigación en Ciencias de la Salud. Coruña: Netbiblo. Páginas 223-246.

LECTURA OBLIGATORIA

Page 3: ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

Modelos Multivariantes 3

INTRODUCCIÓN

Predecir la probabilidad de que un evento ocurra Gran utilidad en medicina y Ps. Clínica: identificar factores de riesgo y factores de protección, estimar cuánto aumenta la probabilidad de sufrir una patología si se dan una serie de característica o condiciones, …

Logística Binaria y Logística Multinomial

¿Por qué recurrir a la RL? Posibilidad de incorporar VI categóricas

Page 4: ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

Modelos Multivariantes 4

EJEMPLOS

ESTIMAR LA PROBABILIDAD DE QUE UN INDIVIDUO SUFRA UN INFARTO A

PARTIR DE:

Nivel de colesterol

Edad

Presión arterial

Sexo

Antecedentes familiares

ESTIMAR LA PROBABILIDAD DE QUE UN DETERMINADO SUJETO SUFRA

ESQUIZOFRENIA, EN FUNCIÓN DE UNA SERIE DE VIs

PREDECIR EL ÉXITO O FRACASO DE UNA TERAPIA

CONOCER LAS VARIABLES QUE EXPLICAN LA ABSTENCIÓN ELECTORAL,

el absentismo laboral, el burnout, etc.

Page 5: ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

Modelos Multivariantes 5

FILOSOFÍA

¿Qué hace la RL?

A partir de las puntuaciones de los sujetos en diferentes VIs, se

estiman probabilidades para poder hacer pronósticos.

Se estima la probabilidad (P) de que la VD presente uno de los dos

valores posibles ( 0= No se rehabilita; 1= Se rehabilita) en función

de cómo se comporta en determinadas VI.

Si la probabilidad estimada es menor de 0.5 la predicción será “No

se rehabilita”.

Page 6: ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

Modelos Multivariantes 6

Se compara la probabilidad de ocurrencia de un evento con la probabilidad de

que no ocurra. Al cociente entre ambos se le denomina ODD.

Se trata de identificar aquellas variables que implican cambios en ese ratio de

probabilidad, aumentándolo o disminuyéndolo de forma significativa.

La ODD RATIO sería la razón o cociente entre dos ODDs. Permite comparar

el pronóstico realizado bajo dos situaciones o condiciones distintas (Ej: La

proporción de éxito/fracaso escolar es 5 veces menor en familias

desectructuradas que en familias estructuradas).

Lo que la regresión logística pretende es identificar aquellas VI que hacen variar

esa ODD.

TÉRMINOS QUE DEBES DOMINAR

)1(1

)1(

YP

YP

Page 7: ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

Modelos Multivariantes 7

Lo que se estima en la Regresión Logística para cada sujeto no es un valor de

Y’, sino un LOGIT, es decir, el logaritmo de la probabilidad de que le ocurra

un evento, frente a la probabilidad de que no le ocurra.

Se puede definir también como el Logaritmo de la ODD de cada sujeto, esto

es:

El LOGIT es, precisamente, la VD en la Regresión Logística.

)1(1

)1(

YP

YPLn

TÉRMINOS QUE DEBES DOMINAR

Page 8: ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

Modelos Multivariantes 8

EL MODELO

Dado que debemos llegar a un cociente de Probabilidades, el modelo

debe asumir una expresión matemática particular, concretamente

logarítmica:

La regresión logística utiliza una Función de Enlace Logarítmica, para pasar de los

valores cualesquiera en las VI a predicciones en términos de un cociente

probabilidades y, de ahí a una Probabilidad (entre 0 y 1) y , finalmente a un pronóstico

concreto.

El modelo de regresión logística asume que existe una relación lineal entre los

predictores y el logaritmo de la probabilidad de ocurrencia de un evento, frente a la no

ocurrencia de dicho evento (LOGIT).

nnXXXYP

YPLn

...

)1(1

)1(2211

Page 9: ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

Modelos Multivariantes 9

SUPUESTOS

Menos exigente que el A.D. No es necesario que las VI

sean métricas, normales, y ni siquiera cuantitativas.

1. El modelo debe estar especificado correctamente, con

las VI relevantes

2. La relación entre cada VI y el Logaritmo de las ODD debe

ser lineal

3. Que no exista multicolinealidad

Page 10: ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

Modelos Multivariantes 10

ESTIMACIÓN DEL MODELO

¿Cómo se estima el modelo en la RL? En la Regresión Lineal se hacía siguiendo el criterio de Mínimos

Cuadrados, mientras que en la RL se hace siguiendo el de Máxima

Verosimilitud.

Se generan Coeficientes Logísticos para las distintas VI.

Dichos coeficientes de la ecuación (1, 2, 3,...) se utilizan para hacer las

estimaciones de probabilidad de que ocurra el evento objeto de estudio.

Al igual que en la Regresión Lineal disonemos del método

directo (ENTER) y el de Pasos (STEPWISE: Adelante Wald).

Page 11: ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

Modelos Multivariantes 11

EVALUACIÓN DEL AJUSTE

Un primer indicador es el valor de –2LL, que vendría a ser como la parte no

explicada por el modelo. Excesivamente rudimentario: no está acotado. Cuanto

más próximo a cero mejor será el ajuste.

SPSS facilita también un contraste 2 para saber si la capacidad explicativa

del modelo puede considerarse o no estadísticamente significativa.

También disponemos de un % de sujetos correctamente clasificados

(debemos de ganarle al menos ¼ al azar: al menos 62.5%).

También tenemos dos R2:

– R2 de Cox y Snell (de 0 a 1, pero no suele alcanzar el 1 aunque el modelo sea

perfecto)

– R2 de Nagelkerke (versión corregida del anterior)

Page 12: ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

Modelos Multivariantes 12

INTERPRETACIÓN

¿Qué VI son buenos predictores?

En la Regresión Lineal se recurría a un contraste “t” para saber si cada uno

de los predictores eran o no significativamente distintos de cero. En la RL se

recurre al Estadístico de Wald.

Un coeficiente “” positivo implica un aumento en la probabilidad de

ocurrencia del evento y negativo una disminución. Además Un “”

negativo se corresponde con un ODD RATIO menor de 1 (una

“desventaja”). El SPSS le llama Exp(b)

Justamente el valor de Exp(b) indica cuánto mejor o peor es el

pronóstico en función de los valores que asume la VI. La VENTAJA o

desventaja de una poseer una determinada característica, condición o

factor.

Nos permite identificar: FACTORES DE RIESGO y FACTORES DE

PROTECCIÓN

Page 13: ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

Modelos Multivariantes 13

PARALELISMOS CON LA RLM

Contrastes globales: “F” Anova

2

Contrastes particulares “t” Student

Wald

Método de estimación Mínimos cuadrados

Máxima verosimilitud

Page 14: ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

Modelos Multivariantes 14

EJEMPLO

70 pacientes víctimas de accidentes de tráfico y con daño cerebral (TCE)

Se desea saber si variables como el Tipo de Lesión, la Atención, el Apoyo Familiar, o laEdad del sujeto influyen en la rehabilitación del paciente

VD dicotómica: REHABILITACIÓN

0 (NO SE REHABILITA)

1 (SE REHABILITA)

• 3 Variables explicativas cualitativas (dicotómicas)

APOYO:

0 (SIN APOYO FAMILIAR)

1 (CON APOYO FAMILIAR)

LESIÓN:

0 (DIFUSA)

1 (FOCALIZADA)

ATENCIÓN

0 (NO INMEDIATA)

1 (INMEDIATA)

• 1 Variable explicativa cuantitativa: EDAD

Page 15: ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

Modelos Multivariantes 15

Sea 0= No se rehabilita y 1= Se rehabilita. A partir de los datos de

una tabla de contingencia podemos calcular 4 probabilidades:

La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que no

se rehabilite (ODD para la rehabilitación)

La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que no

se rehabilite, si es que se trata de una lesión focalizada (ODD para la

rehabilitación con lesión focalizada)

La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que no

se rehabilite, si es que se trata de una lesión difusa (ODD para la rehabilitación

con lesión difusa)

El cociente entre las dos ODD, la obtenida para una lesión focalizada y la

obtenida para una lesión difusa (ODD RATIO).

EJEMPLO

Page 16: ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

Modelos Multivariantes 16

La probabilidad de que el sujeto se rehabilite frente a la probabilidad de

que no se rehabilite (ODD para la rehabilitación). P/1-P

43/27=1.59, o lo que es lo mismo 43/70

27/70

Es decir, por cada individuo no rehabilitado encontramos 1.59 rehabilitados

Tabla de contingencia REHABILITACAIÓN * LESIÓN

19 8 27

57,6% 21,6% 38,6%

14 29 43

42,4% 78,4% 61,4%

33 37 70

100,0% 100,0% 100,0%

Recuento

% de LESIÓN

Recuento

% de LESIÓN

Recuento

% de LESIÓN

NO SE REHABILITA

SE REHABILITA

REHABILITACAIÓN

Total

DIFUSA FOCALIZADA

LESIÓN

Total

EJEMPLO

Page 17: ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

Modelos Multivariantes 17

La probabilidad de que el sujeto se rehabilite frente a la probabilidad

de que no se rehabilite, si es que se trata de una lesión FOCALIZADA

(ODD para la rehabilitación con lesión focalizada) 29/8= 3.62

PRIMER DATO: como la ODD focalizada es mayor que la ODD global

(ese nivel de la variable hace que aumente la probabilidad de

rehabilitación), se trataría de un FACTOR DE PROTECCIÓN

Tabla de contingencia REHABILITACAIÓN * LESIÓN

19 8 27

57,6% 21,6% 38,6%

14 29 43

42,4% 78,4% 61,4%

33 37 70

100,0% 100,0% 100,0%

Recuento

% de LESIÓN

Recuento

% de LESIÓN

Recuento

% de LESIÓN

NO SE REHABILITA

SE REHABILITA

REHABILITACAIÓN

Total

DIFUSA FOCALIZADA

LESIÓN

Total

EJEMPLO

Page 18: ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

Modelos Multivariantes 18

La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que

no se rehabilite, si es que se trata de una lesión difusa (ODD para la

rehabilitación con lesión DIFUSA) 14/19= 0.73

SEGUNDO DATO: si la ODD difusa es menor que la global, ese nivel de la

variable hace que disminuya la probabilidad de rehabilitación y, por tanto, se

trataría de un FACTOR DE RIESGO

Tabla de contingencia REHABILITACAIÓN * LESIÓN

19 8 27

57,6% 21,6% 38,6%

14 29 43

42,4% 78,4% 61,4%

33 37 70

100,0% 100,0% 100,0%

Recuento

% de LESIÓN

Recuento

% de LESIÓN

Recuento

% de LESIÓN

NO SE REHABILITA

SE REHABILITA

REHABILITACAIÓN

Total

DIFUSA FOCALIZADA

LESIÓN

Total

EJEMPLO

Page 19: ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

Modelos Multivariantes 19

Variables en la ecuación

1,593 ,532 8,952 1 ,003 4,920

-,305 ,352 ,752 1 ,386 ,737

LESIÓN

Constante

Paso

1a

B E.T. Wald gl Sig. Exp(B)

Variable(s) introduc ida(s) en el paso 1: LESIÓN.a.

El cociente entre las ODDs obtenidas con LESIÓN FOCALIZADA Vs. DIFUSA

es 3.62/0.73=4.92; esto es,

La ODD RATIO par la variable tipo de lesión sería 4.92. La proporción de

rehabilitados es CASI 5 VECES MAYOR en el caso de una lesión focalizada

que de una difusa.

ODD

RATIO

TERCER DATO: si para una determinada característica la ODD RATIO>1, poseer dicha

característica supondría una ventaja de cara a la probabilidad de ocurrencia de un

evento, en este caso rehabilitarse. Si fuese similar a 1, se trataría de una variable

irrelevante en términos de pronóstico.

EJEMPLO

Page 20: ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

Modelos Multivariantes 20

Veamos el modelo completo

Variables en la ecuación

-,152 ,040 14,808 1 ,000 ,859

4,697 1,130 17,272 1 ,000 109,623

1,770 ,665 7,086 1 ,008 5,872

-,154 ,041 13,736 1 ,000 ,858

3,950 1,177 11,258 1 ,001 51,915

EDAD

Constante

Paso

1a

LESIÓN

EDAD

Constante

Paso

2b

B E.T. Wald gl Sig. Exp(B)

Variable(s) introduc ida(s) en el paso 1: EDAD.a.

Variable(s) introduc ida(s) en el paso 2: LESIÓN.b.

Page 21: ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

Modelos Multivariantes 21

Si sustituimos los parámetros

)(77.1)(15.095.3)]1(ln[ LesiónEdadYodd

Para el Sujeto nº 1 (de 19 años y con lesión difusa) el logaritmo de la ODD de

rehabilitarse sería:

Variables en la ecuación

-,152 ,040 14,808 1 ,000 ,859

4,697 1,130 17,272 1 ,000 109,623

1,770 ,665 7,086 1 ,008 5,872

-,154 ,041 13,736 1 ,000 ,858

3,950 1,177 11,258 1 ,001 51,915

EDAD

Constante

Paso

1a

LESIÓN

EDAD

Constante

Paso

2b

B E.T. Wald gl Sig. Exp(B)

Variable(s) introduc ida(s) en el paso 1: EDAD.a.

Variable(s) introduc ida(s) en el paso 2: LESIÓN.b.

1.1)0(77.1)19(15.095.3)]1(ln[ Yodd

Page 22: ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

Modelos Multivariantes 22

INTERPRETACIÓN DEL LOGIT

Para pasar de un LOGIT (que es un logaritmo) a una razón de

probabilidades (la ODD entre rehabilitarse y no rehabilitarse), se recurre a

la INVERSA DEL LOGARITMO, en este caso:

Inv Log (1.1) =3

INTERPRETACIÓN: para un sujeto con estas características la

probabilidad de rehabilitarse es 3 veces mayor que de no rehabilitarse.

Pero, ¿cuál es concretamente la probabilidad que tiene de rehabilitarse?.

Habría que despejar la ecuación:

31

P

PODD

PPP 33)1(3

75.04

3P

Page 23: ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

Modelos Multivariantes 23

¿Y si es una lesión FOCALIZADA?

Repitamos el cálculo ahora para el caso de una lesión FOCALIZADA. El resto de

las condiciones son iguales:

Inv Log (2.87) =17.6

INTERPRETACIÓN: En el caso de UNA LESIÓN FOCALIZADA por cada paciente

no rehabilitado tendríamos 17 rehabilitados. En el caso de LESIÓN DIFUSA por

cada paciente no rehabilitado tenemos 3 rehabilitados.

Los ingleses apostarían: Si es difusa, 3 a 1 a que se rehabilita; si es focalizada

17 a 1. Existe una manera de cuantificar esa ventaja: la ODD RATIO

87.2)1(77.1)19(15.095.3)]1(ln[ Yodd

Page 24: ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

Modelos Multivariantes 24

Variables en la ecuación

-,152 ,040 14,808 1 ,000 ,859

4,697 1,130 17,272 1 ,000 109,623

1,770 ,665 7,086 1 ,008 5,872

-,154 ,041 13,736 1 ,000 ,858

3,950 1,177 11,258 1 ,001 51,915

EDAD

Constante

Paso

1a

LESIÓN

EDAD

Constante

Paso

2b

B E.T. Wald gl Sig. Exp(B)

Variable(s) introduc ida(s) en el paso 1: EDAD.a.

Variable(s) introduc ida(s) en el paso 2: LESIÓN.b.

INTERPRETACIÓN DEL EXP(B)

Si dividimos la ODD para focalizada entre la ODD para difusa,

obtendremos la ventaja (o desventaja) de tener una lesión focalizada

a la hora de hacer un pronóstico de rehabilitación. Veamos:

ODD (focalizada) = 17.6 ODD (difusa) = 3

17.6 / 3= 5.87

que es exactamente el valor de EXP(B)