carbajal introduccion a_la_regresion_logistica

29
Dra. Luz Carbajal Arroyo Departamento de Estadística, Demografía, Humanidades y Ciencias Sociales – Universidad Peruana Cayetano Heredia Marzo, 2013 1 Asociación para el Desarrollo y la Investigación Estudiantil en Ciencias de la Salud (ADIECS),

Upload: adiecs-unmsm

Post on 29-Jun-2015

574 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Carbajal introduccion a_la_regresion_logistica

Dra. Luz Carbajal Arroyo

Departamento de Estadística, Demografía, Humanidades y Ciencias Sociales – Universidad

Peruana Cayetano Heredia

Marzo, 2013

1

Asociación para el Desarrollo y la Investigación Estudiantil en Ciencias de la Salud (ADIECS),

Page 2: Carbajal introduccion a_la_regresion_logistica

Permite realizar estimación de asociaciones cuando la variable de respuesta es dicotómica, es decir, cuando sólo puede tomar dos valores, los cuales comúnmente se refieren a la presencia o ausencia de una característica, de un diagnóstico o, en general, de cualquier condición de salud.

2

Page 3: Carbajal introduccion a_la_regresion_logistica

Variable independiente:

FUMA LA MADRE (si, no)

Variable dependiente o de

respuesta: BAJO PESO AL

NACER

asociación de interés

Presencia (1) Ausencia (0)

SI (1) NO (0)

3

Page 4: Carbajal introduccion a_la_regresion_logistica

Una variable como bajo peso al nacer, se conoce como una variable Bernoulli con un único parámetro de interés: ◦ La probabilidad de que un sujeto presente el

evento de estudio. Esta probabilidad se conoce como p y la distribución de la variable se denota de la siguiente manera:

BAJO PESO ~ Bernoulli(p)

donde:

P [BAJO PESO =1]= p

P [BAJO PESO =0]=1-p

4

Page 5: Carbajal introduccion a_la_regresion_logistica

Podemos recordar que una medida de asociación adecuada para un estudio transversal, con un evento y exposición dicotómica, es la razón o cociente de odds. Hagamos un breve resumen estadístico de lo que hay detrás de esta medida:

Un odds compara la probabilidad de ocurrencia de un evento con la probabilidad de que NO ocurra, bajo las mismas condiciones.

5

Page 6: Carbajal introduccion a_la_regresion_logistica

Si un evento ocurre con probabilidad p, entonces el odds de ocurrencia de ese evento en el grupo expuesto se define como:

1|0

1|11

EXPUESTOEVENTOP

EXPUESTOEVENTOPODDSEXPUESTO

6

Page 7: Carbajal introduccion a_la_regresion_logistica

Exposición:

FUMA

1: Sí 0: No Total

Evento: Bajo Peso

1 : dx positivo a b a+b

0 : dx negativo c d c+d

Total a+c b+d

c

a

ca

cca

a

FUMABAJOPESOP

FUMAPESOBAJOPFumaODDS

1|0

1|11

Entonces, el odds para el grupo que FUMA (el grupo expuesto: FUMA=1) sería:

7

Page 8: Carbajal introduccion a_la_regresion_logistica

d

b

db

ddb

b

FUMABAJOPESOP

FUMAPESOBAJOPFUMAODDS

0|0

0|10

8

Page 9: Carbajal introduccion a_la_regresion_logistica

Un odds NO es una probabilidad, es UN COCIENTE de probabilidades. Es un número mayor o igual a cero. Tan grande como grande sean las posibilidades de estar clasificado como bajo peso en comparación a no tenerlo cuando se restringe la comparación a un grupo de sujetos con un factor (o factores) de riesgo común.

9

Page 10: Carbajal introduccion a_la_regresion_logistica

Para evaluar qué tanto se asocia el fumar con el tener bajo peso al nacer, sería comparar estos dos odds, ya que contrastan la posibilidad de estar clasificado con bajo peso al nacer en las dos situaciones de interés: Fuma o no fuma la madre.

10

Page 11: Carbajal introduccion a_la_regresion_logistica

Por lo anterior, se define a la Razón de odds (OR) como:

bc

ad

d

bc

a

Odd

OddOR

EXPUESTO

EXPUESTO

0

1

Un OR>1 será evidencia de que la exposición se asocia con mayores posibilidades de desarrollar la enfermedad, mientras que un OR<1 reflejará la asociación con una exposición protectora. La interpretación numérica de un OR se realizará en términos multiplicativos ya que la forma de comparación usada entre estos odds fue un cociente.

11

Page 12: Carbajal introduccion a_la_regresion_logistica

Primero conozcamos las variables y la codificación. Se destacan en “negritas” las palabras que refieren

comandos específicos del paquete STATA.

desc low smoke

storage display value

variable name type format label variable label

-----------------------------------------------------------

low byte %8.0g low, 1:bajo peso, 0:normal

smoke byte %8.0g smoke, 1:Fuma, 0:no fuma

12

Page 13: Carbajal introduccion a_la_regresion_logistica

tab low smoke

| smoke

low | 0:no 1:si | Total

-----------+----------------------+----------

0: Normal | 86 44 | 130

1: Bajo | 29 30 | 59

-----------+----------------------+----------

Total | 115 74 | 189

13

Page 14: Carbajal introduccion a_la_regresion_logistica

68.0

74

4474

30

1|0

1|11

FUMABAJOPESOP

FUMABAJOPESOPFUMAOdd

34.0

115

86115

29

0|0

0|10

FUMABAJOPESOP

FUMABAJOPESOPFUMAOdd

0.234.0

68.0

0

1

FUMAOdd

FUMAOddOR

14

Page 15: Carbajal introduccion a_la_regresion_logistica

. tabodds low smoke, or --------------------------------------------------------- smoke | Odds Ratio chi2 P>chi2 [95% Conf. Interval] --------------------------------------------------------- no | 1.000000 . . . . si | 2.021944 4.90 0.0269 1.069897 3.821169 --------------------------------------------------------- Test of homogeneity (equal odds): chi2(1) = 4.90 Pr>chi2 = 0.0269 Score test for trend of odds: chi2(1) = 4.90 Pr>chi2 = 0.0269

15

Page 16: Carbajal introduccion a_la_regresion_logistica

El odds de presentar bajo peso en el grupo de madres que fuma es prácticamente el doble del odds correspondiente para el grupo que no fuma. Como el OR > 1, podemos interpretar que si la madre fuma se tiene el doble de riesgo que el niño pueda tener bajo peso al nacer en comparación a que la madre no fume.

16

Page 17: Carbajal introduccion a_la_regresion_logistica

Un odds es una expresión que depende del parámetro de interés cuyo rango de posibles valores es el intervalo [0, ∞).

De la función logaritmo natural sabemos que puede aplicarse únicamente a valores en el intervalo (0, ∞) pero de ella obtenemos cualquier número real (igual que una recta). Además, tiene la propiedad de ser una función monótona creciente, es decir, tiene un comportamiento ascendente en todo su recorrido, lo que la hace atractiva como modelo de una relación dosis-respuesta.

17

Page 18: Carbajal introduccion a_la_regresion_logistica

Transformamos logarítmicamente y tratamos de modelar esto como una función lineal. Pensemos en un caso simple en el que sólo tengamos una variable independiente.

Definamos la transformación logit(p) como

Xp1

pln)p(logit 10

18

Page 19: Carbajal introduccion a_la_regresion_logistica

Puesto que el parámetro de interés es el valor esperado de la probabilidad de ocurrencia del evento (p), necesitamos despejarlo aplicando la transformación inversa de la función logaritmo, la exponencial.

Luego de aplicar la exponencial a la función, llegamos a lo que se conoce como la función logística.

Para hacer especial énfasis de que esta función modela la probabilidad de ocurrencia del evento en una situación específica definida por la variable X, denotamos a esta probabilidad como p(x)

)10(1

1

)10(1

)10()(

xexe

xexp

19

Page 20: Carbajal introduccion a_la_regresion_logistica

0

0.2

0.4

0.6

0.8

1

-10 -5 0 5 10

Exposición

Pro

bab

ilid

ad d

e o

curr

enci

a d

el e

ven

to

Contradominio

: (0, 1)

Representa la asociación entre una exposición continua centrada en 0 y la probabilidad de desarrollar el evento. Si la exposición es 0, la probabilidad de ocurrencia del evento es igual a ½. La curva logística es asintótica a 0 y a 1. La relación entre la exposición y la p(x) es una relación monótona creciente.

20

Page 21: Carbajal introduccion a_la_regresion_logistica

Veamos en la figura 2 cómo a través de los parámetros b0 y b1, la curva logística puede flexibilizarse para modelar asociaciones con exposiciones de mayor o menor riesgo (Figura 2: b1>0) es decir, que conforme aumenta la exposición, aumenta la probabilidad de ocurrencia del evento. Puede ocurrir a la inversa.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

-30 -20 -10 0 10 20 30

Exposición

Pro

bab

ilid

ad d

e o

curr

enci

a d

el e

ven

to

0=2; 1=0.25

0=0; 1=1

0=0; 1=0.5

0=0; 1=0.25

Figura 2.

21

Page 22: Carbajal introduccion a_la_regresion_logistica

Una vez que hemos explorado el comportamiento de la función logística, es hora de entender cómo se relaciona con la razón de odds. Pensemos en una variable de exposición dicotómica y posteriormente generalizamos el razonamiento a variables discretas y continuas.

Exposición

X=1 X=0

Evento Y=1 p(1) p(0)

Y=0 1-p(1) 1-p(0)

)0(1)0(

)1(1)1(

)0(1

)0(

)1(1

)1(

0

1

pp

pp

OR

p

pODDS

p

pODDS

EXP

EXP

)0(1

)0()0(

)10(1

)10(

))1(10(1

))1(10()1(

e

ep

e

e

e

ep

Función logística

1)ln(

)1(

OR

eORdespejando

22

Page 23: Carbajal introduccion a_la_regresion_logistica

Existe una estrecha relación entre la Razón de odds y el coeficiente de regresión que obtenemos a través de una regresión logística.

Veamos en el ejemplo de bajo peso al nacer y fumar que habíamos trabajado y cómo podríamos calcular el OR en STATA utilizando el modelo logístico.

23

Page 24: Carbajal introduccion a_la_regresion_logistica

Logistic regression Number of obs = 189

LR chi2(1) = 4.87

Prob > chi2 = 0.0274

Log likelihood = -114.9023 Pseudo R2 = 0.0207

------------------------------------------------------------------------------

low | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

smoke | 2.021944 .6462912 2.20 0.028 1.080668 3.783083

------------------------------------------------------------------------------

logistic low smoke

Ejemplo de bajo peso y si la madre fuma o no

Logistic regression Number of obs = 189

LR chi2(1) = 4.87

Prob > chi2 = 0.0274

Log likelihood = -114.9023 Pseudo R2 = 0.0207

------------------------------------------------------------------------------

low | Coef. Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

smoke | .7040592 .3196386 2.20 0.028 .0775791 1.330539

_cons | -1.087051 .2147299 -5.06 0.000 -1.507914 -.6661886

------------------------------------------------------------------------------

logit low smoke, nolog

24

Page 25: Carbajal introduccion a_la_regresion_logistica

Estas corridas se relacionan con lo que hemos visto a través de las diferentes fórmulas.

El OR es la misma que habíamos calculado utilizando la fórmula (1).

02.2)704.0exp(

)704.0087.1exp(1

)704.0087.1exp()1(ˆ

OR

FUMA

FUMABAJOPESOp

25

Page 26: Carbajal introduccion a_la_regresion_logistica

Por Intervalo:

)ˆ(EE96.1ˆ

)ˆ(EE96.1ˆ

11

00

Para calcular el intervalo del 95% de confianza para el OR, tenemos que aplicar la transformación exponencial a los extremos del intervalo, es decir:

)ˆ(EE96.1ˆexp 11

26

Page 27: Carbajal introduccion a_la_regresion_logistica

kk xxp

pp

110

1ln)(logit

kxkxkxkx

kxkxxp

110exp1

1

110exp1

110exp)(

27

Page 28: Carbajal introduccion a_la_regresion_logistica

Supongamos ahora que queremos evaluar la asociación entre fumar (fuma) y la probabilidad de tener bajo peso al nacer, ajustando por edad de la madre (age).

El siguiente modelo de regresión logística, podría quedar expresado de manera completamente equivalente en cualquiera de las siguientes dos expresiones que corresponde, respectivamente, a su forma logística y en su forma logit.

AGEFUMA

AGEFUMABAJOPESOp

210exp1

210exp)1(

AGEFUMABAJOPESOp 210)1(logit

28

Page 29: Carbajal introduccion a_la_regresion_logistica

Logistic regression Number of obs = 189

LR chi2(2) = 7.40

Prob > chi2 = 0.0248

Log likelihood = -113.63815 Pseudo R2 = 0.0315

------------------------------------------------------------------------------

low | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

smoke | 1.997405 .642777 2.15 0.032 1.063027 3.753081

age | .9514394 .0304194 -1.56 0.119 .8936481 1.012968

------------------------------------------------------------------------------

Logistic regression Number of obs = 189

LR chi2(2) = 7.40

Prob > chi2 = 0.0248

Log likelihood = -113.63815 Pseudo R2 = 0.0315

------------------------------------------------------------------------------

low | Coef. Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

smoke | .6918487 .3218061 2.15 0.032 .0611203 1.322577

age | -.0497793 .031972 -1.56 0.119 -.1124432 .0128846

_cons | .0609055 .7573199 0.08 0.936 -1.423414 1.545225

------------------------------------------------------------------------------

logit low smoke age, nolog

29