(sw capítulo 9) - uam.es · 9-1 regresión con variable dependiente binaria (sw capítulo 9) hasta...

66
9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: puntuaciones en los tests en las escuelas tasa de mortalidad en accidentes de tráfico Pero podemos estar interesados en entender el efecto de X sobre una variable binaria Y: Y = ir a la universidad o no Y = ser fumador o no Y = conceder una hipoteca o no

Upload: hoanganh

Post on 02-Nov-2018

218 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-1

Regresión con variable dependiente binaria (SW Capítulo 9)

Hasta ahora hemos considerado que la variable dependiente (Y) es continua:

• puntuaciones en los tests en las escuelas • tasa de mortalidad en accidentes de tráfico

Pero podemos estar interesados en entender el efecto de X sobre una variable binaria Y:

• Y = ir a la universidad o no • Y = ser fumador o no • Y = conceder una hipoteca o no

Page 2: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-2

Ejemplo: Denegación de una hipoteca y raza Datos: The Boston Fed HMDA

• Solicitudes individuales de hipoteca para familias unipersonales en 1990 en el área de Boston

• 2380 observaciones, recogidas bajo Home Mortgage Disclosure Act (HMDA)

Variables • Variable dependiente:

oConcesión o denegación de la hipoteca • Variables independientes:

oRenta, riqueza, situación laboral oOtros préstamos, características de la casa oRaza del solicitante

Page 3: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-3

El modelo de probabilidad lineal (SW Sección 9.1)

Un punto de partida natural es el modelo de regresión lineal con un único regresor:

Yi = β0 + β1Xi + ui Pero:

• ¿Qué significa β1 cuando Y es binaria? ¿Es β1 = YX

∆∆

?

• ¿Qué significa la recta β0 + β1X cuando Y es binaria? • ¿Qué significa el valor estimado Y cuando Y es binaria?

Por ejemplo, ¿qué significa Y = 0.26?

Page 4: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-4

El modelo de probabilidad lineal (cont.)

Yi = β0 + β1Xi + ui Recordemos la hipótesis #1: E(ui|Xi) = 0, por tanto:

E(Yi|Xi) = E(β0 + β1Xi + ui|Xi) = β0 + β1Xi Cuando Y es binaria,

E(Y) = 1×Pr(Y=1) + 0×Pr(Y=0) = Pr(Y=1)

así que se tiene, E(Y|X) = Pr(Y=1|X)

Page 5: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-5

El modelo de probabilidad lineal (cont.) Cuando Y es binaria, el modelo de regresión lineal

Yi = β0 + β1Xi + ui recibe el nombre de modelo de probabilidad lineal. • El valor estimado es una probabilidad:

oE(Y|X=x) = Pr(Y=1|X=x) = prob. de Y = 1 dado x oY = la probabilidad estimada de que Yi = 1, dado X

• β1 = cambio en la probabilidad de que Y = 1 para un ∆x dado:

β1 = Pr( 1 | ) Pr( 1 | )Y X x x Y X xx

= = + ∆ − = =∆

Ejemplo: modelo de probabilidad lineal, datosHMDA

Page 6: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-6

Denegación de hipotecas vs. ratio préstamos a pagar/renta (P/I ratio) en el conjunto de datos HMDA (subconjunto de dichos datos)

Page 7: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-7

Page 8: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-8

Modelo de probabilidad lineal: datos HMDA

deneg = -.080 + .604 P/I ratio (n = 2380) (.032) (.098) • ¿Cuál es el valor estimado para P/I ratio = .3? Pr(deneg=1 | P/I ratio=.3) = -.080 + .604×.3 = .151 • Calculando “efectos:” increm. de P/I ratio de .3 a .4: Pr(deneg=1 | P/I ratio=.4) = -.080 + .604×.4 = .212

El efecto sobre la probabilidad de denegación de la hipoteca de un incremento en el P/I ratio de .3 to .4 es que se incrementa dicha probabilidad en .061, es decir, en 6.1 puntos porcentuales.

Page 9: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-9

Incluyamos ahora la variable negro como un regresor (negro vale 1 para individuos de raza negra):

deneg = -.091 + .559 P/I ratio + .177 black (.032) (.098) (.025) Probabilidad estimada de denegación de la hipoteca: • para un solicitante negro con P/I ratio = .3:

Pr(deneg=1) = -.091 + .559×.3 + .177×1 = .254 • para un solicitante blanco con P/I ratio = .3:

Pr(deneg=1) = -.091 + .559×.3 + .177×0 = .077 • diferencia = .177 = 17.7 puntos porcentuales • El coeficiente de negro es significativo al 5% • Todavía habrá muchas variables omitidas (sesgo)…

Page 10: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-10

El modelo de probabilidad lineal: Resumen • Modeliza la probabilidad como una función lineal de X • Ventajas:

oEstimación e interpretación sencillas oLa inferencia es la misma que en el modelo de regresión

múltiple (necesitamos errores estándar robustos a heterocedasticidad)

• Desventajas: o¿Tiene sentido que la probabilidad sea lineal en X? oLas probabilidades estimadas pueden ser <0 ó >1!

• Este problema puede resolverse utilizando un modelo de probabilidad no lineal: regresión probit y logit

Page 11: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-11

Probit and Logit Regression (SW Section 9.2)

El problema con el modelo de probabilidad lineal es que modeliza la probabilidad de Y=1 con una función lineal: Pr(Y = 1|X) = β0 + β1X Sin embargo, queremos que:

• 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X • Pr(Y = 1|X) creciente en X (para β1>0)

Esto requiere una forma functional no lineal para la probabilidad. ¿Qué tal una curva en forma de “S”…?

Page 12: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-12

El modelo probit satisface estas condiciones:

• 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X

• Pr(Y = 1|X) es creciente en X (para β1>0)

Page 13: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-13

La regresión probit modeliza la probabilidad de que Y=1 usando la función de distribución de la normal estándar, evaluada en z = β0 + β1X: Pr(Y = 1|X) = Φ(β0 + β1X)

• Φ es la función de distribución normal. • z = β0 + β1X es el “valor z” ó “índice z” del modelo

probit Ejemplo: Supongamos que β0 = -2, β1= 3, X = .4, por tanto: Pr(Y = 1|X=.4) = Φ(-2 + 3×.4) = Φ(-0.8) Pr(Y = 1|X=.4) = área bajo la densidad de la normal estándar que queda a la izquierda de z = -.8, que es…

Page 14: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-14

Pr(Z ≤ -0.8) = .2119

Page 15: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-15

Regresión probit (cont.) ¿Por qué usar la distribución de probabilidad acumulada de la normal?

• La curva “en forma de S” nos da lo que queremos: o 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X o Pr(Y = 1|X) creciente en X (para β1>0)

• Es fácil de usar – las probabilidades están tabuladas en las tablas de la normal

• Tiene una interpretación relativamente directa: o valor z = β0 + β1X o 0β + 1β X es el valor z estimado, dado X oβ1 es el cambio en el valor z para un cambio unitario en X

Page 16: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-16

Ejemplo de STATA: datos HMDA . probit deny p_irat, r;

Iteration 0: log likelihood = -872.0853 We’ll discuss this laterIteration 1: log likelihood = -835.6633Iteration 2: log likelihood = -831.80534Iteration 3: log likelihood = -831.79234

Probit estimates Number of obs = 2380Wald chi2(1) = 40.68Prob > chi2 = 0.0000

Log likelihood = -831.79234 Pseudo R2 = 0.0462

------------------------------------------------------------------------------| Robust

deny | Coef. Std. Err. z P>|z| [95% Conf. Interval]-------------+----------------------------------------------------------------

p_irat | 2.967908 .4653114 6.38 0.000 2.055914 3.879901_cons | -2.194159 .1649721 -13.30 0.000 -2.517499 -1.87082

------------------------------------------------------------------------------

Pr(deneg=1 | P/I ratio) = Φ(-2.19 + 2.97×P/I ratio) (.16) (.47)

Page 17: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-17

Ejemplo de STATA: datos HMDA (cont.) Pr(deneg=1 | P/I ratio) = Φ(-2.19 + 2.97 × P/I ratio)

(.16) (.47) • Coeficiente positivo: ¿tiene sentido? • Los errores estándar tienen la interpretación habitual • Probabilidades estimadas:

Pr(deneg=1 | P/I ratio=0.3) = Φ(-2.19 + 2.97 × .3) = Φ(-1.30) = .097

• Efecto del cambio en P/I ratio de .3 a .4: Pr(deneg=1 | P/I ratio=0.4) = Φ(-2.19+2.97×.4) = .159 La probabilidad estimada de no concesión de hipoteca se

incrementa, pasando de .097 a .159

Page 18: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-18

Regresión probit con varios regresores Pr(Y = 1|X1, X2) = Φ(β0 + β1X1 + β2X2) • Φ es la función de distribución normal acumulada. • z = β0 + β1X1 + β2X2 es el “valor z” ó “índice z” del modelo

probit • β1 es el efecto en el “valor z” de un cambio unitario en X1,

manteniendo constante X2

Page 19: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-19

Ejemplo de STATA: datos HMDA

. probit deny p_irat black, r;

Iteration 0: log likelihood = -872.0853Iteration 1: log likelihood = -800.88504Iteration 2: log likelihood = -797.1478Iteration 3: log likelihood = -797.13604

Probit estimates Number of obs = 2380Wald chi2(2) = 118.18Prob > chi2 = 0.0000

Log likelihood = -797.13604 Pseudo R2 = 0.0859

------------------------------------------------------------------------------| Robust

deny | Coef. Std. Err. z P>|z| [95% Conf. Interval]-------------+----------------------------------------------------------------

p_irat | 2.741637 .4441633 6.17 0.000 1.871092 3.612181black | .7081579 .0831877 8.51 0.000 .545113 .8712028_cons | -2.258738 .1588168 -14.22 0.000 -2.570013 -1.947463

------------------------------------------------------------------------------

Veremos después los detalles de la estimación…

Page 20: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-20

Ejemplo de STATA: probabilidades probit estimadas . probit deny p_irat black, r;

Probit estimates Number of obs = 2380Wald chi2(2) = 118.18Prob > chi2 = 0.0000

Log likelihood = -797.13604 Pseudo R2 = 0.0859

------------------------------------------------------------------------------| Robust

deny | Coef. Std. Err. z P>|z| [95% Conf. Interval]-------------+----------------------------------------------------------------

p_irat | 2.741637 .4441633 6.17 0.000 1.871092 3.612181black | .7081579 .0831877 8.51 0.000 .545113 .8712028_cons | -2.258738 .1588168 -14.22 0.000 -2.570013 -1.947463

------------------------------------------------------------------------------

. sca z1 = _b[_cons]+_b[p_irat]*.3+_b[black]*0;

. display "Pred prob, p_irat=.3, white: "normprob(z1);

Pred prob, p_irat=.3, white: .07546603NOTE

_b[_cons] is the estimated intercept (-2.258738)_b[p_irat] is the coefficient on p_irat (2.741637)sca creates a new scalar which is the result of a calculationdisplay prints the indicated information to the screen

Page 21: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-21

Ejemplo de STATA: datos HMDA (cont.) Pr(deneg=1 | P/I, negro) = =Φ(-2.26 + 2.74×P/I ratio + .71×black)

(.16) (.44) (.08) • ¿El coeficiente de negro es estadísticamente significativo? • Valor estimado de la raza para P/I ratio = .3:

Pr(deneg=1 | .3, 1) = Φ(-2.26+2.74×.3+.71×1) = .233 Pr(deneg=1 | .3, 0) = Φ(-2.26+2.74×.3+.71×0) = .075

• Diferencia en las probabilidad de no concesión de la hipoteca = .158 (15.8 puntos porcentuales)

• Todavía habrá muchas variables omitidas (sesgos)…

Page 22: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-22

Regresión logit La regresión logit modeliza la probabilidad de Y=1 como la función de distribución acumulada de la logística estándar, evaluada en z = β0 + β1X: Pr(Y = 1|X) = F(β0 + β1X)

F es la función de distribución logística:

F(β0 + β1X) = 0 1( )

11 Xe β β− ++

Page 23: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-23

Regresión logit (cont.) Pr(Y = 1|X) = F(β0 + β1X)

donde F(β0 + β1X) = 0 1( )

11 Xe β β− ++

.

Ejemplo: β0 = -3, β1= 2, X = .4, por tanto, β0 + β1X = -3 + 2×.4 = -2.2 Pr(Y = 1|X=.4) = 1/(1+e–(–2.2)) = .0998 ¿Por qué complicarse con el logit si tenemos el probit? • Históricamente, ha tenido ventajas computacionales • En la práctica, es muy similar al probit

Page 24: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-24

Ejemplo de STATA: datos HMDA . logit deny p_irat black, r;

Iteration 0: log likelihood = -872.0853 Later…Iteration 1: log likelihood = -806.3571Iteration 2: log likelihood = -795.74477Iteration 3: log likelihood = -795.69521Iteration 4: log likelihood = -795.69521

Logit estimates Number of obs = 2380Wald chi2(2) = 117.75Prob > chi2 = 0.0000

Log likelihood = -795.69521 Pseudo R2 = 0.0876

------------------------------------------------------------------------------| Robust

deny | Coef. Std. Err. z P>|z| [95% Conf. Interval]-------------+----------------------------------------------------------------

p_irat | 5.370362 .9633435 5.57 0.000 3.482244 7.258481black | 1.272782 .1460986 8.71 0.000 .9864339 1.55913_cons | -4.125558 .345825 -11.93 0.000 -4.803362 -3.447753

------------------------------------------------------------------------------

. dis "Pred prob, p_irat=.3, white: "> 1/(1+exp(-(_b[_cons]+_b[p_irat]*.3+_b[black]*0)));Pred prob, p_irat=.3, white: .07485143NOTE: the probit predicted probability is .07546603

Page 25: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-25

Las probabilidades estimadas de los modelos probit y logit son habitualmente muy parecidas.

Page 26: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-26

Estimación e Inferencia en Modelos Probit (y Logit) (SW Sección 9.3)

Modelo probit: Pr(Y = 1|X) = Φ(β0 + β1X) • Estimación e inferencia

o¿Cómo estimar β0 y β1? o¿Cuál es la distribución muestral de los estimadores? o¿Por qué podemos utilizar los métodos de inferencia

habituales? • Veamos primero mínimos cuadrados no lineales (más fácil de

explicar) • Después veamos estimación por máxima verosimilitud (es lo que

se hace en la práctica en estos modelos)

Page 27: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-27

Estimación probit por mínimos cuadrados no lineales Recordemos MCO:

0 1

2, 0 1

1

min [ ( )]n

b b i ii

Y b b X=

− +∑

• El resultado son los estimadores MCO 0β y 1β En el probit, tenemos una función de regresión diferente, el modelo probit no lineal. Entonces, podríamos estimar β0 y β1 por mínimos cuadrados no lineales:

0 1

2, 0 1

1

min [ ( )]n

b b i ii

Y b b X=

− Φ +∑

La solución de este problema lleva al estimador de mínimos cuadrados no lineales de los coeficientes probit.

Page 28: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-28

Mínimos cuadrados no lineales (cont.)

0 1

2, 0 1

1

min [ ( )]n

b b i ii

Y b b X=

− Φ +∑

¿Cómo resolver este problema de minimización?

• No tenemos una solución explícita. • Debe resolverse numéricamente usando un ordenador, es decir, por

un método de “prueba y error”, probando con un conjunto de valores para (b0,b1), luego probando otro, y otro...

• Una idea mejor: usar algoritmos específicos de minimización

• En la práctica, no se utiliza mínimos cuadrados no lineales porque no es eficiente; un estimador con una varianza menor es...

Page 29: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-29

Estimación probit por máxima veosimilitud La función de verosimilitud es la densidad condicional de Y1,…,Yn dados X1,…,Xn, entendida como función de los parámetros desconocidos β0 y β1. • El estimador de máxima verosimilitud (EMV ó MLE en

inglés) es el valor de (β0, β1) que maximiza la función de verosimilitud.

• El EMV (MLE) es el valor de (β0, β1) que mejor describe la distribución de los datos.

• En muestras grandes, el EMV (MLE) es: oconsistente ose distribuye como una normal oeficiente (es el estimador de menor varianza)

Page 30: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-30

Caso especial: EMV (MLE) probit sin X Y= (distribución Bernoulli) Datos: Y1,…,Yn, i.i.d. La obtención de la verosimilitud empieza con la densidad de Y1:

Pr(Y1 = 1) = p y Pr(Y1 = 0) = 1–p Por tanto,

Pr(Y1 = y1) = 1 11(1 )y yp p −− (comprobar para y1=0, 1)

− padprobabilidconpadprobabilidcon

101

Page 31: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-31

Densidad conjunta de (Y1,Y2): Dado que Y1 y Y2 son independientes,

Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1) × Pr(Y2 = y2) = [ 1 11(1 )y yp p −− ]× [ 2 21(1 )y yp p −− ]

Densidad conjunta de (Y1,..,Yn): Pr(Y1 = y1,Y2 = y2,…,Yn = yn)

= [ 1 11(1 )y yp p −− ]× [ 2 21(1 )y yp p −− ]×…× [ 1(1 )n ny yp p −− ]

= ( )11 (1 )nn

ii iin yyp p ==

−∑∑ − La verosimilitud es la densidad conjunta, entendida como función de los parámetros desconocidos, que están en p:

Page 32: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-32

f(p;Y1,…,Yn) = ( )11 (1 )nn

ii iin YYp p ==

−∑∑ − El EMV (MLE) maximiza la verosimilitud. Se suele trabajar con el logaritmo de la verosimilitud, ln[f(p;Y1,…,Yn)]:

ln[f(p;Y1,…,Yn)] = ( ) ( )1 1ln( ) ln(1 )n n

i ii iY p n Y p

= =+ − −∑ ∑

1ln ( ; ,..., )nd f p Y Ydp

= ( ) ( )1 1

1 11

n ni ii i

Y n Yp p= =

−+ − − ∑ ∑ = 0

Resolviendo para p se obtiene el EMV (MLE); es decir, ˆ MLEp , satisface,

Page 33: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-33

( ) ( )1 1

1 1ˆ ˆ1

n ni iMLE MLEi i

Y n Yp p= =

−+ − − ∑ ∑ = 0

ó

( ) ( )1 1

1 1ˆ ˆ1

n ni iMLE MLEi i

Y n Yp p= =

= −−∑ ∑

ó (dividiendo por n y reordenando términos),

ˆ

ˆ1 1

MLE

MLEY p

Y p=

− −

ó ˆ MLEp = Y = proporción de 1’s

Page 34: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-34

El estimador EMV (MLE) en el caso “sin X” (distribución Bernoulli):

ˆ MLEp = Y = proporción de 1’s • Para Yi i.i.d. Bernoulli, el EMV (MLE) es el estimador “natural”

de p, la proporción de 1’s, que es Y • Ya conocemos los aspectos básicos de la inferencia:

oPara n grande, la distribución muestral de ˆ MLEp = Y es una distribución normal

oPor tanto, la inferencia es “la habitual”: contrastes de hipótesis mediante el estadístico t, intervalos de confianza basados en ±1.96SE

• Nota de STATA: para destacar que se requiere n grande, la salida de STATA se refiere al estadístico z en lugar de al estadístico t ; estadístico chi-cuadrado (= q×F) en lugar de estadístico F.

Page 35: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-35

La verosimilitud probit con un regresor X Su obtención empieza con la densidad de Y1, dado X1:

Pr(Y1 = 1|X1) = Φ(β0 + β1X1) Pr(Y1 = 0|X1) = 1–Φ(β0 + β1X1)

Por tanto, Pr(Y1 = y1|X1) = 1 11

0 1 1 0 1 1( ) [1 ( )]y yX Xβ β β β −Φ + − Φ + La función de verosimilitud probit es la densidad conjunta de Y1,…,Yn dados X1,…,Xn, entendida como función de β0, β1:

f(β0,β1; Y1,…,Yn|X1,…,Xn) = { 1 11

0 1 1 0 1 1( ) [1 ( )]Y YX Xβ β β β −Φ + − Φ + }× …×{ 1

0 1 0 1( ) [1 ( )]n nY Yn nX Xβ β β β −Φ + − Φ + }

Page 36: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-36

La función de verosimilitud probit: f(β0,β1; Y1,…,Yn|X1,…,Xn)

= { 1 110 1 1 0 1 1( ) [1 ( )]Y YX Xβ β β β −Φ + − Φ + }×

…×{ 10 1 0 1( ) [1 ( )]n nY Y

n nX Xβ β β β −Φ + − Φ + } • No se puede obtener el máximo de forma explícita • Hay que maximizar utilizando métodos numéricos • Como en el caso “sin X”, en muestras grandes:

o 0ˆ MLEβ , 1

MLEβ son consistentes o 0

ˆ MLEβ , 1MLEβ siguen distribución normal

oLos errores estándar puede computarse oContrastes e intervalos de confianza: los usuales

Para varios X’s, ver SW Apéndice. 9.2

Page 37: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-37

La verosimilitud logit con un X • La única diferencia entre el probit y el logit es la forma

functional que se utiliza para la probabilidad: en el logit, Φ se reemplaza por la distrbución logística.

• Por lo demás, la verosimilitud es similar; ver los detalles en SW Apéndice. 9.2

• Al igual que en el probit, o 0

ˆ MLEβ , 1MLEβ son consistentes

o 0ˆ MLEβ , 1

MLEβ tienen distribución normal oSus errores estándar pueden computarse oContrastes e intervalos de confianza: los usuales

Page 38: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-38

Medidas de bondad de ajuste R2 y 2R no tienen sentido en este contexto (por qué?). Dos medidas de ajuste en este contexto son: 1. La proporción de predicciones correctas = proporción de

Y’s para las que la probabilidad estimada es >50% (si Yi=1) ó es <50% (si Yi=0).

2. El pseudo-R2 mide el ajuste usando la función de

verosimilitud: mide la mejora en el valor del log de la verosimilitud relativo al caso “sin X” (ver SW Apéndice. 9.2). Esto se reduce al R2 en el modelo lineal con errores normalmente distribuidos.

Page 39: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-39

Distribución del EMV (MLE) para n grande (no está en SW)

• La calcularemos para el caso especial “sin X”, para el que p es el único parámetro desconocido. Pasos a seguir: 1. Obtener el log de la verosimilitud (“Λ(p)”) (hecho). 2. Encontrar el EMV (MLE) igualando a cero la derivada del

log-verosimilitud; esto requiere resolver una ecuación no lineal

3. Para n grande, ˆ MLEp estará cerca del verdadero p (ptrue), así que la ecuación no lineal puede aproximarse (localmente) por una ecuación lineal (expansión de Taylor alrededor de ptrue).

4. Dicha ecuación puede resolverse para ˆ MLEp – ptrue.

5. Por la LGN y el TCL, para n grande, n ( ˆ MLEp – ptrue) sigue distribución normal.

Page 40: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-40

1. Obtener el log de la verosimilitud: Recuerda que: la densidad para la observación #1 es:

Pr(Y1 = y1) = 1 11(1 )y yp p −− (densidad) Por tanto,

f(p;Y1) = 1 11(1 )Y Yp p −− (verosimilitud) La verosimilitud para Y1,…,Yn es,

f(p;Y1,…,Yn) = f(p;Y1) ×…× f(p;Yn) por tanto el log de la verosimilitud es,

Λ(p) = lnf(p;Y1,…,Yn) = ln[f(p;Y1) ×…× f(p;Yn)]

= 1

ln ( ; )n

ii

f p Y=∑

Page 41: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-41

2. Igualar a cero la derivada de Λ(p) para obtener el EMV (MLE):

ˆ

( )MLEp

pp

∂∂

L = 1 ˆ

ln ( ; )MLE

ni

i p

f p Yp=

∂∂∑ = 0

3. Utilizar una expansión de Taylor alrededor de ptrue para aproximar la ecuación no lineal como una ecuación lineal de ˆ MLEp :

0 = ˆ

( )MLEp

pp

∂∂

L ≈ ( )truep

pp

∂∂

L + 2

2

( )truep

pp

∂∂L ( ˆ MLEp – ptrue)

Page 42: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-42

4. Resolver esta aproximación lineal para ( ˆ MLEp – ptrue):

( )

truep

pp

∂∂

L + 2

2

( )truep

pp

∂∂L ( ˆ MLEp – ptrue) ≈ 0

Por tanto, 2

2

( )truep

pp

∂∂L ( ˆ MLEp – ptrue) ≈ – ( )

truep

pp

∂∂

L

ó

( ˆ MLEp – ptrue) ≈ –1

2

2

( )truep

pp

− ∂

L ( )truep

pp

∂∂

L

Page 43: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-43

5. Sustituir y aplicar la LGN y el TCL.

Λ(p) = 1

ln ( ; )n

ii

f p Y=∑

( )truep

pp

∂∂

L = 1

ln ( ; )true

ni

i p

f p Yp=

∂∂∑

2

2

( )truep

pp

∂∂L =

2

21

ln ( ; )true

ni

i p

f p Yp=

∂∂∑

Por tanto,

( ˆ MLEp – ptrue) ≈ –1

2

2

( )truep

pp

− ∂

L ( )truep

pp

∂∂

L

=

12

21

ln ( ; )true

ni

i p

f p Yp

=

∂− ∂

∑1

ln ( ; )true

ni

i p

f p Yp=

∂ ∂

Page 44: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-44

Multiplicar ambos miembros por n : n ( ˆ MLEp – ptrue) ≈

1

2

21

1 ln ( ; )true

ni

i p

f p Yn p

=

∂− ∂

∑1

1 ln ( ; )true

ni

i p

f p Ypn =

∂ ∑

Dado que Yi es i.i.d., los terminus i-ésimos en los sumandos también son i.i.d. Entonces, si esos términos tienen suficientes momentos (en concreto 2), bajo condiciones generales (no sólo bajo distribución Bernoulli):

Page 45: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-45

2

21

1 ln ( ; )true

ni

i p

f p Yn p=

∂− ∂

∑ p

→ a ( constante) (LDGN)

1

1 ln ( ; )true

ni

i p

f p Ypn =

∂ ∂

∑ d

→ N(0, 2ln fσ ) (TCL) (¿Por qué?)

Poniendo todo junto,

n ( ˆ MLEp – ptrue) ≈

1

2

21

1 ln ( ; )true

ni

i p

f p Yn p

=

∂− ∂

∑1

1 ln ( ; )true

ni

i p

f p Ypn =

∂ ∑

Page 46: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-46

2

21

1 ln ( ; )true

ni

i p

f p Yn p=

∂− ∂

∑ p

→ a (constante) (LDGN)

1

1 ln ( ; )true

ni

i p

f p Ypn =

∂ ∂

∑ d

→ N(0, 2ln fσ ) (TCL) (¿Por qué?)

Por tanto,

n ( ˆ MLEp – ptrue) d

→ N(0, 2ln fσ /a2)

Desarrollo de los detalles para el caso probit/sin X (Bernoulli):

Page 47: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-47

Recuerda que:

f(p;Yi) = 1(1 )i iY Yp p −− Por tanto,

ln f(p;Yi) = Yilnp + (1–Yi)ln(1–p) y

ln ( , )if p Yp

∂∂

= 11

i iY Yp p

−−−

= (1 )

iY pp p

−−

y 2

2

ln ( , )if p Yp

∂∂

= 2 2

1(1 )

i iY Yp p

−− −−

= 2 2

1(1 )

i iY Yp p

−− + −

Page 48: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-48

Denominador: 2

2

ln ( , )if p Yp

∂∂

= 2 2

1(1 )

i iY Yp p

−− + −

Por tanto, 2

21

1 ln ( ; )true

ni

i p

f p Yn p=

∂− ∂

∑ = 2 21

1 1(1 )

ni i

i

Y Yn p p=

−+ − ∑

= 2 2

1(1 )

Y Yp p

−+−

p→ 2 2

1(1 )

p pp p

−+−

(LGN)

= 1 11p p

+−

= 1(1 )p p−

Page 49: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-49

Numerador:

ln ( , )if p Yp

∂∂

= (1 )

iY pp p

−−

so

1

1 ln ( ; )true

ni

i p

f p Ypn =

∂ ∂

∑ = 1

1(1 )

ni

i

Y pp pn =

−−∑

= 1

1 1 ( )(1 )

n

ii

Y pp p n =

− − ∑

d

→ N(0,2

2[ (1 )]Y

p pσ−

)

Page 50: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-50

Poniendo todo junto: n ( ˆ MLEp – ptrue) ≈

12

21

1 ln ( ; )true

ni

i p

f p Yn p

=

∂− ∂

∑1

1 ln ( ; )true

ni

i p

f p Ypn =

∂ ∑

donde 2

21

1 ln ( ; )true

ni

i p

f p Yn p=

∂− ∂

∑ p

→ 1(1 )p p−

1

1 ln ( ; )true

ni

i p

f p Ypn =

∂ ∂

∑ d

→ N(0,2

2[ (1 )]Y

p pσ−

)

De donde,

n ( ˆ MLEp – ptrue) d

→ N(0, 2Yσ )

Page 51: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-51

Resumen: EMV (MLE) probit , caso “sin X” El EMV (MLE): ˆ MLEp = Y Trabajando sobre la teoría de la distribución del EMV (MLE), llegamos a que:

n ( ˆ MLEp – ptrue) d

→ N(0, 2Yσ )

Pero dado que ptrue = Pr(Y = 1) = E(Y) = µY, tenemos que:

n (Y – µY) d

→ N(0, 2Yσ )

Un resultado visto en las primeras clases de Econometría!

Page 52: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-52

La derivación del EMV (MLE) utiliza de forma general:

n ( ˆ MLEp – ptrue) d

→ N(0, 2ln fσ /a2))

• Los errores estándar se obtienen encontrando expresiones para

2ln fσ /a2

• Extensión a varios parámetros (β0, β1) mediante cálculo matricial • Dado que la distribución es normal para n grande, la inferencia

se lleva a cabo de la forma habitual, opr ejemplo, el intervalo de confianza al 95% es MLE ± 1.96SE.

• La expresión de arriba utiliza errores estándar “robustos”. Se puede simplificar al caso de errores estándar no robustos si

ln ( ; ) /if p Y p∂ ∂ es homocedástico.

Page 53: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-53

Resumen: distribution del EMV (MLE)

• El EMV (MLE) sigue distribución normal para n grande • Hemos trabajado este resultado en detalle para el modelo probit

“sin X” (distribución Bernoulli) • Para n grande, los intervalos de confianza y los contrastes de

hipótesis se construyen de la forma usual. • Si el modelo está correctamente especificado, el EMV (MLE) es

eficiente, es dicer, tiene menor varianza que cualquier otro estimador (esto no lo hemos desarrollado).

• Estos métodos se extiende a otros modelos con variables dependientes discretas, por ejemplo, datos de recuento

(# delitos/día) – ver SW Apéndice. 9.2.

Page 54: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-54

Aplicación a los datos de Boston HMDA (SW Sección 9.4)

• Las hipotecas son una parte esencial en la compra de una

casa. • ¿Hay diferencias en el acceso a una hipoteca en función de

la raza? • Si dos individuos, uno blanco y otro negro, que en lo

demás son iguales, solicitan una hipoteca, ¿hay diferencias en la probabilidad de que la hipoteca sea denegada?

Page 55: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-55

El conjunto de datos HMDA • Datos sobre características individuales, características de la

casa y concesión o denegación del préstamo • El proceso de solicitud de hipoteca en Boston 1990-1991:

oIr a una entidad financiera oRellenar una solicitud (información personal y económica) oEntrevista con el agente del banco

• El banco decide en función de la ley (sin prestar atención a la raza). Presumiblemente, el banco quiere otorgar préstamos beneficios para él y el agente quiere evitar potenciales problemas por falta de pago.

Page 56: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-56

La decisión del banco: • El banco utiliza información sobre variables financieras:

oratioP/I o ratio gastos de la casa/renta del individuo o ratio cuantía del préstamo/valor de la casa o historial crediticio personal

• La regla de decisión no es lineal: oRatio préstamo/valor > 80% oRatio préstamo/valor > 95% oPuntuación en otros créditos (en función de retrasos en el

pago, etc)

Page 57: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-57

Especificaciones para la regresión Pr(deneg=1|negro, otras X’s) = …

• modelo de probabilidad lineal • probit, logit

Principal problema en todas las especificaciones: potencial sesgo de omisión de variables. Todas esas variables: (i) entran en la función de decisión del banco, (ii) están o podrían estar correlacionadas con la raza:

• riqueza, tipo de trabajo • historial crediticio • estatus familiar

Variables en los datos HMDA …

Page 58: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-58

Page 59: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-59

Page 60: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-60

Page 61: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-61

Page 62: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-62

Page 63: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-63

Resumen de los resultados empíricos

• Los coeficientes de las variables financieras tienen sentido. • Negro (black) es estadísticamente significativa en todas las

especificaciones • Las interacción de la raza con variables financieras no son

significativas. • La inclusión de otros regresores reduce sensiblemente el efecto

de la reza sobre la probabilidad de denegación del préstamo. • MPL, probit, logit: estimaciones similares del efecto de la raza

sobre la probabilidad de denegación del préstamo. • Los efectos estimados son bastante grandes.

Page 64: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-64

Amenazas a la validez interna y externa • Validez interna

1. sesgo de variables omitidas • ¿qué información adicional obtiene el banco en la

entrevista personal? 2. forma funcional incorrecta (no…) 3. errores de medidad (originalmente, sí; ahora, no…) 4. selección

• muestra aleatoria de solicitudes de préstamos • definir la población de solicitantes de préstamos

5. causalidad simultánea (no) • Validez externa Análisis para Boston 1990-91. ¿Qué pasaría hoy?

Page 65: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-65

Resumen (SW Sección 9.5)

• Si Yi es binaria, entonces E(Y| X) = Pr(Y=1|X) • Tres modelos:

omodelo de probabilidad lineal (regresión lineal múltiple) oprobit (distribución normal estándar) ologit (distribución logística estándar)

• MPL, probit, logit producen probabilidades estimadas • El efecto de ∆X es el cambio en la probabilidad

condicionada de Y=1. Para los modelos logit y probit, esto depende del valor inicial de X

• Probit y logit se estiman por máxima verosimilitud

Page 66: (SW Capítulo 9) - uam.es · 9-1 Regresión con variable dependiente binaria (SW Capítulo 9) Hasta ahora hemos considerado que la variable dependiente (Y) es continua: • puntuaciones

9-66

oLos coeficientes siguen distribución normal para n

grande. oLos contrastes de hipótesis e intervalos de confianza para

n grande son los habituales.