regresion, correlacion y causalidad
Post on 24-Mar-2022
14 Views
Preview:
TRANSCRIPT
Regresion, correlacion y causalidad
Walter Sosa Escudero
Walter Sosa Escudero Regresion, correlacion y causalidad
Preliminares: regresion en una dummy
Yi = α+ βDi + ui, i = i, . . . , N
Notacion
T = total de observaciones con Di = 1 (‘tratados’)
N − T = ‘no tratados’.
YT , YN−T , promedios tratados y no tratados.
Resultado: β = YT − YN−T
Demostracion: ver Apendice a esta clase.
Walter Sosa Escudero Regresion, correlacion y causalidad
Efecto y causa
Yi = α+ βDi + ui
Paraguas, lluvia. Fertilizante, altura. AUH, asiste al secundario.
En que sentido β mide el efecto que D tiene sobre Y ?
En que sentido β en base a (Di, Yi), i = 1, . . . , n estima elefecto que D tiene sobre Y ?
Todavia no tenemos una definicion clara de causa.
Walter Sosa Escudero Regresion, correlacion y causalidad
Causa y efecto en base a observables
D = 0, 1, ‘causa’, ‘tratamiento’. NotacionD1 ≡ (D = 1), D0 ≡ (D = 0).
Y es un resultado (‘efecto’).
Y |D1 = resultado observable si hubo tratamiento. Y |D0 si nohubo tratamiento.
Walter Sosa Escudero Regresion, correlacion y causalidad
Tratados y no tratados
Resulta tentador pensar que el efecto causal es la diferencia entre‘tratados y no tradados’:
Y |D1 − Y |D0
Ej: comparar personas que hicieron / no hicieron dieta, recibierono no la AUH.
Problema?
Walter Sosa Escudero Regresion, correlacion y causalidad
Antes y despues
Tampoco funciona comparar ‘antes y despues’
Y |D1 − Y |D0
Peso antes y despues de hacer dieta.
Nuevamente, comparacion de peras y manzanas.
Ceteris paribus?
Walter Sosa Escudero Regresion, correlacion y causalidad
Causa y efecto en base a contrafacticos
Cuestion filosofica delicada. Aproximacion simple.
Resultados potenciales.
Y0 si D = 0Y1 si D = 1
independientemente de si hubo o no tratamiento.
Ej: Y1 temperatura si tomases un analgesico. Son ‘promesas’.Y0 salario si no recibieses la AUH
Efecto causal: β = Y1 − Y0 (caida en la fiebre si tomases unaaspirina con respecto a que no la tomes).
Causalidad en terminos de diferencias entre resultados potenciales(contrafacticos)
Walter Sosa Escudero Regresion, correlacion y causalidad
Inobservabilidad de contrafacticos
Problema: se observa Y1 o Y0 pero nunca ambos.
D implica haber eliminado una ruta observable. Ambas rutaspotenciales ‘existen’.
‘El tiempo se bifurca perpetuamente hacia innumerablesfuturos. En uno de ellos soy su enemigo’. (J.L. Borges, en ‘Eljardin de senderos que se bifurcan)
Walter Sosa Escudero Regresion, correlacion y causalidad
Observables
En la practica se observa Y
Y =
{Y1 si D = 1Y0 si D = 0
O, alternativamente:
Y = Y0 + (Y1 − Y0) D
Inobservancia de contrafacticos: Si a una persona le di una droga,observo la temperatura de la persona habiendole dado la droga,pero no veo a la misma persona en la circunstancia de no haberledado la droga. Y viceversa!
Walter Sosa Escudero Regresion, correlacion y causalidad
Regresion y causalidad
El problema de medir el efecto causal parece no tener solucion(inobservabilidad de contrafactuales)
El modelo de regresion Yi = α+ βDi + ui estimado por MCOtiene un problema (sesgo por seleccion) y una solucion(aleatorizacion)
Walter Sosa Escudero Regresion, correlacion y causalidad
Sesgo de seleccion
Notacion D1 ≡ (D = 1), D0 ≡ (D = 0)
Comparacion personas tratadas y no tratadas
Y | D1 − Y | D0
Verbalizacion: peso de gente que hizo dieta con gente que nohizo dieta.
Problema? (peras con manzanas)
Walter Sosa Escudero Regresion, correlacion y causalidad
Y |D1 − Y |D0 =[Y |D1 − Y0|D1
]+[Y0|D1 − Y |D0
]=
[Y1|D1 − Y0|D1
]+[Y0|D1 − Y0|D0
]Y |D1 − Y |D0 = β + S
con S ≡ Y0|D1 − Y0|D0
S es el sesgo por seleccion.
Walter Sosa Escudero Regresion, correlacion y causalidad
Y |D1 − Y |D0 = β + SDif Observables = Efecto causal + Sesgo
Sesgo:
S ≡ Y0|D1 − Y0|D0
Diferencia en peso potencial sin tratamiento, entre tratados yno tratados.
En la practica? Quien hace dieta / toma analgesicos?
Con datos observacionales S 6= 0.
Sesgo de seleccion: la comparacion entre tratados y notratados estima el efecto causal MAS el sesgo.
Walter Sosa Escudero Regresion, correlacion y causalidad
Correlacion no es causalidad
Y |D1 − Y |D0 = β + SCorrelacion = Causalidad + Sesgo
Ej: paraguas y lluvia en datos observacionales: correlacion positiva,causalidad nula. Puro sesgo.
Walter Sosa Escudero Regresion, correlacion y causalidad
Aleatorizacion al rescate
Tratamiento aleatorio: D es independiente de Y1 y Y0
Y |D1 − Y |D0 = β +[Y0|D1 − Y0|D0
]E[Y |D1 − Y |D0
]= β + E
[Y0|D1
]− E
[Y0|D0
]= β + E
[Y0|D1
]− E
[Y0|D1
]= β
El paso clave es que bajo tratamiento aleatorio E[Y0|D1
]= E
[Y0|D0
]Resultado: el tratamiento aleatorio elimina el sesgo de seleccion.
Walter Sosa Escudero Regresion, correlacion y causalidad
Tratamiento aleatorio?
Tratamiento aleatorio: eleccion de tratamiento sin mirarresultados potenciales.
Experimento o cuasi experimento.
D se mueve en forma exogena (‘causa’).
Datos observacionales: la gente no hace dieta porque si, nitoma aspirinas al azar sino porque inicialmente tenia fiebre.
Auge de la aproximacion experimental en medicina.Economia?
Experimento: control de la variabilidad exogena.
Walter Sosa Escudero Regresion, correlacion y causalidad
Lluvia y paraguas con datos observacionales: β = Y1 − Y2,obviamente cero. Puro sesgo: Y |D1 − Y |D0 = S
Lluvia y paraguas en un experimento: β estima correctamenteβ = 0 (sesgo nulo).
Walter Sosa Escudero Regresion, correlacion y causalidad
Aleatorizacion y exogeneidad
Yi = α+ βDi + ui
Que implica la aleatorizacion en el modelo causal en terminos delmodelo lineal bajo los supuestos clasicos?
Y = Y0 + (Y1 − Y0)D= E(Y0) + βD +
[Y0 − E(Y0)
]Y = α+ βD + u
con α ≡ E(Y0) y u ≡ Y0 − E(Y0)
Supongamos que tenemos una muestra (Yi, Di), i = 1, . . . , n
Para que β sea insesgado necesitamos E(ui|Di) = 0.
Walter Sosa Escudero Regresion, correlacion y causalidad
E(ui|Di) = E[Y0 − E(Y0) | Di
]= E(Y0|Di)− E(Y0)
= E(Y0)− E(Y0)
= 0,
ya que bajo aleaotorizacion E(Y0) = E(Y0|Di), de modo que β enbase a datos observables es insesgado para el efecto causal.
Conclusion: Bajo aleatorizacion de tratamiento, Y = α+ βD + utiene una interpretacion causal. β es insesgado para los datosobservacionales (no hace falta ver los potenciales).
Walter Sosa Escudero Regresion, correlacion y causalidad
Resumiendo
Causalidad: relacion entre contrafacticos. Uno no esobservable.
Bajo aleatorizacion de tratamiento, Y = α+ βD + u tieneuna interpretacion causal. β es insesgado.
Rol de E(u|D) = 0: D varia en forma exogena.
Relevancia del razonamiento experimental.
Cuestion muy importante en las ciencias sociales en losultimos tiempos.
Walter Sosa Escudero Regresion, correlacion y causalidad
Referencias
Angrist, J. y Pischke, J., 2014, Mastering Metrics: the Pathfrom Cause to Effect, Cap. 2, Princeton University Press,Princeton.
Sosa Escudero, W., 2014, Que es (y que no es) la Estadistica,Siglo XXI Editores, Buenos Aires. Capitulo 3: El huevo y lagallina: causalidades y casualidades.
Borges, J.L., 1944, El jardin de senderos que se bifurcan, enFicciones, Sudamericana, Buenos Aires.
Walter Sosa Escudero Regresion, correlacion y causalidad
“A diferencia de Newton y de Schopenhauer, su antepasadono creia en un tiempo uniforme, absoluto. Creia en infinitasseries de tiempos, en una red creciente y vertiginosa de tiemposdivergentes, convergentes y paralelos. Esa trama de tiemposque se aproximan, se bifurcan, se cortan o que secularmentese ignoran, abarca todas la posibilidades. No existimos en lamayoria de esos tiempos; en algunos existe usted y no yo; enotros, yo, no usted; en otros, los dos. En este, que un favorableazar me depara, usted ha llegado a mi casa; en otro, usted, alatravezar el jardn, me ha encontrado muerto; en otro, yo digoestas mismas palabras, pero soy un error, un fantasma.”
J.L. Borges, 1944, El jardin de senderos que se bifurcan
Walter Sosa Escudero Regresion, correlacion y causalidad
Apendice: β como diferencia de medias
Yi = α+ βDi + ui, i = i, . . . , N
Notacion
T = tratados, N − T = no tratados.
YT , YN−T , promedios tratados y no tratados.∑T Yi ≡
∑DiYi,
∑N−T ≡
∑(1−D)Yi
Resultado: β = YT − YN−T
Walter Sosa Escudero Regresion, correlacion y causalidad
Prueba
Recordar
β =
∑diYi∑d2i
, di ≡ Di − D
Denominador: ∑d2i =
∑(Di − D)2
=∑
D2i −ND2
=∑
Di −N T 2/N2
= T − T 2/N
= T (1− T/N)
Walter Sosa Escudero Regresion, correlacion y causalidad
Numerador:∑diYi =
∑(Di − D)Yi
=∑
DiYi − D∑
Yi
=∑T
Yi − T/N
(∑T
Yi +∑N−T
Yi
)= T YT − T/N
(T YT + (N − T ) YN−T
)= YT T (1− T/N) − YN−T T (1− T/N)
= T (1− T/N)(YT − YN−T
)Reemplazando y simplificando se obtiene el resultado.
Ejercicio: derivar α para este caso.
Walter Sosa Escudero Regresion, correlacion y causalidad
top related