evaluación
DESCRIPTION
Emparejamiento por Puntaje de Propensión (PSM)TRANSCRIPT
UNIVERSIDAD NACIONAL DEL ALTIPLANO
FACULTAD DE INGENIERÍA ECONÓMICA
Curso de Evaluación del Impacto de los Programas Sociales Edson Nimer Samillan Sanga Yeny Lizbet Chipana Paredes
Emparejamiento por Puntaje de Propensión Los datos provienen de la National Supported Work (NSW) restringido a la NSW-
PSID-1 sub muestra. Se usa esta base porque es ampliamente conocida en la aplicación
de este método a la economía laboral, y porque está públicamente disponible el sitio Web
de Rajeev Dehejia (http://www.columbia.edu/˜rd247/nswdata.html.). La variable de
interés es RE78 (ganancias reales en 1978); el tratamiento TREAT es la participación en
el grupo de tratamiento NSW. Las variables de control son edad (AGE), educación
(EDUC), BLACK (1 si negro, 0 en otro caso), HISP (1 si hispano, 0 en otro caso), MARR
(1 si es casado, 0 en otro caso), NODEGREE (1 si tiene grado, 0 si no la tiene), RE75
(ganancias en 1975), y RE74 (ganancias en 1974). El grupo de tratamiento contiene 185
observaciones, el de control 2490 observaciones, de lo que en total son 2675
observaciones.
Descripción de la muestra de datos de la National Supported Work
VARIABLE DESCRIPCIÓN
RE78 Ganancias reales en 1978
TREAT
Participación del grupo de tratamiento (1= si recibe la capacitación, 0 si no la
recibe)
EDAD La edad del participante
EDUC Educación del participante
BLACK 1 si negro, 0 en otro caso
HISP 1 si hispano, 0 en otro caso
MARR 1 si es casado, 0 en otro caso
NODEGREE 1 si tiene grado, 0 si no la tiene
RE75 ganancias en 1975
RE74 ganancias en 1974
Fuente: Elaboración propia en base a datos de la NSW
El tratamiento de evaluación es la estimación del efecto medio de un programa o
tratamiento sobre el resultado de interés. Una comparación de los resultados se hace entre
los grupos tratados y de control. El emparejamiento por puntaje de propensión se utiliza
cuando un grupo de sujetos reciben un tratamiento y nos gustaría comparar sus resultados
con los resultados de un grupo de control. El ejemplo incluye la estimación de los efectos
de un programa de capacitación en el desempeño laboral o los efectos de un programa
gubernamental dirigido a ayudar a las escuelas particulares.
Histogramas
histogram RE78
0
1.0
e-0
52
.0e-0
53
.0e-0
54
.0e-0
55
.0e-0
5
Den
sity
0 50000 100000 150000RE78
histogram TREAT
Definimos la variable de tratamiento, resultado o dependiente, y las variables
independientes haciendo uso de los siguientes comandos:
global treatment TREAT
global ylist RE78
global xlist AGE AGESQ EDUC EDUCSQ MARR BLACK HISP RE74
RE75SQ U74BLACK
global breps 5
Método de diferencias (Datos de un periodo-RE78)
Para este método se hace uso de los siguientes comandos:
describe $treatment $ylist $xlist
01
02
03
0
Den
sity
0 .2 .4 .6 .8 1TREAT
sum $treatment $ylist $xlist
bysort $treatment: sum $ylist $xlist
U74BLACK float %9.0g
RE75SQ float %9.0g
RE74 float %9.0g
HISP float %9.0g
BLACK float %9.0g
MARR float %9.0g
EDUCSQ float %9.0g
EDUC float %9.0g
AGESQ float %9.0g
AGE float %9.0g
RE78 float %9.0g
TREAT float %9.0g
variable name type format label variable label
storage display value
. describe $treatment $ylist $xlist
U74BLACK 2675 .0549533 .2279316 0 1
RE75SQ 2675 5.11e+08 8.91e+08 0 2.45e+10
RE74 2675 18230 13722.25 0 137149
HISP 2675 .0343925 .1822693 0 1
BLACK 2675 .2915888 .4545789 0 1
MARR 2675 .8194393 .3847257 0 1
EDUCSQ 2675 153.1862 70.62231 0 289
EDUC 2675 11.99439 3.053556 0 17
AGESQ 2675 1281.61 766.8415 289 3025
AGE 2675 34.22579 10.49984 17 55
RE78 2675 20502.38 15632.52 0 121174
TREAT 2675 .0691589 .2537716 0 1
Variable Obs Mean Std. Dev. Min Max
El resultado es la diferencia en los ingresos antes y después del tratamiento
(rediff)
TRATAMIENTO NÚMERO DE
OBSERVACIONES
PORCENTAJE DE
FRECUENCIA
0 2490 93%
1 185 7%
Tenemos que encontrar resultados para las 185 observaciones tratadas y
luego comparar los resultados
Note de la salida que no todas las observaciones de control se utilizaron
como pareamiento para las 185 observaciones tratados.
U74BLACK 2490 .0144578 .1193923 0 1
RE75SQ 2490 5.48e+08 9.12e+08 0 2.45e+10
RE74 2490 19428.75 13406.88 0 137149
HISP 2490 .0325301 .1774389 0 1
BLACK 2490 .2506024 .433447 0 1
MARR 2490 .8662651 .3404357 0 1
EDUCSQ 2490 156.3161 71.43048 0 289
EDUC 2490 12.11687 3.082435 0 17
AGESQ 2490 1323.53 769.796 324 3025
AGE 2490 34.8506 10.44076 18 55
RE78 2490 21553.92 15555.35 0 121174
Variable Obs Mean Std. Dev. Min Max
-> TREAT = 0
.
U74BLACK 185 .6 .4912274 0 1
RE75SQ 185 1.27e+07 5.60e+07 0 6.32e+08
RE74 185 2095.574 4886.623 0 35040.1
HISP 185 .0594595 .2371244 0 1
BLACK 185 .8432432 .3645579 0 1
MARR 185 .1891892 .3927217 0 1
EDUCSQ 185 111.0595 39.30388 16 256
EDUC 185 10.34595 2.01065 4 16
AGESQ 185 717.3946 431.2517 289 2304
AGE 185 25.81622 7.155019 17 48
RE78 185 6349.145 7867.405 0 60307.9
Variable Obs Mean Std. Dev. Min Max
-> TREAT = 1
Modelo para el tratamiento (t-test)
Primero, el método más simple para calcular el efecto de tratamiento promedio
del programa de capacitación laboral, el cual compara el resultado entre el grupo de
tratamiento y grupo de control en el desempeño laboral. El siguiente comando muestra el
efecto del programa de capacitación laboral
reg $ylist $treatment
El resultado muestra (-15204.78), que es muy significativo.
La regresión anterior muestra el impacto total del programa de capacitación sobre
las ganancias reales de 1978. Este resultado puede cambiar si incluimos otras variables
de interés en la regresión. Ahora, regresionamos las ganancias reales contra la dummy de
capacitación, más otros factores que pueden afectar en el ingreso:
reg $ylist $treatment $xlist
_cons 21553.92 303.6414 70.98 0.000 20958.53 22149.32
TREAT -15204.78 1154.614 -13.17 0.000 -17468.8 -12940.75
RE78 Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 6.5346e+11 2674 244375675 Root MSE = 15152
Adj R-squared = 0.0606
Residual 6.1365e+11 2673 229573201 R-squared = 0.0609
Model 3.9811e+10 1 3.9811e+10 Prob > F = 0.0000
F( 1, 2673) = 173.41
Source SS df MS Number of obs = 2675
Como puede verse en la salida que sigue, la asignación del programa en
capacitación no muestra ningún efecto secundario (spillover) después de controlar por
otras variables, veamos al utilizar únicamente como variable independientes a las
variables AGE, EDUC y MARR
Puede verse que al aplicarse únicamente estas variables el programa resulta
significativo.
_cons 2880.478 3570.156 0.81 0.420 -4120.08 9881.037
U74BLACK 1163.395 1241.172 0.94 0.349 -1270.363 3597.153
RE75SQ 3.65e-06 3.41e-07 10.71 0.000 2.98e-06 4.31e-06
RE74 .5633764 .0241606 23.32 0.000 .5160009 .6107519
HISP 1101.271 1152.101 0.96 0.339 -1157.832 3360.373
BLACK -1087.801 528.8095 -2.06 0.040 -2124.72 -50.88201
MARR 1624.787 622.1396 2.61 0.009 404.8609 2844.712
EDUCSQ 44.41395 15.54644 2.86 0.004 13.92964 74.89826
EDUC -375.4803 363.5069 -1.03 0.302 -1088.265 337.3041
AGESQ -4.531737 2.241993 -2.02 0.043 -8.92796 -.1355133
AGE 233.7363 165.0521 1.42 0.157 -89.90695 557.3796
TREAT -1742.745 1151.41 -1.51 0.130 -4000.494 515.0039
RE78 Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 6.5346e+11 2674 244375675 Root MSE = 10587
Adj R-squared = 0.5413
Residual 2.9851e+11 2663 112093617 R-squared = 0.5432
Model 3.5496e+11 11 3.2269e+10 Prob > F = 0.0000
F( 11, 2663) = 287.87
Source SS df MS Number of obs = 2675
_cons -11901.44 1703.792 -6.99 0.000 -15242.33 -8560.557
MARR 4937.016 800.0326 6.17 0.000 3368.269 6505.762
EDUC 1900.046 91.77385 20.70 0.000 1720.091 2080.001
AGE 176.6396 27.60029 6.40 0.000 122.5195 230.7597
TREAT -6901.379 1213.245 -5.69 0.000 -9280.375 -4522.384
RE78 Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 6.5346e+11 2674 244375675 Root MSE = 13950
Adj R-squared = 0.2037
Residual 5.1958e+11 2670 194600040 R-squared = 0.2049
Model 1.3388e+11 4 3.3470e+10 Prob > F = 0.0000
F( 4, 2670) = 171.99
Source SS df MS Number of obs = 2675
LA TÉCNICA DEL PROPENSITY SCORE MATCHING (EMPAREJAMIENTO
POR PUNTAJE DE PROPENSIÓN)
La idea básica detrás del Propensity Score Matching (PSM) es emparejar a cada
participante en un determinado programa con uno idéntico y medir el efecto la diferencia
promedio en la variable de resultado entre el participante y no participante..
El comando para estimar en Stata es "pscore", desarrollado por Becker y Ichino
(2002). El comando "pscore" estima el propensy score (puntuación de la propensión), que
es la probabilidad de obtener un tratamiento para cada individuo, y probar la propiedad
de balanceo, es decir, las observaciones con el mismo PSM que tienen la misma
distribución de características observables independientes de la condición de tratamiento.
Después hacer el balanceo, se pueden utilizar diferentes comandos para llevar a cabo
diferentes tipos de matching (emparejamiento) y luego obtener el efecto promedio del
tratamiento (ATE).
Modelo Emparejamiento por puntaje de propensión (Modelo probit)
La variable dependiente es si el individuo participó en el programa / tratamiento.
Para tal efecto se ejecuta el siguiente comando:
pscore $treatment $xlist, pscore(myscore) blockid(myblock) comsup
Total 2,675 100.00
1 185 6.92 100.00
0 2,490 93.08 93.08
TREAT Freq. Percent Cum.
The treatment is TREAT
****************************************************
Algorithm to estimate the propensity score
****************************************************
Iteration 5: log likelihood = -414.37062
Iteration 4: log likelihood = -414.37065
Iteration 3: log likelihood = -414.43392
Iteration 2: log likelihood = -417.65611
Iteration 1: log likelihood = -445.24322
Iteration 0: log likelihood = -672.64954
Estimation of the propensity score
Se puede resumir en el siguiente cuadro para efectos de interpretación:
Coeficientes Probit
Edad -0.05
Educación -0.17
Casado (married) -1.47
Interpretación:
Las personas que son mayores, más educadas, o casadas tienen menos probabilidades
de recibir capacitación.
Estamos salvando las puntuaciones de propensión (probabilidades predichas) desde
el modelo probit y el uso de ellos para encontrar resultados para las observaciones
tratadas.
La propiedad de equilibrio (características similares entre las observaciones tratados
y de control) es satisfecho.
Emparejamiento por Puntaje de Propensión utilizando “Matching” del Vecino Más
Próximo
attnd $ylist $treatment $xlist, pscore(myscore) comsup boot reps($breps) dots
_cons 2.729172 .3230556 8.45 0.000 2.095994 3.362349
MARR -1.469566 .0995124 -14.77 0.000 -1.664607 -1.274526
EDUC -.1686459 .0192597 -8.76 0.000 -.2063942 -.1308977
AGE -.0479858 .0060942 -7.87 0.000 -.0599302 -.0360415
TREAT Coef. Std. Err. z P>|z| [95% Conf. Interval]
Log likelihood = -414.37062 Pseudo R2 = 0.3840
Prob > chi2 = 0.0000
LR chi2(3) = 516.56
Probit regression Number of obs = 2675
nearest neighbour matches
Note: the numbers of treated and controls refer to actual
185 431 -6715.251 1208.485 -5.557
n. treat. n. contr. ATT Std. Err. t
Bootstrapped standard errors
(random draw version)
ATT estimation with Nearest Neighbor Matching method
La estimación “attnd” con o sin pesos no afecta a los resultados de la variable de
interés. En este ejercicio, “attnd” los resultados se muestran con los pesos.
Los siguientes resultados muestran que, la capacitación en un periodo en el
desempeño laboral tiene un impacto negativo sobre el ingreso con el método del vecino
más cercano (t = -5.557). El tratamiento promedio de los tratados (ATT) sobre el ingreso
en el programa de capacitación es -6715.251.
Emparejamiento por Puntaje de Propensión utilizando Radio “Matching”
El comando “attr” calcula el efecto de tratamiento promedio sobre los tratados
usando el método del radio.
attr $ylist $treatment $xlist, pscore(myscore) comsup boot reps($breps) dots
radius(0.1)
El resultado muestra un impacto decreciente (-13300), (t = -8.130) de la
capacitación en el programa sobre ingreso.
Emparejamiento por Puntaje de Propensión utilizando Kernel “Matching”
El commando “attk” calcula el efecto de tratamiento promedio usando el
emparejamiento basado en la distribución kernel. La opcion “reps” active el bootstrapping
5 veces.
attk $ylist $treatment $xlist, pscore(myscore) comsup boot reps($breps) dots
matches within radius
Note: the numbers of treated and controls refer to actual
185 2147 -1.33e+04 1629.979 -8.130
n. treat. n. contr. ATT Std. Err. t
Bootstrapped standard errors
ATT estimation with the Radius Matching method
Los resultados son consistentes con los hallazgos anteriores. La capacitación a los
trabajadores disminuye el ingreso en (-7009.315) con un (t=-15.875).
Emparejamiento por Puntaje de Propensión utilizando “Matching” Estratificado
El comando “atts” calcula el efecto tratamiento promedio usando el
emparejamiento de estratificación. El efecto de tratamiento promedio estimado de la
capacitación sobre los tratados en el programa sobre el ingreso, se usa el siguiente
comando:
atts $ylist $treatment $xlist, pscore(myscore) blockid(myblock) comsup boot
reps($breps) dots
El resultado muestra una disminución del ingreso de -6497.605 en el ingreso
debido a la capacitación.
Método de diferencias en diferencias (Datos de dos periodos-REDIFF)
Para este caso se trabajara de similar manera que el método de diferencia, tomando
en cuenta que se trabajara con datos de dos periodos, es decir en vez de como variable
resultado a RE78 se tendrá la variable REDIFF, a continuación se muestra el cuadro
resumen.
185 2147 -7009.315 441.523 -15.875
n. treat. n. contr. ATT Std. Err. t
Bootstrapped standard errors
ATT estimation with the Kernel Matching method
184 2148 -6497.605 400.987 -16.204
n. treat. n. contr. ATT Std. Err. t
Bootstrapped standard errors
ATT estimation with the Stratification method
Método de estimación Diferencias usando datos
de un periodo (RE78)
Diferencia en diferencias
usando datos de dos
periodos (REDIFF)
T-test -15,204 2,327
Regresión con dummy -6,901 2,276
ATET vecino más próximo -6,715 2,989
ATET radio matching -13,252 2,215
ATET kernel matching -7,009 2,803
ATET matching estratificado -6,497 2,776
Interpretación:
Después de comparar los individuos tratados y de control, los efectos del programa
de formación redujeron las ganancias por alrededor de $ 6.000 a $ 13.000 en un
periodo. En otras palabras, las personas que recibieron capacitación ganan menos que
los que no recibieron.
El uso datos de dos periodos (la variable de resultado es la diferencia del antes y
después de los períodos), los resultados muestran que las personas que recibieron la
capacitación aumenta sus ingresos por $ 2.000 a $ 3.000.
Referencias bibliográficas
Baum C.F., Schaffer M.E. y Stillman, S. (2003): “Instrumental Variables and
GMM: Estimation and Testing”, Stata Journal.
Becker, S. y Andrea Ichino, (2002). "Estimation of average treatment effects
based on propensity scores", Stata Journal.
ÍNDICE Emparejamiento por Puntaje de Propensión ........................................................................... 1
Descripción de la muestra de datos de la National Supported Work ................................. 1
Método de diferencias (Datos de un periodo-RE78) ............................................................ 3
Modelo para el tratamiento (t-test) ........................................................................................ 6
LA TÉCNICA DEL PROPENSITY SCORE MATCHING (EMPAREJAMIENTO POR
PUNTAJE DE PROPENSIÓN) .............................................................................................. 8
Modelo Emparejamiento por puntaje de propensión (Modelo probit) .......................... 8
Emparejamiento por Puntaje de Propensión utilizando “Matching” del Vecino Más
Próximo ................................................................................................................................ 9
Emparejamiento por Puntaje de Propensión utilizando Radio “Matching” ............... 10
Emparejamiento por Puntaje de Propensión utilizando Kernel “Matching” ............. 10
Emparejamiento por Puntaje de Propensión utilizando “Matching” Estratificado ... 11
Método de diferencias en diferencias (Datos de dos periodos-REDIFF) .......................... 11
Referencias bibliográficas......................................................................................................... 12