evaluación

13
UNIVERSIDAD NACIONAL DEL ALTIPLANO FACULTAD DE INGENIERÍA ECONÓMICA Curso de Evaluación del Impacto de los Programas Sociales Edson Nimer Samillan Sanga Yeny Lizbet Chipana Paredes Emparejamiento por Puntaje de Propensión Los datos provienen de la National Supported Work (NSW) restringido a la NSW- PSID-1 sub muestra. Se usa esta base porque es ampliamente conocida en la aplicación de este método a la economía laboral, y porque está públicamente disponible el sitio Web de Rajeev Dehejia (http://www.columbia.edu/˜rd247/nswdata.html.). La variable de interés es RE78 (ganancias reales en 1978); el tratamiento TREAT es la participación en el grupo de tratamiento NSW. Las variables de control son edad (AGE), educación (EDUC), BLACK (1 si negro, 0 en otro caso), HISP (1 si hispano, 0 en otro caso), MARR (1 si es casado, 0 en otro caso), NODEGREE (1 si tiene grado, 0 si no la tiene), RE75 (ganancias en 1975), y RE74 (ganancias en 1974). El grupo de tratamiento contiene 185 observaciones, el de control 2490 observaciones, de lo que en total son 2675 observaciones. Descripción de la muestra de datos de la National Supported Work VARIABLE DESCRIPCIÓN RE78 Ganancias reales en 1978 TREAT Participación del grupo de tratamiento (1= si recibe la capacitación, 0 si no la recibe) EDAD La edad del participante EDUC Educación del participante BLACK 1 si negro, 0 en otro caso HISP 1 si hispano, 0 en otro caso MARR 1 si es casado, 0 en otro caso NODEGREE 1 si tiene grado, 0 si no la tiene RE75 ganancias en 1975 RE74 ganancias en 1974

Upload: edson-nimer-samillan-sanga

Post on 14-Apr-2016

217 views

Category:

Documents


1 download

DESCRIPTION

Emparejamiento por Puntaje de Propensión (PSM)

TRANSCRIPT

UNIVERSIDAD NACIONAL DEL ALTIPLANO

FACULTAD DE INGENIERÍA ECONÓMICA

Curso de Evaluación del Impacto de los Programas Sociales Edson Nimer Samillan Sanga Yeny Lizbet Chipana Paredes

Emparejamiento por Puntaje de Propensión Los datos provienen de la National Supported Work (NSW) restringido a la NSW-

PSID-1 sub muestra. Se usa esta base porque es ampliamente conocida en la aplicación

de este método a la economía laboral, y porque está públicamente disponible el sitio Web

de Rajeev Dehejia (http://www.columbia.edu/˜rd247/nswdata.html.). La variable de

interés es RE78 (ganancias reales en 1978); el tratamiento TREAT es la participación en

el grupo de tratamiento NSW. Las variables de control son edad (AGE), educación

(EDUC), BLACK (1 si negro, 0 en otro caso), HISP (1 si hispano, 0 en otro caso), MARR

(1 si es casado, 0 en otro caso), NODEGREE (1 si tiene grado, 0 si no la tiene), RE75

(ganancias en 1975), y RE74 (ganancias en 1974). El grupo de tratamiento contiene 185

observaciones, el de control 2490 observaciones, de lo que en total son 2675

observaciones.

Descripción de la muestra de datos de la National Supported Work

VARIABLE DESCRIPCIÓN

RE78 Ganancias reales en 1978

TREAT

Participación del grupo de tratamiento (1= si recibe la capacitación, 0 si no la

recibe)

EDAD La edad del participante

EDUC Educación del participante

BLACK 1 si negro, 0 en otro caso

HISP 1 si hispano, 0 en otro caso

MARR 1 si es casado, 0 en otro caso

NODEGREE 1 si tiene grado, 0 si no la tiene

RE75 ganancias en 1975

RE74 ganancias en 1974

Fuente: Elaboración propia en base a datos de la NSW

El tratamiento de evaluación es la estimación del efecto medio de un programa o

tratamiento sobre el resultado de interés. Una comparación de los resultados se hace entre

los grupos tratados y de control. El emparejamiento por puntaje de propensión se utiliza

cuando un grupo de sujetos reciben un tratamiento y nos gustaría comparar sus resultados

con los resultados de un grupo de control. El ejemplo incluye la estimación de los efectos

de un programa de capacitación en el desempeño laboral o los efectos de un programa

gubernamental dirigido a ayudar a las escuelas particulares.

Histogramas

histogram RE78

0

1.0

e-0

52

.0e-0

53

.0e-0

54

.0e-0

55

.0e-0

5

Den

sity

0 50000 100000 150000RE78

histogram TREAT

Definimos la variable de tratamiento, resultado o dependiente, y las variables

independientes haciendo uso de los siguientes comandos:

global treatment TREAT

global ylist RE78

global xlist AGE AGESQ EDUC EDUCSQ MARR BLACK HISP RE74

RE75SQ U74BLACK

global breps 5

Método de diferencias (Datos de un periodo-RE78)

Para este método se hace uso de los siguientes comandos:

describe $treatment $ylist $xlist

01

02

03

0

Den

sity

0 .2 .4 .6 .8 1TREAT

sum $treatment $ylist $xlist

bysort $treatment: sum $ylist $xlist

U74BLACK float %9.0g

RE75SQ float %9.0g

RE74 float %9.0g

HISP float %9.0g

BLACK float %9.0g

MARR float %9.0g

EDUCSQ float %9.0g

EDUC float %9.0g

AGESQ float %9.0g

AGE float %9.0g

RE78 float %9.0g

TREAT float %9.0g

variable name type format label variable label

storage display value

. describe $treatment $ylist $xlist

U74BLACK 2675 .0549533 .2279316 0 1

RE75SQ 2675 5.11e+08 8.91e+08 0 2.45e+10

RE74 2675 18230 13722.25 0 137149

HISP 2675 .0343925 .1822693 0 1

BLACK 2675 .2915888 .4545789 0 1

MARR 2675 .8194393 .3847257 0 1

EDUCSQ 2675 153.1862 70.62231 0 289

EDUC 2675 11.99439 3.053556 0 17

AGESQ 2675 1281.61 766.8415 289 3025

AGE 2675 34.22579 10.49984 17 55

RE78 2675 20502.38 15632.52 0 121174

TREAT 2675 .0691589 .2537716 0 1

Variable Obs Mean Std. Dev. Min Max

El resultado es la diferencia en los ingresos antes y después del tratamiento

(rediff)

TRATAMIENTO NÚMERO DE

OBSERVACIONES

PORCENTAJE DE

FRECUENCIA

0 2490 93%

1 185 7%

Tenemos que encontrar resultados para las 185 observaciones tratadas y

luego comparar los resultados

Note de la salida que no todas las observaciones de control se utilizaron

como pareamiento para las 185 observaciones tratados.

U74BLACK 2490 .0144578 .1193923 0 1

RE75SQ 2490 5.48e+08 9.12e+08 0 2.45e+10

RE74 2490 19428.75 13406.88 0 137149

HISP 2490 .0325301 .1774389 0 1

BLACK 2490 .2506024 .433447 0 1

MARR 2490 .8662651 .3404357 0 1

EDUCSQ 2490 156.3161 71.43048 0 289

EDUC 2490 12.11687 3.082435 0 17

AGESQ 2490 1323.53 769.796 324 3025

AGE 2490 34.8506 10.44076 18 55

RE78 2490 21553.92 15555.35 0 121174

Variable Obs Mean Std. Dev. Min Max

-> TREAT = 0

.

U74BLACK 185 .6 .4912274 0 1

RE75SQ 185 1.27e+07 5.60e+07 0 6.32e+08

RE74 185 2095.574 4886.623 0 35040.1

HISP 185 .0594595 .2371244 0 1

BLACK 185 .8432432 .3645579 0 1

MARR 185 .1891892 .3927217 0 1

EDUCSQ 185 111.0595 39.30388 16 256

EDUC 185 10.34595 2.01065 4 16

AGESQ 185 717.3946 431.2517 289 2304

AGE 185 25.81622 7.155019 17 48

RE78 185 6349.145 7867.405 0 60307.9

Variable Obs Mean Std. Dev. Min Max

-> TREAT = 1

Modelo para el tratamiento (t-test)

Primero, el método más simple para calcular el efecto de tratamiento promedio

del programa de capacitación laboral, el cual compara el resultado entre el grupo de

tratamiento y grupo de control en el desempeño laboral. El siguiente comando muestra el

efecto del programa de capacitación laboral

reg $ylist $treatment

El resultado muestra (-15204.78), que es muy significativo.

La regresión anterior muestra el impacto total del programa de capacitación sobre

las ganancias reales de 1978. Este resultado puede cambiar si incluimos otras variables

de interés en la regresión. Ahora, regresionamos las ganancias reales contra la dummy de

capacitación, más otros factores que pueden afectar en el ingreso:

reg $ylist $treatment $xlist

_cons 21553.92 303.6414 70.98 0.000 20958.53 22149.32

TREAT -15204.78 1154.614 -13.17 0.000 -17468.8 -12940.75

RE78 Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 6.5346e+11 2674 244375675 Root MSE = 15152

Adj R-squared = 0.0606

Residual 6.1365e+11 2673 229573201 R-squared = 0.0609

Model 3.9811e+10 1 3.9811e+10 Prob > F = 0.0000

F( 1, 2673) = 173.41

Source SS df MS Number of obs = 2675

Como puede verse en la salida que sigue, la asignación del programa en

capacitación no muestra ningún efecto secundario (spillover) después de controlar por

otras variables, veamos al utilizar únicamente como variable independientes a las

variables AGE, EDUC y MARR

Puede verse que al aplicarse únicamente estas variables el programa resulta

significativo.

_cons 2880.478 3570.156 0.81 0.420 -4120.08 9881.037

U74BLACK 1163.395 1241.172 0.94 0.349 -1270.363 3597.153

RE75SQ 3.65e-06 3.41e-07 10.71 0.000 2.98e-06 4.31e-06

RE74 .5633764 .0241606 23.32 0.000 .5160009 .6107519

HISP 1101.271 1152.101 0.96 0.339 -1157.832 3360.373

BLACK -1087.801 528.8095 -2.06 0.040 -2124.72 -50.88201

MARR 1624.787 622.1396 2.61 0.009 404.8609 2844.712

EDUCSQ 44.41395 15.54644 2.86 0.004 13.92964 74.89826

EDUC -375.4803 363.5069 -1.03 0.302 -1088.265 337.3041

AGESQ -4.531737 2.241993 -2.02 0.043 -8.92796 -.1355133

AGE 233.7363 165.0521 1.42 0.157 -89.90695 557.3796

TREAT -1742.745 1151.41 -1.51 0.130 -4000.494 515.0039

RE78 Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 6.5346e+11 2674 244375675 Root MSE = 10587

Adj R-squared = 0.5413

Residual 2.9851e+11 2663 112093617 R-squared = 0.5432

Model 3.5496e+11 11 3.2269e+10 Prob > F = 0.0000

F( 11, 2663) = 287.87

Source SS df MS Number of obs = 2675

_cons -11901.44 1703.792 -6.99 0.000 -15242.33 -8560.557

MARR 4937.016 800.0326 6.17 0.000 3368.269 6505.762

EDUC 1900.046 91.77385 20.70 0.000 1720.091 2080.001

AGE 176.6396 27.60029 6.40 0.000 122.5195 230.7597

TREAT -6901.379 1213.245 -5.69 0.000 -9280.375 -4522.384

RE78 Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 6.5346e+11 2674 244375675 Root MSE = 13950

Adj R-squared = 0.2037

Residual 5.1958e+11 2670 194600040 R-squared = 0.2049

Model 1.3388e+11 4 3.3470e+10 Prob > F = 0.0000

F( 4, 2670) = 171.99

Source SS df MS Number of obs = 2675

LA TÉCNICA DEL PROPENSITY SCORE MATCHING (EMPAREJAMIENTO

POR PUNTAJE DE PROPENSIÓN)

La idea básica detrás del Propensity Score Matching (PSM) es emparejar a cada

participante en un determinado programa con uno idéntico y medir el efecto la diferencia

promedio en la variable de resultado entre el participante y no participante..

El comando para estimar en Stata es "pscore", desarrollado por Becker y Ichino

(2002). El comando "pscore" estima el propensy score (puntuación de la propensión), que

es la probabilidad de obtener un tratamiento para cada individuo, y probar la propiedad

de balanceo, es decir, las observaciones con el mismo PSM que tienen la misma

distribución de características observables independientes de la condición de tratamiento.

Después hacer el balanceo, se pueden utilizar diferentes comandos para llevar a cabo

diferentes tipos de matching (emparejamiento) y luego obtener el efecto promedio del

tratamiento (ATE).

Modelo Emparejamiento por puntaje de propensión (Modelo probit)

La variable dependiente es si el individuo participó en el programa / tratamiento.

Para tal efecto se ejecuta el siguiente comando:

pscore $treatment $xlist, pscore(myscore) blockid(myblock) comsup

Total 2,675 100.00

1 185 6.92 100.00

0 2,490 93.08 93.08

TREAT Freq. Percent Cum.

The treatment is TREAT

****************************************************

Algorithm to estimate the propensity score

****************************************************

Iteration 5: log likelihood = -414.37062

Iteration 4: log likelihood = -414.37065

Iteration 3: log likelihood = -414.43392

Iteration 2: log likelihood = -417.65611

Iteration 1: log likelihood = -445.24322

Iteration 0: log likelihood = -672.64954

Estimation of the propensity score

Se puede resumir en el siguiente cuadro para efectos de interpretación:

Coeficientes Probit

Edad -0.05

Educación -0.17

Casado (married) -1.47

Interpretación:

Las personas que son mayores, más educadas, o casadas tienen menos probabilidades

de recibir capacitación.

Estamos salvando las puntuaciones de propensión (probabilidades predichas) desde

el modelo probit y el uso de ellos para encontrar resultados para las observaciones

tratadas.

La propiedad de equilibrio (características similares entre las observaciones tratados

y de control) es satisfecho.

Emparejamiento por Puntaje de Propensión utilizando “Matching” del Vecino Más

Próximo

attnd $ylist $treatment $xlist, pscore(myscore) comsup boot reps($breps) dots

_cons 2.729172 .3230556 8.45 0.000 2.095994 3.362349

MARR -1.469566 .0995124 -14.77 0.000 -1.664607 -1.274526

EDUC -.1686459 .0192597 -8.76 0.000 -.2063942 -.1308977

AGE -.0479858 .0060942 -7.87 0.000 -.0599302 -.0360415

TREAT Coef. Std. Err. z P>|z| [95% Conf. Interval]

Log likelihood = -414.37062 Pseudo R2 = 0.3840

Prob > chi2 = 0.0000

LR chi2(3) = 516.56

Probit regression Number of obs = 2675

nearest neighbour matches

Note: the numbers of treated and controls refer to actual

185 431 -6715.251 1208.485 -5.557

n. treat. n. contr. ATT Std. Err. t

Bootstrapped standard errors

(random draw version)

ATT estimation with Nearest Neighbor Matching method

La estimación “attnd” con o sin pesos no afecta a los resultados de la variable de

interés. En este ejercicio, “attnd” los resultados se muestran con los pesos.

Los siguientes resultados muestran que, la capacitación en un periodo en el

desempeño laboral tiene un impacto negativo sobre el ingreso con el método del vecino

más cercano (t = -5.557). El tratamiento promedio de los tratados (ATT) sobre el ingreso

en el programa de capacitación es -6715.251.

Emparejamiento por Puntaje de Propensión utilizando Radio “Matching”

El comando “attr” calcula el efecto de tratamiento promedio sobre los tratados

usando el método del radio.

attr $ylist $treatment $xlist, pscore(myscore) comsup boot reps($breps) dots

radius(0.1)

El resultado muestra un impacto decreciente (-13300), (t = -8.130) de la

capacitación en el programa sobre ingreso.

Emparejamiento por Puntaje de Propensión utilizando Kernel “Matching”

El commando “attk” calcula el efecto de tratamiento promedio usando el

emparejamiento basado en la distribución kernel. La opcion “reps” active el bootstrapping

5 veces.

attk $ylist $treatment $xlist, pscore(myscore) comsup boot reps($breps) dots

matches within radius

Note: the numbers of treated and controls refer to actual

185 2147 -1.33e+04 1629.979 -8.130

n. treat. n. contr. ATT Std. Err. t

Bootstrapped standard errors

ATT estimation with the Radius Matching method

Los resultados son consistentes con los hallazgos anteriores. La capacitación a los

trabajadores disminuye el ingreso en (-7009.315) con un (t=-15.875).

Emparejamiento por Puntaje de Propensión utilizando “Matching” Estratificado

El comando “atts” calcula el efecto tratamiento promedio usando el

emparejamiento de estratificación. El efecto de tratamiento promedio estimado de la

capacitación sobre los tratados en el programa sobre el ingreso, se usa el siguiente

comando:

atts $ylist $treatment $xlist, pscore(myscore) blockid(myblock) comsup boot

reps($breps) dots

El resultado muestra una disminución del ingreso de -6497.605 en el ingreso

debido a la capacitación.

Método de diferencias en diferencias (Datos de dos periodos-REDIFF)

Para este caso se trabajara de similar manera que el método de diferencia, tomando

en cuenta que se trabajara con datos de dos periodos, es decir en vez de como variable

resultado a RE78 se tendrá la variable REDIFF, a continuación se muestra el cuadro

resumen.

185 2147 -7009.315 441.523 -15.875

n. treat. n. contr. ATT Std. Err. t

Bootstrapped standard errors

ATT estimation with the Kernel Matching method

184 2148 -6497.605 400.987 -16.204

n. treat. n. contr. ATT Std. Err. t

Bootstrapped standard errors

ATT estimation with the Stratification method

Método de estimación Diferencias usando datos

de un periodo (RE78)

Diferencia en diferencias

usando datos de dos

periodos (REDIFF)

T-test -15,204 2,327

Regresión con dummy -6,901 2,276

ATET vecino más próximo -6,715 2,989

ATET radio matching -13,252 2,215

ATET kernel matching -7,009 2,803

ATET matching estratificado -6,497 2,776

Interpretación:

Después de comparar los individuos tratados y de control, los efectos del programa

de formación redujeron las ganancias por alrededor de $ 6.000 a $ 13.000 en un

periodo. En otras palabras, las personas que recibieron capacitación ganan menos que

los que no recibieron.

El uso datos de dos periodos (la variable de resultado es la diferencia del antes y

después de los períodos), los resultados muestran que las personas que recibieron la

capacitación aumenta sus ingresos por $ 2.000 a $ 3.000.

Referencias bibliográficas

Baum C.F., Schaffer M.E. y Stillman, S. (2003): “Instrumental Variables and

GMM: Estimation and Testing”, Stata Journal.

Becker, S. y Andrea Ichino, (2002). "Estimation of average treatment effects

based on propensity scores", Stata Journal.

ÍNDICE Emparejamiento por Puntaje de Propensión ........................................................................... 1

Descripción de la muestra de datos de la National Supported Work ................................. 1

Método de diferencias (Datos de un periodo-RE78) ............................................................ 3

Modelo para el tratamiento (t-test) ........................................................................................ 6

LA TÉCNICA DEL PROPENSITY SCORE MATCHING (EMPAREJAMIENTO POR

PUNTAJE DE PROPENSIÓN) .............................................................................................. 8

Modelo Emparejamiento por puntaje de propensión (Modelo probit) .......................... 8

Emparejamiento por Puntaje de Propensión utilizando “Matching” del Vecino Más

Próximo ................................................................................................................................ 9

Emparejamiento por Puntaje de Propensión utilizando Radio “Matching” ............... 10

Emparejamiento por Puntaje de Propensión utilizando Kernel “Matching” ............. 10

Emparejamiento por Puntaje de Propensión utilizando “Matching” Estratificado ... 11

Método de diferencias en diferencias (Datos de dos periodos-REDIFF) .......................... 11

Referencias bibliográficas......................................................................................................... 12