impact evaluation 4 peace 24-27 march 2014, lisbon, portugal 1 muestreo para evaluación de...
TRANSCRIPT
Impact Evaluation 4 Peace 24-27 March 2014, Lisbon, Portugal
1
Muestreo para evaluación de
impacto… en la practica
Latin America and the Caribbean’s Citizen SecurityTeam
Vincenzo Di MaroBanco Mundial
25 de marzo de 2014
Índice
1. Componentes para determinar el tamaño de la muestra Efecto mínimo detectable Potencia estadística Variabilidad de los resultados Muestreo por conglomerados (clustering)
2. Complicaciones Múltiples grupos de tratamiento Estratificación
3. Problemas Adicionales Adopción del programa Calidad de los datos 2
Determinar el tamaño de la muestra
Piensa en el tamaño de la muestra como la precisión de un “dispositivo de medición”. Entre más observaciones, más preciso será tu “dispositivo de medición”.
Mayor precisión significa que estás seguro de las conclusiones de tu evaluación
Ejemplo: ¿Cuál es la frase de abajo si sólo puedes ver dos letras?
El número de letras reveladas es análogo al número de observaciones Donde cada letra, por ejemplo, cuesta 100,000 dólares
Tu presupuesto es de US $ 1.3 millones. Si usas todo tu presupuesto, podrás revelar todas las letras Si tu predicción es incorrecta, perderás toda la inversión
3
a a a a
e a
Si incrementas el número de “observaciones” (en este caso letras)
4
Más observacio
nes
Más precisión
Más confianza
Determinar el tamaño de la muestra
a m o a e a u a c i ó
e i m a t o
Muestreo para evaluación de impacto
En evaluación de impacto: el objetivo es tener una muestra suficientemente grande para estimar el impacto con validez estadística.
Los conceptos estadísticos son similares (al muestreo en general), pero existen algunas consideraciones específicas para la evaluación de impacto.
En general, el tamaño de la muestra requerido para estimar un impacto es mayor al que se requiere para estimar promedios.
Componentes para determinar el tamaño de la
muestra en IE
Efecto mínimo detectable
Potencia estadística
Varianza de los resultados
Muestreo por conglomerados (clustering)
Lo siguiente aplica a experimentos (asignación aleatoria)
Efecto mínimo detectableDetectar pequeñas diferencias es más difícil
7
¿Quién es más alto? Cuanto más grande sea la muestra, más preciso será el dispositivo de medición es más fácil
detectar efectos más pequeños
Muestra más grande ≈ mayor precisión (del dispositivo de medición)
Efecto mínimo detectable
¿Cómo elegimos?
¿Cómo elegir el tamaño del efecto mínimo deseado? Efecto mínimo para un cambio de política Efecto mínimo para concluir que la intervención
no fue un fracaso Este programa aumentó las ventas en 40% y este
efecto es significativo desde el punto de vista estadístico ¡Muy bien! Vamos a pensar en cómo expandir el programa
Este programa aumentó las ventas en 10% y el efecto es significativo desde el punto de vista estadístico ¡Muy bien ! .... ¡Uy! espera un minuto, ¿gastamos todo este
dinero y las ventas sólo aumentaron 10%? 8
Potencia estadística(poder estadístico)
Potencia estadísticaError tipo 2: Se concluye que un programa no ha tenido impacto cuando realmente tuvo un impacto
Relacionado al error tipo 1: Concluir que un programa ha tenido un impacto a pesar de que el programa no ha tenido impacto en realidad (típicamente 1% ó 5%)
En la práctica: Los niveles más habituales de potencia son
80% o 90% Es decir, 20% o 10% es la probabilidad de
que no seamos capaces de detectar un impacto cuando este impacto realmente existe
Muestra más grande Mayor potencia9
Varianza de los indicadores del
resultado¿Cómo afecta la variabilidad de un indicador de resultado nuestra habilidad para detectar un impacto?
Ejemplo: ¿Qué patos son más grandes? ¿Cuántas observaciones en cada círculo se necesitan para responder?
10
Varianza de los indicadores del
resultado La comparación es más complicada; es decir, necesitamos más información (una muestra más grande) La respuesta puede depender de qué animal escojas
en el círculo azul o el círculo rojo
11
Varianza de los indicadores del
resultadoEn resumen: Más varianza (heterogeneidad) Más difícil detectar diferencias Necesitamos una muestra más grande
Complicación: ¿Cómo podemos saber sobre la variabilidad antes de decidir el tamaño de la muestra y recolectar los datos?
Ideal: Datos pre-existentes ... pero a menudo inexistentes
Puede utilizar los datos ya existentes de una población similar
Sentido común12
Muestreo por conglomerados
(clusters) En muchos casos prácticos, la aleatorización se realiza a nivel de los conglomerados (escuelas o centros de salud).
El problema radica en que las unidades dentro del mismo cluster suelen ser similares:
Unidad adicional (estudiante) de un cluster diferente (la escuela) te da más información.
Unidad adicional (estudiante) en el mismo cluster le dará menos información.
Conclusión: Cuando la correlación es muy alta dentro del cluster, se necesita una muestra más grande (porque se necesitan más clusters).
13
Otras consideraciones
1. Múltiples grupos de tratamiento
2. Estratificación
3. Adopción del programa
4. Calidad de los Datos
14
Otras consideraciones
Múltiples grupos de tratamiento Cada grupo de tratamiento se compara al grupo de
control Comparar grupos de tratamiento requiere muestras
muy grandes Especialmente si los tratamientos son similares, las
diferencias en el impacto esperado entre los grupos de tratamiento serán probablemente pequeñas.
Resultados desagregados por grupos ¿Los efectos son diferentes para hombres y
mujeres? ¿Qué tal para diferentes industrias? Si se espera que el género/ industrias reaccionen de
una manera similar (similar impacto), entonces estimar las diferencias en el efecto del tratamiento también requiere muestras más grandes
15
Otras consideraciones
Estratificación para obtener balance Para asegurar el balance entre los grupos de
tratamiento y de control, es deseable estratificar la muestra antes de la asignación al grupo de tratamiento
Estratos Sub-poblaciones Estratos comunes: ubicación, género,
industria, los valores de base (iniciales) de los resultados de interés
La asignación al grupo de tratamiento (o muestra) se lleva a cabo dentro de estos grupos 16
¿Por qué necesitamos estratificar?
Ejemplo de estratos con base en la región
= T = C
¿Por qué necesitamos estratificar?
¿Cuál es el impacto en una región en particular? Es difícil decir con confianza
¿Por qué necesitamos estratificar?
Asignación aleatoria dentro de cada estrato (región)
Dentro de cada región, ½ a el grupo de tratamiento y ½ al grupo de control.
Lógica similar para género, industria, tamaño de la empresa, etc.
Otras consideraciones
Adopción del programa Una baja adopción del programa en el grupo
de tratamiento aumenta el tamaño del efecto detectable mínimo. En la práctica, baja adopción del programa equivale una
reducción en el tamaño de la muestra Sólo se podrá detectar un efecto si éste es realmente grande
Ejemplo: Ofrecer subsidios a las PYMEs en forma de servicios de apoyo al desarrollo empresarial Ofrecer a 5,000 empresas Sólo 50 participantes Probablemente sólo se puede decir con seguridad que hay un
efecto en las ventas si se convierten en parte de las empresas de la lista de Fortune 500!
20
Otras cuestionesCalidad de los datos
Calidad de los datos Datos de poca calidad en la práctica,
incrementan el tamaño requerido de la muestra Muchas observaciones faltantes (necesitan
remplazo) Aumento del error aleatorio.
Un punto importante es tener un buen coordinador de campo supervisando la recolección de datos 21
Otras cuestionesMétodos no
experimentales en la práctica
Todo esto aplicó a las evaluaciones experimentales (asignación aleatoria): En general, los métodos no
experimentales requieren muestras más grandes. Por ejemplo, Diseño de Regresión Discontinua require
muestras 3 o 4 veces más grandes)
¿Qué hacer en la práctica? Pregunta a los especialistas en muestreo Software:
Optimal Design (complejo pero hay muchas opciones) Stata (más simple pero hay menos opciones) 22
Resumen final
Muestra más grande
Efecto pequeño
Mayor variabilidad
Más precisión (potencia estadítica)
Unidades en cada grupo son muy similares (Clustering)
Adopción del programa y
calidad de los datosMúltiples grupos
de tratamiento y estratos