Impact Evaluation 4 Peace 24-27 March 2014, Lisbon, Portugal 1 Métodos No- experimentales Latin America and the Caribbean’s Citizen Security Team Victor

1

Impact Evaluation 4 Peace24-27 March 2014, Lisbon, Portugal

Métodos No- experimentales Latin America and the Caribbean’s Citizen SecurityTeam

Victor OrozcoBanco Mundial

25 de marzo de 2014

Presentación basada en Impact Evaluation in Practice: www.worldbank.org/ieinpractice

Lecciones de Ayero¿Qué es un contrafactual?

o¿Por qué es Antes-Después un contrafactual incorrecto? (e.g. ambientes de conflicto)

o¿Por qué es inscrito-No inscrito un contrafactual incorrecto? (e.g. inscripcion de pandilleros a programas anti-violencia)

o¿Qué ofrece la asignación al azar o aleatoria?

2Métodos de Evaluación de Impacto

1 Asignación aleatoria / 2 Promoción aleatoria

4 Diseño de discontinuidad

3 Diferencia en diferencias

5 Apareamiento (Matching)

Diseño de discontinuidad

Programas vs la pobreza

Pensiones

Educacion

Indice de Fragilidad?

Muchos programas sociales seleccionan beneficiarios utilizando un índice o puntaje (score):

Dirigido a los hogares por debajo de un índice de pobreza / ingresos

Dirigido a la población por encima de una cierta edad

Becas destinadas a estudiantes con altas puntuaciones en examenes estandarizados

Programa para comunidades o municipalidades de alta violencia?

Ejemplo: Efecto del programa de becas a hogares pobres

Mejorar la asistencia escolar para los estudiantes pobres

Objetivo

• Los hogares con una puntuación (Pa) de los activos ≤ 50 son pobres

• Los hogares con una puntuación (Pa) de activos> 50 no son pobres

Método

Los hogares pobres reciben becas para enviar a los niños a la escuela

Intervención

La discontinuidad de regresión Diseño con la línea base (asistencia escolar)

No elegible

Elegible

La discontinuidad de regresión Diseño-Post Intervención (asistencia escolar)

IMPACTO

Caso 5: Diseño de discontinuidadTenemos un índice de elegibilidad continua

con un corte definido • Los hogares con un punto de corte ≤ puntaje (score) son

elegibles• Hogares con un puntaje> corte no son elegibles• O viceversa

Explicación intuitiva del método:• Unidades justo por encima del punto de corte son muy

similares a las unidades justo debajo de él - buena comparación.

• Comparar los resultados (outcomes) Y para las unidades justo por encima y por debajo del punto de corte.Para un diseño de

discontinuidad, necesita:1) Índice de elegibilidad continua2) Define claramente corte/puntaje de elegibilidad.

Caso 5: Diseño de discontinuidad

• La elegibilidad para Progresa se basa en el índice de pobreza nacional

• Hogar es pobre si score ≤ 750 • La elegibilidad para Progresa:

• Elegible = 1 si puntaje ≤ 750• Elegible = 0 si puntaje> 750

Caso 5: Diseño de discontinuidad Score vs consumo en la línea basal-Ningún tratamiento

Fitt

ed v

alu

es

puntaje estimado en focalizacion276 1294

153.578

379.224

Indice de Pobreza

Gast

o C

onsu

mo

alim

ento

s

Fitt

ed v

alu

es

puntaje estimado en focalizacion276 1294

183.647

399.51

(**) Significativo al 1%

Consu

mo

Valo

res

Aju

stados

Indice de Pobreza

30.58**Impacto estimado en

consumo (Y) | Regresion Lineal Multivariable

Caso 5: Diseño de discontinuidad Score vs consumo después de la intervención

Tener en Mente

Diseño de discontinuidadDiseño de discontinuidad requiere criterios de elegibilidad continua con un claro corte.Da estimación no sesgada del efecto del tratamiento: Observaciones al otro lado de la línea de corte son buenas comparaciones.

No hay necesidad de excluir a un grupo de hogares / individuos elegibles de tratamiento.A veces se puede utilizar para los programas que ya están en curso.

!

Tener en mente

Diseño de discontinuidadDiseño de discontinuidad produce una estimación local:• Efecto del programa

en torno a la línea de corte Punto / discontinuidad.

• Esto no siempre es generalizable.

Potencia:• Necesita muchas

observaciones alrededor del punto de corte.

Evitar errores en el modelo estadístico: A veces lo que parece ser una discontinuidad en el gráfico, es otra cosa.

!






Diferencia en diferencias (Diff-en-diff)Y = EmpleadosP = programa de capacitacion para jóvenes

Diff-in-Diff: Impacto=(Yt1-Yt0)-(Yc1-Yc0)

InscritosNo Inscritos

Despues 0.74 0.81

Antes 0.60 0.78

Diferencia +0.14 +0.03 0.11

- -

- =

Diferencia en diferencias (Diff-en-diff)

Diff-in-Diff: Impacto=(Yt1-Yc1)-(Yt0-Yc0)

InscritosNo Inscritos

Despues 0.74 0.81

Antes 0.60 0.78

Diferencia

-0.07

-0.18

0.11

--

-

=

Y = EmpleadosP = programa de capacitacion para jóvenes

Impacto =(A-B)-(C-D)=(A-C)-(B-D)

Em

ple

ad

o

B=0.60

C=0.81

D=0.78

T=0 T=1 Tiempo

Inscritos

No inscritos

Impacto=0.11

A=0.74

Impacto =(A-B)-(C-D)=(A-C)-(B-D)

Em

ple

ad

o

Impacto<0.11

B=0.60

A=0.74

C=0.81

D=0.78

T=0 T=1 Tiempo

Inscritos

No inscritos

Tener en mente

Diferencia en diferenciasDiferencias en Diferencias combina Inscritos y No Inscritos con Antes y Después.

Pendiente: Genera contrafactual para el cambio en el resultadoTendencias-pendientes-son los mismos en los tratamientos y las comparaciones(Supuesto Fundamental).

Para probar vaidez DD, se necesitan a) Al menos 3 observaciones en el tiempo:• 2 observaciones antes• 1 observación

después.b) Placebo de grupo (e.g. clase no afectada por programa) o de resultado (numero hermanos)

!






Apareamiento (Matching)Para cada unidad tratada seleccionar la mejor unidad de comparación (par) de otra fuente de datos.

Idea

Pares se seleccionan sobre la base de similitudes de características observadas.

¿Cómo?

Si hay características no observables y esas características no observables influyen en la participación: El sesgo de selección!

Problema?

Puntuacion de la Propension Propensity-Score Matching (PSM)

Grupo de comparación: los no participantes con las mismas características observables que los participantes.

• En la práctica, es muy difícil.• Puede haber muchas características

importantes!Apareamiento (matching) basado en el “propensity score”, Solución propuesta por Rosenbaum and Rubin:

• Calcule la probabilidad de todos los individuos de participar en el programa, en función de sus características observables.

• Elija pares que tienen la misma probabilidad de participación que los “tratamientos”.

Densidad de la puntuacion de la propension (propensity scores)Densidad

Propensity Score

0 1

ParticipantesNo-Participantes

Apoyo Comun

Caso 7: Progresa Matching (P-Score)

Características basales Coeficiente Estimado

Probit Regression, Prob Enrolled=1

Edad de la Cabeza (años) -0.022**Edad del cónyuge (años) -0.017**La educación de la cabeza (años) -0.059**La educación del cónyuge (años) -0.03**La cabeza es mujer = 1 -0.067Indígena = 1 0.345**Número de miembros del hogar 0.216**Piso de tierra = 1 0.676**Baño 1 -0.197**Hectáreas de tierra -0.042**Distancia al Hospital (km) 0.001*Constante 0.664**

Nota: Si el efecto es estadísticamente significativo a un nivel de significación del 1%, etiquetamos el impacto estimado con 2 estrellas (**).

Tener en menteApareamiento (Matching)- Matching requiere grandes muestras y datos de buena calidad.- Validez externa requiere matching de todas unidades de tratamiento. Matching en la línea base puede ser muy útil:• Conocer la regla de asignación

y aparear en base a esa regla• combinar con otras técnicas

(por ejemplo diff-in-diff)

Ex-post matching es arriesgado:• Si no hay línea

de base, tenga cuidado!

• Matching con variables ex post endógenos da malos resultados.

!

Progresa – Recomendaciones de Politica Publica?

Nota: Si el efecto es estadísticamente significativo a un nivel de significación del 1%, etiquetamos el impacto estimado con 2 estrellas (**). Si significativo al nivel del 10%, etiquetamos el impacto con +

Impacto de Progresa en Consumo (Y)

Caso 1: Antes y Después 34.28**Caso 2: Estar inscrito y No Inscrito -4.15Caso 3: Asignación aleatorizada 29.75**Caso 4: Promoción aleatorios 30.4**Caso 5: Diseño de discontinuidad 30.58**Caso 6: Diferencias en Diferencias 25.53**CasO 7: Matching 7.06+


Combinació

n de métodos





¿De dónde provienen los grupos de comparación?

Las reglas de operación del programa determinan la estrategia de evaluación.Casi siempre podemos encontrar un grupo de comparación válido si:

• Las reglas operacionales para la selección de los beneficiarios son equitativas, transparentes y respetables (accountable);

• la evaluación se ha diseñado de forma prospectiva.

Reglas de operación y los posibles diseños

Utilice las oportunidades para generar buenos grupos de comparación y de garantizar que la linea base es levantada.

3 preguntas para determinar qué método es el apropiado para un determinado programa • Dinero: ¿el programa tiene los recursos suficientes para

lograr escala y lograr una cobertura completa de todos los beneficiarios elegibles?

• Reglas de targeting: ¿Quién es elegible para recibir los beneficios del programa? Es el programa específico sobre la base de un corte de elegibilidad o está a disposición de todo el mundo?

• Tiempo: ¿cómo son los posibles beneficiarios inscritos en el programa - todos a la vez o por fases con el tiempo?

La elección de su método(s) de IEDinero Exceso de demanda No hay exceso de demanda

Targeting

Tiempo

Focalizado Universal Focalizado Universal

Despliegue en

Fases

1 Asignación Aleatoria

4 Descontinuidad


2 Promociónaleatoria3 Diff-in-Diff

con5 Matching


4Descontinuidad

1 Randomizedassignment tophases2 PromociónAleatoria para

inscripcion/toma temprana

3 Diff-in-Diff con5 Matching

Despliegue

Inmediato


4 Descontinuidad


2 Promociónaleatoria3 Diff-in-Diff

con5 Matching

4Descontinuidad

Si menos de inscripcion/toma completa:

2 Promociónaleatoria3 Diff-in-Diff con5 Matching

“Recuerde

El objetivo de la evaluación de impacto es estimar el efecto causal o el impacto de un programa sobre los resultados de interés (outcomes).

“Recuerde

oPara estimar el impacto, necesitamos estimar el contrafactual.o lo que habría sucedido en ausencia

del programa youtilizar grupos de comparación o de

control.

“Recuerde

Tenemos 5 métodos para identificar buenos grupos de comparación.

“Recuerde

Elegir el mejor método de evaluación que es factible en el contexto operativo del programa.

Disponible en Inglés, Español y Francés

www.worldbank.org/ieinpractice

Referencia

Anexo : Pasos en el Propensity Score Matching

1. Encuesta representante y altamente comparable de los no afiliados y afiliados.

2. Reunir las dos muestras y se estima un modelo logit (o probit) de participación en el programa.

3. Restringir las muestras para asegurar el apoyo común (fuente importante de sesgo en los estudios observacionales)

4. Para cada participante encontrar una muestra de no participantes que tienen puntajes de propensión similares

5. Comparar los indicadores de resultados. La diferencia es la estimación del efecto debido al programa para esa observación.

6. Calcular la media de estas ganancias individuales para obtener el efecto total promedio.

Documents

Impact Evaluation 4 Peace 24-27 March 2014, Lisbon, Portugal 1 Métodos No- experimentales Latin America and the Caribbean’s Citizen Security Team Victor