Quantitative Evaluierungsmethoden ohne Formeln erkl¤rt

  • View
    323

  • Download
    4

Embed Size (px)

Text of Quantitative Evaluierungsmethoden ohne Formeln erkl¤rt

  • Quantitative Wirkungsmessung (ohne Formeln)

    Linda Kleemann

  • 2

    Einordnung

    Evaluierung und Monitoring Monitoring: Auskunft, ob ein Programm wie geplant abluft

    oder es zu Strungen kommt Prozessevaluation: Evaluation des Programmablaufs Kosten-Nutzen-Analysen: effizienter Mitteleinsatz? Vergleich

    mit alternativen Mittelverwendungen Wirkungsbeobachtung: Gewnschte Effekte? Dem

    Programm zuzuschreiben?

    Dieser Vortrag: quantitative Methoden der Wirkungsbeobachtung oder Wirkungsmessung

  • Quantitative Methoden der Wirkungsbeobachtung

    Versuch der Messung eines kausalen Effekts, des Beitrags der Manahme zur Vernderung eines Wirkungsindikators

    Fokus auf interner Validitt mit besonderer Bercksichtigung von:

    Selektionsverzerrung (Fragen alleine reicht nicht) Zwei Ursachen von Selektion knnen analytisch

    unterschieden werden: observables (Alter, Bildung etc.) und unobservables (Motivation, bestimmte schwer beobachtbare Fhigkeiten wie Unternehmergeist)

    Weiteren Faktoren, die den Wirkungsindikator beeinflussen knnten

    Bercksichtigung von Wirkungsheterogenitt Zum Teil Bercksichtigung von Wirkungsmechanismen (Fragen

    nach dem warum oft eher qualitativ) 3

  • Interne Validitt (identification strategy) Messe ich richtig? Also wird die Vernderung der abhngigen

    Variablen tatschlich vom Stimulus und nicht durch das Auftreten von Strvariablen oder Verzerrungen verursacht

    Trade off zwischen maximaler Situationskontrolle und Realittsnhe

    Externe Validitt bertragbarkeit auf die Wirklichkeit oder andere

    Regionen/Kontexte

    4

  • 5

    Das Evaluationsproblem

    Wirkung= Differenz eines bestimmten Indikators (z.B. Gewinn von Unternehmen) zwischen einer Situation MIT und OHNE Implementierung eines Projekts/Programms

    Messung der Wirkung: Evaluationsproblem Messbar: Indikator VOR and NACH Manahme Nicht/schwer messbar: Indikator OHNE Manahme

    Lsung: Konstruktion eines COUNTERFACTUALS bzw. Identifikation einer relevanten Kontrollgruppe mittels geeigneter Methoden

    Evaluationsproblem als Problem fehlender Daten: Wir beobachten nie denselben Teilnehmer auch als Nicht-Teilnehmer

  • 6

    Konstruktion eines Counterfactuals

    Folgende Probleme sind zu lsen Selektionsverzerrung: Selektion in ein Programm in der

    Regel nicht zufllig Confounding Factors: andere Dinge passieren gleichzeitig,

    und zwar nicht unbedingt im gleichen Ausma in der Kontrollgruppe

    Spillovers: Nicht-Teilnehmer werden durch das Programm beeinflusst

    Einfache Unterscheidung in Teilnehmer und Nicht-Teilnehmer oft nicht ausreichend, auch nicht Vorher-Nachher

    Zwei Vorgehensweisen Soziale Experimente: Zufllige Auswahl der Teilnehmer und

    Bildung einer Kontrollgruppe Quasi-experimentelle Methoden: Statistische Verfahren zur

    Identifikation einer Kontrollgruppe

  • 7

    Evaluationsproblem grafisch: wir beobachten einen Indikator

    Y1 (observed)

    Y0 t=0 Intervention

  • 8

    der nach der Intervention hher ist

    Y1 (observedl)

    Y0 t=0 t=1 time Intervention

  • 9

    Um die Wirkung des Programms zu messen mssten wir wissen was passiert wre wenn das Programm nicht existiert htte

    Y1 (observedl) Impact = Y1- Y1*

    Y1* (counterfactual)

    Y0 t=0 t=1 time

    Intervention

  • Probleme bei der Konstruktion des Counterfactuals

    Y1

    Y1*

    Y0 t=0 t=1 time

    Selection bias

    Confounding factors

  • Hufig benutzte Lsungsmethoden

    Randomized controlled trials (RCTs) Double difference/difference in difference Matching Methoden Diskontinuittsdesigns (endogeneous) Switching Regressions, Verwendung von

    Instrumentvariablen (IVs) (kombinierbar)

    11

  • 12

    Soziale Experimente / RCTs

    Programm/Projekt wird zufllig Teilen einer Population (idR Stichprobe) zugeordnet

    Zufllige Auswahl schliet Selektionsverzerrung aus: Teilnehmer und Nicht-Teilnehmer unterscheiden sich nicht, weder in beobachtbaren noch unbeobachtbaren Eigenschaften

    Unterschiede zwischen Teilnehmern und Nicht-Teilnehmern ausschlielich auf Programm zurckzufhren

  • 13

    Beispiel: Kapitalertrge von Mikrounternehmern in Entwicklungslndern

    De Mel, McKenzie, Woodruff: Experiment mit Mikrounternehmern in Sri Lanka (z.B. QJE, 2008)

    Ziele Messung der Kapitalertrge in Kleinstunternehmen Grnde fr hohe (?) Kapitalertrge Grnde fr Unterschiede zwischen Unternehmern Potential fr Mikrokredit/-finanzprogramme

    Schnes Beispiel fr Anwendbarkeit von Experimenten im Kontext von Privatwirtschaftsentwicklung

  • 14

    Das Experiment

    Randomisiertes Experiment: Ein zufllig ausgewhlter Teil der befragten Umfrage Mikrounternehmen (Kapital < USD 1000) in Sri Lanka erhlt einen Transfer/Preis von USD 100 oder USD 200 USD 100 Investitionsgter oder cash USD 200 cash

    Fnf vierteljhrliche Umfragerunden, Preise nach der ersten und dritten (Lotterie)

    Investitionsgter gewhlt durch Unternehmer, gekauft durch RAs

    408 Unternehmen, ca. 50% erhalten treatment

  • 15

    Einige Resultate

    58 % des cash Transfers investiert Investitionen in Erweiterung des bestehenden Geschft, keine

    neuen riskanten Geschfte Geschtzter Kapitalertrag: 4.6-5.3 % monatlich (80 % jhrlich)

    Hher fr fhigere Unternehmer Niedriger fr reiche Haushalte (weniger

    kreditmarktbeschrnkt) Risikoaversion fast ohne Einfluss

    Unvollstndige Kreditmrkte wichtiger als fehlende Versicherungsmrkte

  • Probleme bei RCTs

    Greift ggf. in die Implementierung ein Ethische Fragen Hawthorne-Effekt: Verhaltensnderung aufgrund von

    Teilnahme an einem Experiment (Verhinderung von) Spillovers Kritik von Deaton: u.a. Methodik (vieles unter anderem die

    Berechnung von Standardfehlern unterliegt Annahmen, daher kein Gold Standard, aber auch externe Validitt, Verzerrung versus Przision Zum weiterhren: http://www.nyudri.org/events/annual-conference-2012-debates-in-

    development/deaton-v-banerjee/ und lesen: https://medium.com/@timothyogden/experimental-conversations-angus-deaton-b2f768dffd57

    16

    http://www.nyudri.org/events/annual-conference-2012-debates-in-development/deaton-v-banerjee/http://www.nyudri.org/events/annual-conference-2012-debates-in-development/deaton-v-banerjee/https://medium.com/@timothyogden/experimental-conversations-angus-deaton-b2f768dffd57https://medium.com/@timothyogden/experimental-conversations-angus-deaton-b2f768dffd57

  • 17

    Quasi-experimentelle Methoden: berblick

    Matching: Konstruktion einer Kontrollgruppe von Nicht-Teilnehmern mit mglichst hnlichen Charakteristika

    Double difference: erste Differenz Vorher-Nachher, zweite Differenz Teilnehmer vs. Nicht-Teilnehmer

    Diskontinuittsdesigns: Nutzung von threshold effects (Schwellenwerteffekte), Vergleich von ansonsten sehr hnlichen Teilnehmern knapp ber vs. knapp unter Schwellenwert

    Instrumentvariable: Zunchst Erklrung der Programmteilnahme, dann der Wirkung

    Methoden kombinierbar

  • 18

    Matching

    Jedem Teilnehmer wird mit Hilfe beobachtbarer Charakteristika ein mglichst hnlicher Nicht-Teilnehmer zugeordnet: Kontrollgruppe

    Weit verbreitetes Matching-Verfahren: Propensity Score Matching: Vergleich von Teilnehmern und Nicht-Teilnehmern mit gleicher Wahrscheinlichkeit am Programm teilzunehmen

    Es wird angenommen, dass die Teilnahme gegeben beobachtbarer Faktoren unabhngig vom Ergebnis (der Wirkung) ist

    Wirkung: Differenz in den durchschnittlichen Zielgren zwischen Teilnehmern und Kontrollgruppe

    starke hnlichkeit mit experimentellen Methoden Mglich wenn nur ex-post Daten existieren

  • 19

    Matching: Probleme

    Strikte Annahme: Beseitigt nur den Teil der Selektionsverzerrung, der sich auf

    beobachtbare Unterscheidungsmerkmale zurckfhren lsst, also keine unobservable heterogeneity

    Treatment effect on the treated ist dann identifiziert (nicht-parametrisch)

    Hohe Qualitt der Daten erforderlich

    Survey-Design fr Teilnehmer und Nichtteilnehmer hnlich (am besten identisch)

    beiden Gruppen sollten hnlichen konomischen Rahmenbedingungen ausgesetzt sein

    In Empirie teils groe Unterschiede in Ergebnissen auf der Basis von Propensity-Score-Matching vis-a-vis RCTs (aber auch beim Versuch der Replikation von RCTs)

  • 20

    Double Difference

    Grundidee: Vergleic