28
Quantitative Wirkungsmessung (ohne Formeln) Linda Kleemann

Quantitative Evaluierungsmethoden ohne Formeln erklärt

Embed Size (px)

Citation preview

Quantitative Wirkungsmessung (ohne Formeln)

Linda Kleemann

2

Einordnung

• Evaluierung und Monitoring – Monitoring: Auskunft, ob ein Programm wie geplant abläuft

oder es zu Störungen kommt – Prozessevaluation: Evaluation des Programmablaufs – Kosten-Nutzen-Analysen: effizienter Mitteleinsatz? Vergleich

mit alternativen Mittelverwendungen – Wirkungsbeobachtung: Gewünschte Effekte? Dem

Programm zuzuschreiben?

• Dieser Vortrag: quantitative Methoden der Wirkungsbeobachtung oder Wirkungsmessung

Quantitative Methoden der Wirkungsbeobachtung

• Versuch der Messung eines kausalen Effekts, des Beitrags der Maßnahme zur Veränderung eines Wirkungsindikators

Fokus auf interner Validität mit besonderer Berücksichtigung von:

• Selektionsverzerrung (Fragen alleine reicht nicht) – Zwei Ursachen von Selektion können analytisch

unterschieden werden: “observables” (Alter, Bildung etc.) und “unobservables” (Motivation, bestimmte schwer beobachtbare Fähigkeiten wie Unternehmergeist)

• Weiteren Faktoren, die den Wirkungsindikator beeinflussen könnten

• Berücksichtigung von Wirkungsheterogenität Zum Teil Berücksichtigung von Wirkungsmechanismen (Fragen

nach dem warum oft eher qualitativ) 3

• Interne Validität (identification strategy) – Messe ich richtig? Also wird die Veränderung der abhängigen

Variablen tatsächlich vom Stimulus und nicht durch das Auftreten von Störvariablen oder Verzerrungen verursacht

– Trade off zwischen maximaler Situationskontrolle und Realitätsnähe

• Externe Validität – Übertragbarkeit auf die Wirklichkeit oder andere

Regionen/Kontexte

4

5

Das Evaluationsproblem

• Wirkung= Differenz eines bestimmten Indikators (z.B. Gewinn von Unternehmen) zwischen einer Situation MIT und OHNE Implementierung eines Projekts/Programms

• Messung der Wirkung: Evaluationsproblem – Messbar: Indikator VOR and NACH Maßnahme – Nicht/schwer messbar: Indikator OHNE Maßnahme

• Lösung: Konstruktion eines COUNTERFACTUALS bzw. Identifikation einer relevanten Kontrollgruppe mittels geeigneter Methoden

• Evaluationsproblem als Problem fehlender Daten: Wir beobachten nie denselben Teilnehmer auch als Nicht-Teilnehmer

6

Konstruktion eines Counterfactuals

• Folgende Probleme sind zu lösen – Selektionsverzerrung: Selektion in ein Programm in der

Regel nicht zufällig – Confounding Factors: andere Dinge passieren gleichzeitig,

und zwar nicht unbedingt im gleichen Ausmaß in der Kontrollgruppe

– Spillovers: Nicht-Teilnehmer werden durch das Programm beeinflusst

• Einfache Unterscheidung in Teilnehmer und Nicht-Teilnehmer oft nicht ausreichend, auch nicht Vorher-Nachher

• Zwei Vorgehensweisen – Soziale Experimente: Zufällige Auswahl der Teilnehmer und

Bildung einer Kontrollgruppe – Quasi-experimentelle Methoden: Statistische Verfahren zur

Identifikation einer Kontrollgruppe

7

Evaluationsproblem grafisch: wir beobachten einen Indikator…

Y1 (observed)

Y0 t=0 Intervention

8

…der nach der Intervention höher ist

Y1 (observedl)

Y0 t=0 t=1 time Intervention

9

Um die Wirkung des Programms zu messen müssten wir wissen was passiert wäre wenn das Programm nicht existiert hätte

Y1 (observedl) Impact = Y1- Y1

* Y1

* (counterfactual)

Y0 t=0 t=1 time

Intervention

Probleme bei der Konstruktion des Counterfactuals

Y1

Y1

*

Y0 t=0 t=1 time

Selection bias

Confounding factors

Häufig benutzte Lösungsmethoden

• Randomized controlled trials (RCTs) • Double difference/difference in difference • Matching Methoden • Diskontinuitätsdesigns • (endogeneous) Switching Regressions, Verwendung von

Instrumentvariablen (IVs) (kombinierbar)

11

12

Soziale Experimente / RCTs

• Programm/Projekt wird zufällig Teilen einer Population (idR Stichprobe) zugeordnet

• Zufällige Auswahl schließt Selektionsverzerrung aus: Teilnehmer und Nicht-Teilnehmer unterscheiden sich nicht, weder in beobachtbaren noch unbeobachtbaren Eigenschaften

• Unterschiede zwischen Teilnehmern und Nicht-Teilnehmern ausschließlich auf Programm zurückzuführen

13

Beispiel: Kapitalerträge von Mikrounternehmern in Entwicklungsländern

• De Mel, McKenzie, Woodruff: Experiment mit Mikrounternehmern in Sri Lanka (z.B. QJE, 2008)

• Ziele – Messung der Kapitalerträge in Kleinstunternehmen – Gründe für hohe (?) Kapitalerträge – Gründe für Unterschiede zwischen Unternehmern – Potential für Mikrokredit/-finanzprogramme

• Schönes Beispiel für Anwendbarkeit von Experimenten im Kontext von Privatwirtschaftsentwicklung

14

Das Experiment

• Randomisiertes Experiment: Ein zufällig ausgewählter Teil der befragten Umfrage Mikrounternehmen (Kapital < USD 1000) in Sri Lanka erhält einen Transfer/Preis von USD 100 oder USD 200 – USD 100 Investitionsgüter oder cash – USD 200 cash

• Fünf vierteljährliche Umfragerunden, Preise nach der ersten und dritten (Lotterie)

• Investitionsgüter gewählt durch Unternehmer, gekauft durch RAs

• 408 Unternehmen, ca. 50% erhalten treatment

15

Einige Resultate

• 58 % des cash Transfers investiert • Investitionen in Erweiterung des bestehenden Geschäft, keine

neuen riskanten Geschäfte • Geschätzter Kapitalertrag: 4.6-5.3 % monatlich (80 % jährlich)

– Höher für fähigere Unternehmer – Niedriger für reiche Haushalte (weniger

kreditmarktbeschränkt) – Risikoaversion fast ohne Einfluss

• Unvollständige Kreditmärkte wichtiger als fehlende Versicherungsmärkte

Probleme bei RCTs

• Greift ggf. in die Implementierung ein • Ethische Fragen • „Hawthorne-Effekt“: Verhaltensänderung aufgrund von

Teilnahme an einem Experiment • (Verhinderung von) Spillovers • Kritik von Deaton: u.a. Methodik (vieles unter anderem die

Berechnung von Standardfehlern unterliegt Annahmen, daher kein „Gold Standard“, aber auch externe Validität, Verzerrung versus Präzision – Zum weiterhören: http://www.nyudri.org/events/annual-conference-2012-debates-in-

development/deaton-v-banerjee/ und lesen: https://medium.com/@timothyogden/experimental-conversations-angus-deaton-b2f768dffd57

16

17

Quasi-experimentelle Methoden: Überblick

• Matching: Konstruktion einer Kontrollgruppe von Nicht-Teilnehmern mit möglichst ähnlichen Charakteristika

• Double difference: erste Differenz Vorher-Nachher, zweite Differenz Teilnehmer vs. Nicht-Teilnehmer

• Diskontinuitätsdesigns: Nutzung von „threshold effects“ (Schwellenwerteffekte), Vergleich von ansonsten sehr ähnlichen Teilnehmern knapp über vs. knapp unter Schwellenwert

• Instrumentvariable: Zunächst Erklärung der Programmteilnahme, dann der Wirkung

• Methoden kombinierbar

18

Matching

• Jedem Teilnehmer wird mit Hilfe beobachtbarer Charakteristika ein möglichst ähnlicher Nicht-Teilnehmer zugeordnet: Kontrollgruppe

• Weit verbreitetes Matching-Verfahren: „Propensity Score Matching“: Vergleich von Teilnehmern und Nicht-Teilnehmern mit gleicher Wahrscheinlichkeit am Programm teilzunehmen

• Es wird angenommen, dass die Teilnahme gegeben beobachtbarer Faktoren unabhängig vom Ergebnis (der Wirkung) ist

• Wirkung: Differenz in den durchschnittlichen Zielgrößen zwischen Teilnehmern und Kontrollgruppe

• starke Ähnlichkeit mit experimentellen Methoden • Möglich wenn nur ex-post Daten existieren

19

Matching: Probleme

• Strikte Annahme: – Beseitigt nur den Teil der Selektionsverzerrung, der sich auf

beobachtbare Unterscheidungsmerkmale zurückführen lässt, also keine “unobservable heterogeneity”

• Treatment effect on the treated ist dann identifiziert (nicht-parametrisch)

• Hohe Qualität der Daten erforderlich

– Survey-Design für Teilnehmer und Nichtteilnehmer ähnlich (am besten identisch)

– beiden Gruppen sollten ähnlichen ökonomischen Rahmenbedingungen ausgesetzt sein

• In Empirie teils große Unterschiede in Ergebnissen auf der Basis von Propensity-Score-Matching vis-a-vis RCTs (aber auch beim Versuch der Replikation von RCTs)

20

Double Difference

• Grundidee: Vergleich der Zielgrößen von Teilnehmern und Nicht-Teilnehmern vor und nach der Implementierung – Für Teilnehmer- und Nicht-Teilnehmergruppe wird der

Unterschied in der Zielgröße vor und nach Einführung des Projekts berechnet (first difference)

– Vergleich der Differenzen (second difference): Wirkung • Vorteil: Teil der Selektionsverzerrung durch unbeobachtbare,

aber über die Zeit konstant bleibende Unterscheidungsmerkmale (z.B. Intelligenz) wird beseitigt

• Kann mit Matching kombiniert werden, um Selektionsverzerrung noch weiter zu reduzieren

Diff-in-diff: Verzerrung muss additiv und zeitinvariant sein

Diff-in-diff versagt, wenn die Kontrollgruppe sich anders entwickelt

DD überschätzt die Wirkung

Oder …

DD unterschätzt die Wirkung (typische Situation für Entwicklungsprojekte?)

Mögliche Lösung

• Kombination von PSM & DiD: – ~ Korrektur der Verzerrung vor und hinterher

Y1 Impact?

Y1

*

Y0 t=0 t=1 time

25

Double Difference: Probleme

• Vor Beginn des Programms müssen Daten für die potentiellen Teilnehmer und Nicht-Teilnehmer erhoben werden: Oft keine genauen Informationen darüber, wer die Begünstigten sein werden

• Annahme einer zeitinvarianten Selektionsverzerrung ist häufig nicht erfüllt: – Programme für benachteiligte/arme Gruppen spiegeln idR

ungünstige Ausgangsbedingungen wider, die sich wiederum negativ auf die Entwicklung der Zielgröße für Teilnehmer im Vergleich zur Kontrollgruppe auswirken

– Selektionsverzerrung nimmt dann im Zeitablauf zu und verzerrt den Schätzer für die Wirkung

26

Zentral für Methodik: die passenden Daten

• Auf jeden Fall: – Identifikation der (Nicht-) Teilnehmer – Intensität oder Modalität der Teilnahme – Sozioökonomische Charakteristika – Wirkungsvariablen (direkte oder indirekte Wirkung)

• Vorsicht bei Operationalisierung der Wirkungsvariablen (Einkommen, Konsum)

• Vorhandene Daten? „piggy-backing“? • Kosten sehr unterschiedlich • Methoden und Daten gehen Hand in Hand

27

Methoden und Datenanforderungen

Methode Datenanforderungen

minimal optimal

Experimente Querschnittsdaten mit Teilnehmern und Nicht-Teilnehmern

Vorher-Nachher Daten mit Teilnehmern und Nicht-Teilnehmern, Erhebung weiterer Kontrollvariablen

Matching Querschnittsdaten mit Teilnehmern und Nicht-Teilnehmern mit großer Stichprobe

Wie links, aber für zwei Zeitpunkte (Vorher-Nachher)

Double Difference Vorher-Nachher-Daten mit Teilnehmer und Nicht-Teilnehmer

Wie links, aber für Teilnehmer und vergleichbare Nicht-Teilnehmer

Instrument-variablen

Querschnittsdaten mit Teilnehmern und Nicht-Teilnehmern, Instrument

Wie links, aber für zwei Zeitpunkte (Vorher-Nachher)

28

Conclusions

• Verzerrung einer Wirkungsbeobachtung kann zu vollkommen falschen Schlüssen hinsichtlich der Wirkungen eines Projektes führen! Anwendung rigoroser wissenschaftlicher Methoden daher sinnvoll

• Trotz quantitativem Fokus: Grundsätzliche Probleme der Identifizierung eines Gegenszenarios und der relevanten Vergleichsgruppe sind bei qualitativen Verfahren die gleichen

• Fokus bisher: Interne Validität • Um aus Wirkungsbeobachtungen zu lernen: Externe Validität

wichtiger – Können diese Resultate generalisiert werden?

• Faktoren, die beachtet werden müssen, bevor man die Ergebnisse einer Wirkungsbeobachtung verallgemeinert – Kontextbedingungen – Spillovers und allgemeine Gleichgewichtseffekte – Bei Auswertung von Studien: Publikationsbias